Apache Pegasus 是分布式 KV 存储系统,目标是服务于数据规模较大、对延迟敏感、有一致性要求、且有持久化存储需求的业务。

2021年9月25日,由小米开源委员会主办的 Apache Pegasus 首次 Meetup 圆满完成。小米集团副总裁崔宝秋博士、小米开源委员会主席覃左言、3名小米高级软件工程师、2名神策高级软件工程师作为受邀嘉宾参与了此次 Meetup。Meetup 共计时长5小时,线下参加的用户人数达75+,线上B站和DataFun直播观看的人数达800+。各个答疑环节,观众积极提问,嘉宾热情解答, Meetup 在热烈的讨论和交流中圆满结束。现场参加的用户对本次 Meetup 表示极大的认可,现场获得一致好评。

1

小米集团副总裁崔宝秋的发言

1. Apache  Pegasus 首次 Meetup

本次 Apache  Pegasus Meetup 是我们期待已久的,由小米开源委员会主导举办的,在 Pegasus 加入 Apache 基金会之后的首次 Meetup 。举办 Meetup 是我再两三年前就已建议的,由于种种契机,终于在今天得以实现。感谢小米开源委员会及开源委员会主席覃左言的主导和参与,感谢前来分享的专家们,也感谢线上线下参加的同学们,因为大家,本次 Meetup 才终于可以在小米科技园隆重召开。

2. 小米的开源文化

拥抱开源是一个小米十多年发展历程中的工程师文化的重要部分。

从创业之初,雷总看中了安卓的开源,小米便从云计算、大数据到今天的 AI ,从最开始的 Hadoop、HBase,到后来的 Open-Falcon(运维监控系统)、MACE(移动端深度学习框架)、 Kaldi(语音识别工具),逐步深度地拥抱开源,参与开源项目。到今天,开源在小米几乎无处不在。

今年,开源首次被列入政府的 “十四五” 规划中,我做了26年开源,这在之前完全无法想象的!我最近在参加的各个行业大会上面讲,开源是人类技术进步的最佳平台与模式,是互联网大数据和 AI 时代促成的。今天开源不仅在小米无处不在,在每个人所处的行业中,在各种组织机构、企业、高校中也是无处不在。

3. Pegasus如何成立

从最开始拥抱 Hadoop 这些开源的生态,小米就被很多业界人称为 “HBase 的黄埔军校”,我们培养了10多个 Commiter 以及 PMC Member,后来张铎(铎神)也成为了 HBase 项目的主席,真正实现了我们当年立下的 flag :我们的开源理念不仅要站在巨人的肩膀上,还要为巨人指方向。

但是 HBase 这个项目,懂技术的人应当都清楚,它也存在缺陷,因为 JAVA、 GC 造成的延时的不可预测性,导致在很多场景下其性能不能完全满足小米以及很多行业内的需求。在很多年前小米还没有成立广告部门的时候,我们就已预料到,在分分钟就能影响上亿营收的广告业务上,HBase 是完全不够的。

随着小米的开源之路一点点落地,我们终于在2015年初内部立项,决定自己写一个高性能的KV系统。但因当时并没有精力过多投入,大概只投入了两个人的人力,历经两年多时间才得以完成。当时我称为“细水长流,长期主义,长线布局”。直到2017年,Pegasus 才逐步成熟,从冯宏华到覃左言,都为此做出了巨大的贡献。

Pegasus 于2017年正式对外开源。开源之后,我一直在推动将这个项目推荐给 Apache 基金会,推动了很长时间,但因为公司业务发展快,压力比较大,无法真正提到日程上来。直到去年,非常兴奋,这个项目终于成为了 Apache 孵化器的项目!Pegasus 成为小米正式捐献给国际开源基金会的首个项目,是我们精心打造的一个KV系统,是我们不光要造福小米的业务,也要造福同行的一个项目。

4. 携手共建

小米一直推崇的是一个非常极致的、纯粹的开源文化。何为极致和纯粹?是真正弘扬开源文化、开源精神,坚持开放、平等、中立,强调无私的共建。这也与 Apache 基金会坚持走的道路(Apache Way)不谋而合。

我们希望看到开源界的同行,包括对KV系统、存储系统有兴趣的技术牛人、开源爱好者,能一起参与到 Apache Pegasus 这个项目中,真正来一起共建。我们的理念是不仅要站在巨人的肩膀上,还要为巨人指方向。如何指方向?如果你希望 Pegasus 成为一个巨人,你怎么影响这个巨人,你期望他走向何方,“show me your code”!

未来,小米在开源的路上会越走越远,越走越深,我们会有越来越多的项目进入 Apache 基金会或者其他基金会,进入中国的基金会,也希望更多的人加入进来,包括 MACE、Kaldi、以及小米的机器人项目等等,都需要更多人参与进来。开源是小米一个亘古不变的话题,是我们会持续推进、不断加深的领域,也希望大家在此次 Meetup 中能有所收获。

2

小米开源委员会主席覃左言讲述陪伴

Pegasus 成长的心路历程

Pegasus 举办 Meetup 是我历来已久的心愿,今天终于实现了,我非常激动。

1. 初创

在加入小米之前,我就希望能自己做一个KV 存储,在 2015 年 4 月加入小米之后,我与另一位同学孙伟杰在宏华、航军、宝秋总的大力支持下真正开始做这个系统。我们每天一边看论文,一边吭哧吭哧埋头写代码,当时的宝秋总作为整个人工智能与云平台的负责人,对这个项目给予了极大的支持,也对我们报以了极大的耐心,告诉我们“基础的软件要细水长流地做起”。

基于这样的支持,在历经两年的研发之后,我们终于在2017年把系统做的比较完善,逐渐上线了越来越多的业务。

2. 成熟

我们发现,这个方向的系统在开源领域并没有特别好的实现,为了能让更多人使用,造福更多的需求者,我们在2017年将这个项目开源在 Github 上,很快就获得了上千 Star 关注。在2020年初开源委员会开例会时候,我们又提出了将 Pegasus 捐赠给 Apache 基金会,这个想法得到了宝秋总的大力支持,于是在2020年6月,经过几个月的努力,我们成功让这个项目成为了小米第一个 Apache 孵化器项目。

如今,很多外部的公司都在使用这个系统,比如神策、华为等,尤其是神策,已经在非常深度的使用它,为客户部署了上千个集群。这也让我们深深感受到了开源社区带来的好处,能够让外部的开发者都能参与进来,帮助 Pegasus 发掘更多的业务场景,推动这个系统越来越完善。

3. 未来

让 Pegasus 从 Apache 孵化器毕业,成为 Apache 的顶级项目,是我的一个心愿。这也是宝秋总提到的小米的开源文化:“极致”、“纯粹”的体现,不仅要“用”,而且要“精”!

我现在能在开源委员会做些贡献,真是非常高兴的事情。我坚信 Pegasus 未来的路会很长,应用的场景也会越来越多,未来是光明的。我们会秉持小米的开源文化,并将其在 Pegasus、MACE、Kaldi 这样的项目中发扬光大,让开源文化成为小米的一个标签。

3

Meetup 精彩回顾

1.  Pegasus 设计实现与开源之路

小米集团高级软件工程师,Apache Pegasus PPMC,何昱晨

本次分享首先介绍了 Pegasus 的架构、基本原理,再介绍 Pegasus 的新特性和适用场景,最后聚焦社区,分享 Pegasus 的开源历程和对未来社区建设的思考。

2. Pegasus 在小米数据接入上的实践

小米集团高级软件工程师,肖发腾

首先对比了在数据接入场景下 Pegasus 和 HBase 的性能差异,然后结合应用场景描述了 Pegasus 是如何支撑千亿级数据的映射关系。

3. 我们是如何支撑起上千个 Pegasus 集群的 --- 工程篇

神策数据分布式研发工程师,李国豪

介绍了 Pegasus 与神策的历史渊源、在神策支持的业务场景、私有化部署下 Pegasus 的工程化、私有化部署下 Pegasus 的监控策略、以及后续工作规划。

4. 我们是如何支撑起上千个 Pegasus 集群的 --- 工程篇

神策数据分布式研发工程师,王聃

介绍了神策在 Pegasus 内核做的一些功能性改进和非功能性改进,其中包括 Pegasus 的单节点部署、冷备份功能增强、权限认证增强、以及内存优化等。

5. 小米广告算法架构及Pegasus在特征缓存的实践

小米集团高级软件工程师,郝刚

主要介绍了小米广告算法的架构以及设计过程中所遇到的挑战,并介绍了如何利用 Pegasus 的相关特性解决这些挑战的。

4

Pegasus 未来规划

在未来,Pegasus 团队将继续积极完善系统功能,致力于开源社区的建设,发布更多功能完备、可靠健壮的新版本,并开展更多的社区活动。

在系统功能方面,Pegasus即将发布新版本2.3.0,包括150多个 commit ,新增 Partition Split 、用户自定义 compaction 规则等多个重要功能,修复优雅退出等多个 bug ,预计10月中旬正式发布。在后续规划中,Pegasus 将继续打磨 Bulk Load、跨机房热备份、热点 key 检测等已有功能,并计划新增 tracing 、admin-service 等能够提升系统可观测性和服务化能力的新功能,也将按照实际用户需求,探索支持不同副本数量、不同一致性需求的新架构。

在社区建设方面,我们计划提供系统 Benchmark 以及与其他分布式 KV 系统的对比结果,撰写更多技术文章和用户文档,帮助用户了解性能和使用场景,降低 Contributor 的贡献门槛。我们也将学习其他社区的开源经验,不定时举办线上 Workshop 和线下 Meetup 等活动,促进社区与用户之间的交流,加强开发者之间的沟通,扩大社区的技术影响力。

如你对 Pegasus 感兴趣,或者想要加入我们,请关注下方二维码:

END

猜你喜欢

1

Doris Stream Load原理解析

2

拥抱开源 | Xiaomi Vela团队成果连连,喜讯不断

3

HBase Compaction Offload功能的实现与应用

分享收藏点赞在看

Apache Pegasus 首次 Meetup 圆满落幕相关推荐

  1. 数据3分钟丨Apache Doris谴责DorisDB违背开源精神;HC2021下周召开;openGauss训练营第二期圆满落幕

    数据 3 分钟 由 ACDU (中国 DBA 联盟) 与墨天轮联合出品的全新视频节目上线啦-三分钟带你来了解数据行业动态,节目内容主要包含数据行业最新的产品发布.公司大事件.行业新闻等. 本期内容概览 ...

  2. 数据3分钟丨Apache Doris谴责DorisDB违背开源精神;HC2021下周召开;openGauss训练营第二期圆满落幕...

    数据 3 分钟 由 ACDU (中国 DBA 联盟) 与墨天轮联合出品的全新视频节目上线啦-三分钟带你来了解数据行业动态,节目内容主要包含数据行业最新的产品发布.公司大事件.行业新闻等. 本期内容概览 ...

  3. 精彩回顾 | Dev.Together 2022 开发者生态峰会圆满落幕

    3 月 25 日,由SegmentFault 思否和开源社联合主办的 Dev.Together 2022 开发者生态峰会圆满落幕.来自国际科技巨头.云计算领军企业.高成长企业.开源基金会.技术社区的 ...

  4. 万众赋能工业4.0:三一数据应用大赛圆满落幕

    近期,以"万众赋能工业4.0"为主题的2021三一数据应用大赛,于7月20日圆满落幕.本次大赛由三一集团主办,树根互联承办并负责赛事整体运营. 据了解,这是三一集团首次举办数据应用 ...

  5. KDD 2020捷报 | 第四范式斩获KDD Cup全球冠军 AutoML挑战赛圆满落幕

    近日,一年一度的国际数据挖掘顶级会议KDD正在如火如荼的进行.在此次会议中,第四范式捷报连连:首先,第四范式与北京航空航天大学童咏昕教授研究组组成的联合团队在千余支队伍中脱颖而出,获得KDD Cup ...

  6. 算法“视”界杯上演十强争锋,大赛终极一战圆满落幕

    ​8月16日,2021腾讯广告算法大赛"决赛十强答辩&获奖名单公布"于线上顺利举行,本场直播共有9600余位技术同学在"腾讯广告视频号.腾讯营销学院.腾讯视频.腾 ...

  7. 2020 OpenInfra Days China 圆满落幕,100+ 全球大咖共话开源基础设施智未来

    8 月 16-17 日,2020 OpenInfra Days China 在线上隆重召开.本次大会以"智能开源基础设施"为主题,秉持"无边界协作(Collaborati ...

  8. 直击六大会场 | 洞察100+创新实践,2018TOP100summit圆满落幕!

    北京时间11月30日-12月3日,由msup和中国国际人才交流基金会联合主办的第七届全球软件案例研究峰会(简称:TOP100summit)在北京国家会议中心圆满落幕.TOP100summit是科技界一 ...

  9. 让开发者成为决定性力量,华为开发者英雄汇圆满落幕

    摘要:与华为云开发者联盟,共同回顾精彩瞬间. 本文分享自华为云社区<让开发者成为决定性力量,华为开发者英雄汇圆满落幕>,作者: 华为云社区精选. 11月9日,华为全联接大会2022&quo ...

  10. 精彩回顾|2019决策易“绩效驱动,团队赋能”大会圆满落幕

    4月3日-4日,为期两天的第一届决策易营销信息化高级应用培训班于美丽的太湖之滨--苏州圆满落幕.决策易首次以这样大型会议的形式为客户讲解了一个覆盖市场营销管理价值链中所有关键业务的集成解决方案.会议以 ...

最新文章

  1. 两种超级智能,哪一个对人类未来影响更为深远?
  2. 虚拟化部署之Hyper-V简介
  3. golang--监控goroutine异常退出
  4. php redis hsetnx,Redis Hsetnx 命令
  5. 自从用完 Gradle 后,有点嫌弃 Maven 了!速度贼快!
  6. 从源码构建 MyBatis Generator(MBG)
  7. Andrew Ng's Deep Learning学习记录
  8. Android中给按钮同时设置背景和圆角示例代码
  9. python爬虫之bs4库_三分钟搞定bs4库的解析器
  10. VS2008内嵌水晶报表翻页BUG修正方法
  11. sql limit offset 的用法 但在SqlServer中用不了
  12. LanguageTool精简的两个思路
  13. android开源torrent解析,bt分析之bt种子制作(1)
  14. swfobject2.2参数详解
  15. mysql字段包含空格查询
  16. QT5编译android安卓程序的sdk安装问题 android sdk manager
  17. “Win7内部版本7600此Windows副本不是正版”解决方法
  18. 批量提取文件创建时间_文件列表提取软件的使用
  19. linux得到网卡mac地址,获取 linux 网卡MAC地址(包含编程方法)
  20. Unity 图片定点缩放功能

热门文章

  1. 黑马程序员Java零基础视频教程(2022最新Java)B站视频学习笔记-Day13-面向对象进阶01
  2. 疾病抗争从未停止,糖尿病数据可视化分析
  3. 《自控力》——凯利.麦格尼格尔
  4. 走近汇编理解与内核编程(楚狂人)
  5. java中average方法_Java中的IntStream average()方法
  6. fmt/core.h:1711:3: error: static assertion failed: Cannot format an argument.解决方案
  7. replay attacker
  8. 全国各省手机号测试用例
  9. 技术人员的一点产品思维思考
  10. python 定义一个迭代器去生成偶数数列