阿里妹导读:9月28日,阿里搜索迎来了十周年纪念日。久经考验的搜索与推荐平台,支撑了淘宝、天猫、优酷乃至海外电商在内整个阿里集团的推荐与搜索的业务,引导成交占据了集团GMV的绝大部分份额。随着智能化时代到来,已经发展为大数据深度学习的在线服务体系,在保持原有的全链路10秒级更新延迟的引擎平台之上,拓展支持各种深度学习网络预测的灵活拆分,支持超TB的模型,驱动异构计算、实时计算以及深度学习训练平台发展,不断追求效率的极致。

今天,五福老师将带领大家走进AI·OS(大数据深度学习在线服务体系)的十年基业里,看看工程如何与数据和算法一起驱动商业创新。

作者简介:五福,搜索&推荐工程技术负责人,阿里巴巴高级研究员,十年间带领搜索与推荐工程团队从追求极致效率入手,走向集团统一的引擎中台,实现了到智能化时代的升级,建立了世界领先的大数据深度学习的在线服务体系 AI·OS (Online Serving)。

AI·OS(Online Serving),大数据深度学习在线服务体系,由阿里巴巴工程、算法、效率的同事们砥砺十年而成,支撑起海内外阿里电商全部的搜索和推荐业务,时刻置身大数据主战场,引导成交占据集团大盘主体;此外,作为中台技术中坚,AI·OS已是包括电商、阿里云、优酷、菜鸟、盒马、钉钉等等在内全集团的基础设施;更为重要的是,AI·OS体系的云产品矩阵服务于全球开发者,今年预期在数千万级的营收规模。

AI·OS聚焦于深度学习的在线服务,其组件Jarvis甚至已经运行于手机上,但从功能角度来看,在体系中处于关键地位的有5个服务组件:TPP推荐业务平台、RTP深度学习预测引擎、HA3搜索召回引擎、DII推荐召回引擎、iGraph图查询引擎。AI·OS上的主要的算法场景,比如手淘的搜索、猜你喜欢、AIO以及海神等,都以图化(算子流程图定制)的模式对组件快速组合与部署并承担实验流量,让在线服务不拖模型训练的后腿随训随上,这是我们对迭代效率的最高水平的新演绎。

AI·OS这些关键服务组件能够幻化异彩纷呈的算法场景和技术产品,绝非机械组合可成。引擎图化的基础,尤其是对组件快速组合与部署并接流的能力,得益于我们对大数据在线服务的通用抽象(要求具备秒级数据更新的最终一致性),它就是Suez在线服务框架。Suez框架统一了3个维度的工作:

  • 索引存储(全文检索、图检索、深度学习模型)

  • 索引管理(全量、增量以及实时更新)

  • 服务管理(最终一致性、切流降级扩缩容等)

每一个服务组件比如iGraph,孤立地做好这几个维度至少要3年时间,哪怕是共享大部分代码,而做好它们只是一个在线服务的基本前提,毕竟我们都知道频繁的业务迭代一定是发生在图的计算层面。近日回顾,将iGraph迁移到Suez框架上,出于对使命的认同团队精锐尽出不计投入,使得AI·OS可以合围而成。

AI·OS体系里Hippo承担着集群物理资源的调度任务,这里是中台容器和隔离技术与搜索工程交汇之地,更是模型训练PAI-TF与实时计算Blink通过AOP成为体系友员的桥头堡。今天推荐与搜索的训练任务都运行在Hippo混部资源池上,算法鼎盛时期我见证过最大2千台、七天均值1300台百核机器满负荷运转,这些资源是免费获得的,而这些作业创造的价值大到无法估量。

AI·OS自身也是预测与优化算法的用武之地,其中AIOps更是集大成者,在metrics服务KMon解决了秒级实时可靠性之后,在TPP成功推升ajdk的负载极限之后,在广大无状态服务组件弹性扩缩成功之后,AIOps终于可以再迈进一步推动Hippo池内大部分引擎服务组件执行弹性策略,双11当日力争摸高50%的负载峰值。弹性扩缩据我们所知在大数据在线服务领域是开拓性的工作。

AI·OS得以自成体系完成算法迭代闭环,离不开嵌于手淘皇冠上的搜荐服务端和客户端两颗明珠,这里是算法工程产品融合亦是相关各方博弈的主场,高效的产品迭代和完善的实验机制配合支持体系不断实现众望所归的开疆辟土。近年来端上智能的探索逐步明晰,助力拍立淘突破数千万UV,技术上反哺手淘也给AI·OS体系带来新的发展空间。

AI·OS深入骨髓的产品化理念支撑我们自居中台技术中坚,TPP、TisPlus以及OpenSearch这些精准定位的推荐与搜索中台产品成就众多事业部的大数据场景和基础检索服务。国际化大潮中,AI·OS体系化部署无需定制开发,技术中台优势独显。索引更新链路的设计欠缺造成负面影响,鞭策我们的同时侧面也佐证AI·OS的基础地位。

云上拓展不仅是机遇更是AI·OS产品化的使命和终极归宿,一批早期的引擎开发者富有远见志同道合殊途同归勇于开拓,如今OpenSearch和ES(基于AI·OS体系的基础设施)已经全球部署成长为两款千万级的搜索产品,而名为AIRec的智能推荐产品即将问世,明年我们的公有云大数据产品矩阵有望营收有新突破。

总结一下,AI·OS体系的基石是Hippo它为体系划定了资源的刚性边界,资源为在线服务发展所必须,凡支持混部在资源角度能形成双赢的即为体系友员(比如PAI-TF),目前我们也在不断拓展Hippo边界即将与Yarn合体甚至合池;往上的Suez是体系里大数据在线服务的基础框架,支持Suez即为体系成员,除运维成本大幅降低外还很自然的参与AIOps弹性扩缩进一步提升系统效率;进而再具备图化能力即成为深度学习在线服务体系的核心成员,可以在业务场景里任意驰骋,未来我们寄望于全图化引擎与离线高效对接大幅提升算法迭代效率。

从Hippo到Suez(iGraph)再到图化引擎(RTP、HA3、DII),再延伸到手淘搜荐服务端与客户端,乃至其上的AIOps和几大技术产品TPP、TisPlus、OpenSearch,其核心线索是优化算法迭代效率,这乃是AI·OS体系的精髓所在。从今天AI·OS达到的境界而言,我在所知范围内还没有见到同行到达过。

AI·OS与算法

直白地讲,面对大数据业务挑战, AI·OS至多能起到30%的作用,随后是算法解决30%+,其余的靠产品和机缘,只不过AI·OS的30%是个前提条件,这容易被忽视,在早期淘宝搜索,不久前的手淘推荐在上演。很难想象有另外的技术领域会像这两个领域一样乐于相互成就,对彼此同事的职级、规模和疆域的成长感受到的只有羡慕。我们需要永远铭记,AI·OS发展的核心线索是优化算法迭代效率。

AI·OS与Blink

Blink孵化自早期的AI·OS体内,今天已蓬勃发展为通用实时计算引擎,不过二者间关系永远的凝结于实时二字之上:AI·OS体系的引擎服务都要求具备秒级数据更新的最终一致性,而Blink在AI·OS的场景之外再难寻觅真正的技术挑战。这就很容易解释为什么Blink团队珍视AOP,而AI·OS狂热地推动Blink上混部,甚至落地Hippo与Yarn合体合池。AI·OS与Blink的互补特性,仅次于AI·OS与算法。

AI·OS与PAI

稍早时PAI希望独立发挥作用却总不能得门而入,原因是忽视了AI·OS体系尤其是Hippo的混部资源池的刚性诉求,尽管大家都认同PAI在Blink和AI·OS之间有很大的发挥空间。所幸三方的开放心胸最终达成分工默契,放弃自己的资源池后,PAI-TF成功地撑起了搜索和推荐算法全部的模型训练任务,而且也支持了AI·OS的图化执行引擎。展望未来PAI-TF可以在AI·OS发展的核心线索上发挥更大作用。

对比Blink和PAI,梳理一下AI·OS的发展脉络,不难发现规律:AI·OS首先服务于集团头部客户发展基础体系,然后具备产品化能力服务于集团内中长尾,最后再完善产品化成为云上服务。Blink诞生于AI·OS优化实时计算效率服务好了头部客户,然后发展SQL走产品化的路服务好中长尾集团内得以统一,现在也在云上大力发展。而PAI之前只能服务集团内中长尾,反观几家头部客户均有自己的训练平台,这绝非任性,主因是当时PAI并不足以支撑头部客户迭代需求。而今天PAI-TF做出改变兼容AI·OS体系,格局会本质改观,彻底落地的PAI将会同时具备头部和中长尾的服务能力,集团内统一深度学习的训练平台将会水到渠成。

AI·OS与图计算

图计算在计算引擎学界引领热潮,在离线场景(包含迭代计算)有丰富的论作,向在线服务领域拓展寻求更快速的验证在所必然,但在互联网大数据技术业界鲜有堪称经典的对标实现,是因为业界技术能力不够吗?学界热潮容易理解,图论本是经典倾倒无数英雄,而业界缺乏对标更刺激学界投入。只不过业界见到的多数大数据业务场景完整抽象后并非经典的图计算问题,比如AI·OS对此的抽象是算子流程图快速定制,这至多算是一个泛化的图计算模型。不过在AI·OS体系之上的局部,经典的图计算技术的确大有空间,iGraph乃至整个体系准备好随时被颠覆,不过颠覆之前,需要摸透具备秒级数据更新的最终一致性的在线服务的特点,从Hippo到Suez的能力要素都要逐步具备。是融入体系在iGraph或Suez上快速落地,还是像PAI一样兼容于体系,还是独立于AI·OS体系之外从头开始,选择决定成败。

OLAP与图计算相似,走向在线也将面临类似的选择。对于这类具备面向最终一致性的在线服务,独立于AI·OS建设,还意味着要开辟独立资源池,因而也更加需要提供足够独特的价值,这方面我还没有看的很清楚。最后一个和AI·OS关系密切的技术方向是OLTP,因此在数据更新的一致性上要求更高,AI·OS不会妄自涉足。

需要指出的是,集团内外流行的Graph Embedding从在线服务角度来看,和图计算无关,这个技术叫向量召回,是图像检索的泛化应用,该技术集团内实现以达摩院机器智能实验室最为突出(拍立淘核心技术之一),这部分已是AI·OS体系能力的一部分。

对于AI·OS,你有哪些期待和寄语?

欢迎在留言区分享,阿里妹将选出最用心的五位童鞋,送出阿里搜索10周年纪念公仔哦。

截止日期:10月8日

你可能还喜欢

点击下方图片即可阅读

达摩院一年香,阿里CTO张建锋公布了哪些成果?

关注「阿里技术」

把握前沿技术脉搏

十年一剑,阿里推荐与搜索引擎平台AI·OS首次公开!相关推荐

  1. 追求极致的AI·OS——AI·OS引擎平台

    AI·OS技术栈 2018年9月底,搜索事业部举办了一场十年技术峰会.在这场峰会上,我们正式将搜索的在线服务由iSearch5升级到AI·OS大数据深度学习在线服务体系.这次名称的变化,体现的是搜索技 ...

  2. 淘宝千人千面背后的秘密:搜索推荐广告三位一体的在线服务体系AI·OS

    简介:揭晓三位一体的在线服务体系AI·OS,及其技术架构演进,技术概况,云原生产品与实践. 作者:阿里巴巴搜索推荐事业部高级研究员 沈加翔 一.三位一体的在线服务体系AI·OS介绍 AI·OS(Art ...

  3. 阿里飞天大数据飞天AI平台“双生”系统正式发布,9大全新数据产品集中亮相

    作者 | 夕颜 责编 | 唐小引 出品 | AI科技大本营(ID:rgznai100) 如今,大数据和 AI 已经成为两个分不开的词汇,没有大数据,AI 就失去了根基:没有 AI,数据不会呈现爆发式的 ...

  4. 群发短信平台哪个好?推荐阿里云短信平台

    阿里云服务器1888元优惠券免费领取 群发短信平台哪个好?推荐阿里云短信平台,阿里云云通信短信资源包,到达率高达99%,价格低. 短信服务(Short Message Service)是阿里云为用户提 ...

  5. 重磅!阿里首次全面公开展示AI布局(附布局图/成绩单/六产业详解)

    01 阿里首次公开展示AI布局 12月20日,阿里云云栖大会·北京峰会召开,作为2017年阿里云栖大会最后一场,阿里做足了噱头,系列预热"重磅"."史无前例"等 ...

  6. 刚刚,阿里重磅发布机器学习平台PAI 3.0!

    \u003cblockquote\u003e\n\u003cp\u003e3月21日,2019 阿里云峰会在北京召开,会上阿里巴巴重磅发布了机器学习平台PAI 3.0版本.距离PAI 2.0发布已经过 ...

  7. 独家解读!阿里重磅发布机器学习平台PAI 3.0

    策划编辑|Natalie 编辑|Debra AI 前线导读:3 月 21 日,2019 阿里云峰会在北京召开,会上阿里巴巴重磅发布了机器学习平台 PAI 3.0 版本.距离 PAI 2.0 发布已经过 ...

  8. 30万奖金!首个有阿里技术培训支持,让AI落定场景应用的赛事!

    Datawhale 主办方:阿里云视觉开放平台 首届AI开发者创新应用赛,以 "无行业不AI" 为主题,融合阿里云视觉AI.云原生.云存储.小程序云等多项产品技术,专注为行业应用产 ...

  9. 阿里云机器学习PAI构建AI集团军作战,联手Intel在AI软硬件领域发力

    第一届"英特尔创新大师杯"深度学习挑战赛已在阿里云天池平台如火如荼的进行中.本次大赛由英特尔主办,阿里云计算平台机器学习 PAI 联合达摩院以及中文信息协会等组织机构联合承办,共有 ...

最新文章

  1. E667:Fsync failed(how to solve)
  2. Android开发精要3--Android中的Intent机制
  3. [CTSC2008]图腾totem
  4. ios 隐藏app的插件_等了5年终于复活,iPhone上最干净好用的微博App
  5. 新加入一个团队,我们应该怎么做?
  6. oracle,sqlserver,mysql区别
  7. Codeforces.612E.Square Root of Permutation(构造)
  8. 解决Spring Boot启动项目Tomcat不能访问80端口的问题
  9. 啊哈C语言 第二章 【代码】【习题答案】
  10. EEPROM AT24C08的操作
  11. 鸡兔同笼php编程,C语言鸡兔同笼问题
  12. p6spy mysql8_P6Spy监控SQL语句及性能测试
  13. Incorrect string value: '\xF0\x9F\x91\x93\xF0\x9F...' for column 'xxx' at row 1
  14. 网络计算机显示器接口,电脑显示器接口怎么配置才合理
  15. 一分钟集成类似抖音、头条、腾讯视频、网易新闻、飞猪、咸鱼等常用标题栏
  16. AOSP 源代码标记和 build
  17. token系统讲解及过期处理
  18. MNIST是什么鬼?
  19. 梦想天空分外蓝,实习结束总结
  20. java applet怎么运行_Java如何运行Applet?运行Applet的两种方式

热门文章

  1. 中国聚客网[http://www.crossgo.com]正式开通拉!
  2. 不确定性量化(Uncertainty Quantification):前言
  3. hihocoder 1169 猜数字
  4. 乌镇现场 | 脸书副总裁:Facebook上的内容可以自动翻译
  5. python lightgbm中使用“early_stopping_rounds”和“verbose_eval”出现 UserWarning
  6. Subtance Painter 导出PBR贴图到Unity注意事项
  7. 霓虹灯效果 函数 作用域
  8. 华为硬件工程师手册_华为电磁兼容性结构设计规范V2.0
  9. 防磨防爆系统:华润集团海丰电厂的锅炉安全保障
  10. NVIDIA全息VR显示专利:内含多种光学方案