简介: 本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践,剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。

作者:新浪微博数据计算平台系统架构师 曹富强

本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践,剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。

微博介绍

微博是2008年上线的,中国头部、流行的社交媒体平台,提供人们在线创作、分享和发现优质内容的服务,微博的大规模机器学习平台可支持千亿级参数、百万QPS调用。目前微博的日活是2.22亿,月活是5.16亿。

微博机器学习平台(WML)优势

微博机器学习平台的特点是样本规模大,百亿级样本,实时性比较高,是分钟级,然后模型规模是百亿级,模型实时性根据不同场景有小时级、分钟级和秒级。作业的稳定性的话要求是三个9,平台业务多,场景丰富迭代快。

微博机器学习平台(WML)CTR模型

微博机器学习平台的CTR模型经过数字版本的迭代,从1.0的离线机器学习到3.0的离线和深度,到5.0的在线机器学习、离线机器学习和深度机器学习结合。再到目前我们是往在线深度学习方向发展。总体来说经过历史迭代,目前支撑的参数规模达千亿级,服务峰值达百万QPS,模型更新是10分钟量级。

微博机器学习平台(WML)架构

我们看一下微博机器学习平台的架构,微博机器学习平台为CTR、多媒体等各类机器学习和深度学习算法,提供从样本处理、模型训练、服务部署到模型预估的一站式服务。总体的话是基于在线计算集群,离线计算集群和高性能计算集群。我们通过资源的WeiBox调度框架和WeiFlow工作流引擎,计算平台的话是WeiLearn框架集成的Hadoop/Spark、Flink/Storm、TensorFlow/Pytorch,提供了诸多丰富的算法。基于这些算法,训练的模型,我们入到我们WeiPS模型库,然后通过WeiServing对外提供在线推理服务。

微博机器学习在阿里云上实践

我们的阿里云上实践使用了Flink、MaxCompute、Alink、PAI。基于这些服务提供了热门微博、Feed流、绿洲推荐,使用MaxCompute实现在相同规模下万亿样本百亿特征全量训练,比Hadoop集群提升10倍。支持从天级到分钟级的实时热门微博、Feed流业务推荐及搜索样本实施训练、上线,业务推荐效果提升10%。基于Flink搭建了实时计算平台,集成了作业提交端UI/WeiClient、作业管理、资源管理、日志系统、监控报警系统等各链路,作业规模上千。整体来说阿里云建设机器学习有几大优势:支持大规模处理、算法丰富、平台成熟运维方便、投入时间直接聚焦到业务。

微博深度学习平台(WDL)典型业务场景

接下来介绍微博深度学习相关的业务,目前的话在微博的关系流、绿洲、新浪视频推荐、正文推荐流里面都有深度学习的应用。

微博深度学习平台(WDL)架构

基于在线gpu的机器,我们通过K8s和Yarn管理,然后通过WeiArena和el-submit提交任务。我们的WeiLearn集成了TensorFlow、Pytorch引擎,然后集成了样本库读取和输出的模型库。然后WeiServing加载了模型库,对外提供两路服务,一个是通过AI服务直接对外提供AI输出能力,另外就是我们的计算服务WeiStorm,集成了数据流,调用WeiServing RPC服务框架,实时生成多媒体特征,对外提供在线服务推理。

微博深度学习平台(WDL)多媒体特征生成

微博机器学习深度平台多媒体特征的生成,只有两条链路,第一路是离线的训练,离线训练模型通过数据源的处理输出到样本库,然后通过我们WeiServing分布式训练模型调用,输出到模型库,这一路的话是一键CICD、分布式训练、支持多种类的模型。另一路是在线推理,在线推理的话消费多媒体实时数据流,调用我们的WeiServingRPC框架,输出多媒体特征,然后应用到业务,这条链路的话,我们通过对账系统、case追踪、全链路监控去做服务保障,成功率是99.99%,延时是秒级延时。开发模式是通过UI化、配置化、一键部署。

微博深度学习平台(WDL)基本功能

微博深度学习平台产品功能的话,一个是样本库,然后分布式训练,模型库,在线推理服务和计算服务。样本库的话主要是包含样本数据管理和样本分布式存储,对在各节点上零散的样本进行统一管理;分布式训练的话,内置常用深度学习算法并持续新增成熟的算法,规范样本读取,训练gpu集群的灵活调度和训练模型的统一存储;模型库的话提供分布式系统和本地两种存储方式,为在线推理服务提供模型;在线推理服务,支持Python和C++模型的一键部署,实现模型推理的服务化以及监控、告警等。可封装为HTTP服务,对外直接提供AI的能力,实现AI能力的直接输出;计算服务,基于内部的多媒体分发系统,接入多媒体数据流,调用在线推理服务,实时生成多媒体特征。

微博深度学习平台(WDL)业务实践

微博深度学习平台业务实践,早期的话基于单机训练处理大规模数据时训练周期长,迭代慢,影响业务效果。 于是我们提供了多媒体深度学习服务方案,微博深度学习平台就应运而生,实现了样本存储、离线训练、在线推理及模型存储一体化功能。最终产生的效果和业务价值是:分布式训练极大缩短了训练时间,为快速业务迭代提供良好基础;一体化服务让我们只需要专注于模型算法优化,提高业务效率,整体上为业务赋能和业务承建产生了巨大的推动力。

原文链接

本文为阿里云原创内容,未经允许不得转载。

微博机器学习平台云上最佳实践相关推荐

  1. 针对《等保2.0》要求的云上最佳实践——网络安全篇

    简介:伴随着国内企业上云步伐的加快,越来越多的企业需要对云上关键业务进行等级保护自查或完成相关认证.本文以<GB/T 22239-2019 信息安全技术 网络安全等级保护基本要求>中所要求 ...

  2. 博云容器云、DevOps 平台斩获可信云“技术最佳实践奖”

    7 月 21 日,2022 可信云大会在北京顺利开幕,会上中国信通院颁布了可信云最佳实践评选结果.博云容器云和博云牧繁 DevOps 平台成功入选可信云技术最佳实践云原生-容器及管理.可信云最佳实践软 ...

  3. 使用 CNF 测试套件测试云原生最佳实践

    Joel Hans为CNCF撰写的社区帖子 电信行业是当今日益数字化的经济的支柱,但在发展以满足现代基础设施实践方面面临着艰巨的新挑战.电信是如何陷入这种境地的?由于事故或停机的风险非常严重,该行业几 ...

  4. 抛砖引玉(3): 微信云开发最佳实践

    抛砖引玉(3): 微信云开发最佳实践 概览 微信云开发是一个打通了微信生态的BaaS (后端即服务)平台,开发方便,快捷,计费友好,适合个人开发者,以及小团队使用. 它主要由 云数据库,云存储,云函数 ...

  5. 自建K8S迁移镜像、应用至阿里云ACK最佳实践

    简介:本最佳实践构建以下场景: 1.以河源ECS构建Harbor仓库,模拟IDC的镜像仓库服务. 2.以河源ECS构建Registry仓库,模拟IDC的镜像仓库服务. 3.以河源地域模的ECS搭建K8 ...

  6. 韵达混合云深度解析:Docker助力大规模云上调度实践

    在2016杭州云栖大会第二日,韵达快运集团高级总监张磊在智慧物流专场分享了<大数据在物流行业应用突破--大规模云上调度实践>.他主要从韵达上云过程.云上资源调度实践.未来发展三个方面进行了 ...

  7. 干货 | 如何在京东云上简单实践CI流程

    如何在京东云上简单实践CI流程 在如今的互联网时代,随着软件开发复杂度的不断提高,软件开发和发布管理也越来越重要.目前已经形成一套标准的流程,最重要的组成部分就是持续集成及持续交付.部署.在此,我们在 ...

  8. 构建企业私有云的最佳实践

    构建企业私有云的最佳实践 作为全球计算创新领域的领先厂商,英特尔在中国大力推进计算创新.近年来,英特尔除了在微处理器.芯片组.服务器.存储系统及软件等方面有重大的突破,也在云计算.大数据和企业移动化应 ...

  9. #阿里云原生最佳实践# 申通快递:核心业务系统云原生化上云技术详解

    随着云计算的快速发展和成熟,越来越多的企业正在把自己的核心系统向云上迁移,从而享受云计算带来的技术红利.IDC发布的<全球云计算IT基础设施市场预测报告>显示:2019年全球云上的IT基础 ...

最新文章

  1. 读懂ConnectString 中 enlist 设置的含义
  2. vs2015改程序名字
  3. 如何实现把固定内容自动写入excel_Excel如何把修改记录自动写入批注?
  4. django mysql 一对多_请教,django中 如何向带有外键(一对多和多对多)数据库中批量插入数据?...
  5. 求数组中数的最大值、最小值(C语言)
  6. Appium - 一个投巧的办法去验证页面是否存在某个元素
  7. 如何修改opencart的模版适合为mycncart系统使用
  8. 如何java面试_短时间如何过java面试?
  9. Eclipse下载安装配置
  10. 彻底永久禁止Win10自动更新工具Windows Update Blocker v1.6 汉化版
  11. 文件上传系统php源码,PHP文件上传下载案例代码
  12. 个人业务存在的开票和个税问题,自然人代开核定征收解决
  13. 2022最新二开微交易系统股票配资理财系统源码+附教程
  14. Simulink仿真设置和Scope示波器的使用[方案]
  15. 3D格式转换工具HOOPS Exchange最全技术指南(三):4大功能特征与典型使用场景
  16. SE、ECA、CA、SA、CBAM、ShuffleAttention、SimAM、CrissCrossAttention、SK、NAM、GAM、SOCA注意力模块、程序
  17. case和for、while循环详解
  18. VxWorks中文FAQ
  19. Pytorch之nn.Conv1d学习个人见解
  20. 好用的在线加密解密工具,亲测有用

热门文章

  1. 浏览器svg插件_Archer-svgs: 异步加载svg方案
  2. 当前操作系统缺少黑体等字体_从零开始开发一个操作系统
  3. navicat mysql 远程_Navicat for mysql 连接远程数据库
  4. s8050三极管经典电路_曝光一个产品级的红外发射电路
  5. vb中怎么使图片适应框的大小_叮!VB考前练习了解一下?
  6. python仪表指针识别_一种指针式仪表的识别方法
  7. jq如何获取选中option的值_【分享】如何获取变量token的值
  8. 理科状元4年博士0篇论文,发顶刊终逆袭
  9. “差评”的学位论文都有哪些特点?
  10. 斯坦福大学教育学院院长:学习本身就是一门学问