最近联邦机器学习越来越火,字节也正式对外宣讲开源了联邦机器学习平台Fedlearner。这次头条开源的Fedlearner与我之前分析过得华为、微众的联邦机器学习平台有什么不同呢?主要体现在以下几个方面:

  1. 产品化:Fedlearner的代码里有大量的js、Html模块,也是第一次让我们可以直观的看到联邦机器学习平台大概是什么样的,如果做成产品需要长成什么样。

  2. 业务多样化:之前华为、微众更多地强调联邦机器学习在风控业务的落地。头条开始强调联邦学习在推荐、广告等业务中的落地,并且给了很明确的数据,在某教育业务板块广告投放效果增加209%

  3. 可输出性:如果说之前的联邦机器学习平台更多地从理论层面做介绍,这一次字节的Fedlearner强调了可输出性,比如为了保持联邦建模双方的环境一致性,通过K8S的部署模式快速拉起和管理集群。这是为ToB对外输出服务做技术准备

下面分别介绍下Fedlearner在这三方面的一些工作。

Fedlearner产品化工作

以推荐广告业务为例,联邦机器学习平台的广告主和平台方应该各自管理一套模型展示服务和模型训练服务。

需要有两套协议保证客户的联邦建模,一套是数据一致性问题。比如在纵向联邦学习场景下,用户在页面上点击了某个广告,平台方和广告主各自会捕获一部分日志。如何能实时的保证这两部分捕获的日志的一致性,并且拼接成训练样本,需要一套实时数据样本拼接协议。

另一个协议是多方数据安全协议。比如AB两个业务方,A有4亿用户,B有3亿用户,如何做到通过某种方式找到A和B的交叉用户,并且不让A和B互相猜到对方的数据,需要有一套多方数据安全协议。

基于以上两套协议,在双方联合建模过程中,使用GRPC通信,利用TensorFlow做双方梯度的交换进行联合建模。

业务多样性

联邦机器学习的最大业务场景在推荐广告,这个我在一年前的文章中有预测过。果然头条特别强调了推荐场景的应用。他提到了推荐业务更适合神经网络算法,风控业务适合树形算法。作者也比较认同这样的说法,因为风控需要高可解释性,树形算法天然满足这样的需求。而推荐业务对模型可解释性要求不高,神经网络算法的复杂性可以充分保证推荐排序算法的准确率。

Fedlearner业务负责人给了一组数字可以证明联邦机器学习在推荐业务中的落地效果。

这组数组还是非常有说服力的。其实对于新技术,很多时候面对的壁垒不是技术问题,而是如何证明业务价值,需要第一个吃螃蟹的人,才能推动新技术在行业的落地。联邦机器学习在推荐广告业务中大有可为。

可输出性

Fedlearner采用的是一套云原生的部署方案。数据存放在HDFS,用MySQL存储系统数据。通过Kubernetes管理和拉起任务。每个Fedlearner的训练任务需要参与双方同时拉起K8S任务,通过Master节点统一管理,Worker建实现通信。

这套方案充分考虑了当前做推荐业务的用户的数仓兼容性,因为大部分客户的数仓体系还是Hadoop生态,数据存储在HDFS。同时用K8S又最大限度的保证了联合建模双方计算引擎环境的一致性。

总结

随着越来越多的厂商入局,联邦机器学习一定会是机器学习平台产品竞争的一个拐点。

参考:

[1]https://www.jiqizhixin.com/articles/2020-11-03-9

[2]https://github.com/bytedance/fedlearner

浅谈字节最新开源联邦机器学习平台Fedlearner相关推荐

  1. PHP小马免杀的浅谈[过最新D盾]

    PHP小马免杀的浅谈[过最新D盾] 绕过 思路1:使用写文件的函数写出另一个php文件然后include/require 回来执行 方法1:File_put_content 方法2 使用fwrite ...

  2. 最新-开源可视化安全管理平台Ossim5.0使用

    最新-开源可视化安全管理平台Ossim5.0使用 Ossim5.0在4月20号由Alienvault公司对外发布,它从2003年诞生到现在,经历了十多年的不断锤炼,目前已经是一款成熟的开源SIEM产品 ...

  3. FlyAI资讯:Uber正式开源分布式机器学习平台:Fiber

    摘要:在过去的几年中,计算机不断增强的处理能力推动了机器学习的进步.算法越来越多地利用并行性,并依赖分布式训练来处理大量数据.然而,随之而来的是增加数据和训练的需求,这对管理和利用大规模计算资源的软件 ...

  4. 浅谈小程序开源业务架构建设之路

    导读:本文首先引入百度小程序开源生态介绍,随后在发展道路中遇到厂商浏览器合作场景,引出小程序分发保障的痛点和挑战,接着分别从分发通路.能力检测.能力匹配以及能力干预方面详细探讨了具体的方案和设计,最后 ...

  5. 浅谈大数据下的机器学习

    大数据和机器学习是目前信息行业快速增长的两大热门领域.从过去的信息闭塞发展到现在数据爆炸,各个领域的数据量和数据规模增长速度都以惊人的速度增长.根据美国国家安全局的统计,互联网每天处理1826PB字节 ...

  6. 【Python】浅谈 字节码 + 虚拟机 (Python 解释器)

    目录 一.绪论 二.说明 2.1 字节码编译 2.2 Python 虚拟机 (PVM) 2.3 性能意义 ☆ 2.4 开发意义 三.小结 一.绪论 Python 通常被描述为一种 解释型语言,在这类语 ...

  7. 浅谈分布式全闪存储自动化测试平台设计

    摘要 本文简单介绍了分布式全闪的基本架构,根据对存储架构的理解和软件自动化测试系统理论的研究,指出软件自动化系统需涉及的主要方面,为软件自动化测试系统实现奠定基础.根据软件测试需求(功能.可靠性.性能 ...

  8. 浅谈如何用We7站群平台打造垂直性政务网站

    最近在和客户沟通的过程中,听到一个最多的词就是政府网站建设中"垂直"这个概念.在目前国家提出政府信息化建设和职能转变的过程中,各级政府门户垂直搜索引擎的建设,也正在成为政府门户网站 ...

  9. 浅谈搜狐云景PAAS平台

    前言: 搜狐云景作为搜狐的paas平台,在2014年5月22日的云计算大会上正式发布了公测.初测,注册用户必须先申请邀请码参与公测会赠送用户100元电子券,经过实名认证之后会再赠送100电子券,目测可 ...

最新文章

  1. android 开发框架 怎么使用,Android快速开发框架dyh详解(二)---控件层的使用
  2. android 单个模块编译的方法
  3. erlang精要(18)-以函数作为参数的函数,返回函数的函数(1)
  4. ubuntu16.04配置量化投资tensorflow/pytorch深度学习环境
  5. [待解决]自定义头像时使用vue-cropper进行图片裁剪,得到的是base64格式的图片,如何对接file类型的api接口
  6. 教你如何在Android Studio中使用DDMS工具查看logcat——移动测试Android app(app的性能监控与测试)
  7. Java笔记-Linux环境中因编码问题导致中文String解析有问题
  8. AI和IOT的结合:现在和未来
  9. 创建一个简单的数据库
  10. 初识Jasima-调度仿真系列教程预告
  11. Windows编译OpenCV
  12. 现在一行代码允许长度,80太少,120才算正常
  13. 独家深访陈光明:对内经营人才,对外经营信任
  14. android studio for android learning (十八) android事件监听器绑定的方法详解
  15. Python爬虫-爬取科比职业生涯高清图集
  16. php 跨域解决方案
  17. CAD中 OLE不能旋转_AutoCAD中光栅图像和OLE图像,究竟如何选择
  18. 《金融学》笔记 第五章 金融市场
  19. 微信公众号开发者原生态的servlet
  20. 【电脑新硬盘如何分区】

热门文章

  1. java游戏逻辑 安排房间_捕鱼游戏 java
  2. 判断IPV6地址格式是否正确
  3. MATLAB学习笔记一——变量、字符与矩阵
  4. 基于惯性传感器的上肢康复训练评估
  5. Proteus改变蓝色框框
  6. 拒绝翻车!网购手机验机指南!如何防止买到后封机、退货机、翻新机
  7. excel公式编辑器_6小时,写了一篇适合Excel小白学的VBA入门教程
  8. 用python绘制股票图_一步一步教你用Python画出专业的K线图
  9. 2023上海车展:域控解决方案盘点
  10. Set Transformer 摘要速览