【联邦学习】联邦学习
(文章内容主要来自文末网盘内部分资料)
最近微众举办了一个面向高校大学生的AI比赛,题目如下
基于微众提出的联邦学习模型,设计一款有应用场景的产品。
项目背景:
数据源之间存在着难以打破的壁垒,一般情况下人工智能的所需要的数据会涉及多 个领域,例如在基于人工智能的产品推荐服务中,产品销售方拥有产品的数据、用户购买商品的数据,但是没有用户购买能力和支付习惯的数据。在大多数行业中,数据是以孤岛的形 式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部 门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行 整合几乎是不可能的,或者说所需的成本是巨大的。
另一方面,随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。 每一次公众数据的泄露都会引起媒体和公众的极大关注,例如最近 Facebook 的数据泄露事 件就引起了大范围的抗议行动。同时各国都在加强对数据安全和隐私的保护,欧盟最近引入 的新法案《通用数据保护条例》(General Data Protection Regulation, GDPR)[11]表明, 对用户数据隐私和安全管理的日趋严格将是世界趋势。这给人工智能领域带来了前所未有的 挑战,研究界和企业界目前的情况是收集数据的一方通常不是使用数据的一方,如 A 方收集 数据,转移到 B 方清洗,再转移到 C 方建模,最后将模型卖给 D 方使用。这种数据在实体间 转移,交换和交易的形式违反了 GDPR,并可能遭到法案严厉的惩罚。同样,中国在 2017 年 起实施的《中华人民共和国网络安全法》 [12]和《中华人民共和国民法总则》 [13]中也指出网络 运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保拟定 的合同明确约定拟交易数据的范围和数据保护义务。这些法规的建立在不同程度上对人工智 能传统的数据处理模式提出了新的挑战。在这个问题上,人工智能的学界和企业界,目前并 无较好的解决方案来应对这些挑战。
要解决大数据的困境,仅仅靠传统的方法已经出现瓶颈。 两个公司简单的交换数据在 很多法规包括 GDPR 是不允许的。用户是原始数据的拥有者,在用户没有批准的情况下,公 司间是不能交换数据的。 其次,数据建模使用的目的,在用户认可前也不可以改变。所以, 过去的许多数据交换的尝试,例如数据交易所,也需要巨大的改变才能合规。 同时,商业 公司所拥有的数据往往都有巨大的潜在价值。两个公司甚至公司间的部门都要考虑利益的交 换,在这个前提下,往往这些部门不会把数据与其他部门做简单的聚合。导致即使在同一个 公司内,数据也往往以孤岛形式出现。
如何在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能 系统能够更加高效、准确的共同使用各自的数据,是当前人工智能发展的一个重要课题。我 们倡议把研究的重点转移到如何解决数据孤岛的问题。我们提出一个满足隐私保护和数据安 全的一个可行的解决方案,叫做联邦学习。
联邦学习分类
上述对联邦学习的定义并没有讨论如何具体地设计一种联邦学习的实施方案。在实际中, 孤岛数据具有不同分布特点,根据这些特点,我们可以提出相对应的联邦学习方案。下面, 我们将以孤岛数据的分布特点为依据对联邦学习进行分类。 考虑有多个数据拥有方,每个数据拥有方各自所持有的数据集 D_i 可以用一个矩阵来表示。 矩阵的每一行代表一个用户,每一列代表一种用户特征。同时,某些数据集可能还包含标签 数据。如果要对用户行为建立预测模型,就必须要有标签数据。我们可以把用户特征叫做 X, 把标签特征叫做 Y。比如,在金融领域,用户的信用是需要被预测的标签 Y;在营销领域, 标签是用户的购买愿望 Y;在教育领域,则是学生掌握知识的程度等。用户特征 X 加标签 Y 构成了完整的训练数据(X, Y)。但是,在现实中,往往会遇到这样的情况:各个数据集的 用户不完全相同,或用户特征不完全相同。具体而言,以包含两个数据拥有方的联邦学习为 例,数据分布可以分为以下三种情况:
- 两个数据集的用户特征(X1,X2,…)重叠部分较大,而用户(U1, U2…)重叠部分较 小;
- 两个数据集的用户(U1, U2…)重叠部分较大,而用户特征(X1,X2,…)重叠部分较 小;
- 两个数据集的用户(U1, U2…)与用户特征重叠(X1,X2,…)部分都比较小。 为了应对以上三种数据分布情况,我们把联邦学习分为横向联邦学习、纵向联邦学习与 联邦迁移学习(如图 1)。
系统架构
在讨论了联邦学习的定义与分类之后,我们以纵向联邦学习为例深入介绍一下联邦学习 系统的构架,从而理解其工作的流程与细节。 我们以包含两个数据拥有方(即企业 A 和 B)的场景为例来介绍联邦学习的系统构架, 该构架可扩展至包含多个数据拥有方的场景。假设企业 A 和 B 想联合训练一个机器学习模 型,它们的业务系统分别拥有各自用户的相关数据。此外,企业 B 还拥有模型需要预测的标 签数据。出于数据隐私和安全考虑,A 和 B 无法直接进行数据交换。此时,可使用联邦学习 系统建立模型,系统构架由两部分构成,如图 2a 所示。
- 第一部分:加密样本对齐。由于两家企业的用户群体并非完全重合,系统利用基于加密 的用户样本对齐技术,在 A 和 B 不公开各自数据的前提下确认双方的共有用户,并且不暴露 不互相重叠的用户。 以便联合这些用户的特征进行建模。
- 第二部分:加密模型训练。在确定共有用户群体后,就可以利用这些数据训练机器学习 模型。为了保证训练过程中数据的保密性,需要借助第三方协作者 C 进行加密训练。以线性 回归模型为例,训练过程可分为以下 4 步(如图 2b 所示):
- 第①步:协作者 C 把公钥分发给 A 和 B,用以对训练过程中需要交换的数据进行加 密;
- 第②步:A 和 B 之间以加密形式交互用于计算梯度的中间结果;
- 第③步: A 和 B 分别基于加密的梯度值进行计算,同时 B 根据其标签数据计算损失, 并把这些结果汇总给 C。C 通过汇总结果计算总梯度并将其解密。
- 第④步:C 将解密后的梯度分别回传给 A 和 B;A 和 B 根据梯度更新各自模型的参数。
迭代上述步骤直至损失函数收敛,这样就完成了整个训练过程。在样本对齐及模型训练 过程中,A 和 B 各自的数据均保留在本地,且训练中的数据交互也不会导致数据隐私泄露。 因此,双方在联邦学习的帮助下得以实现合作训练模型。
- 第三部分: 效果激励。联邦学习的一大特点就是它解决了为什么不同机构要加入联邦 共同建模的问题, 即建立模型以后模型的效果会在实际应用中表现出来,并记录在永久数 据记录机制(如区块链)上。 提供的数据多的机构会看到模型的效果也更好,这体现在对 自己机构的贡献和对他人的贡献。这些模型对他人效果在联邦机制上以分给各个机构反馈, 并继续激励更多机构加入这一数据联邦。 以上三个步骤的实施,即考虑了在多个机构间共同建模的隐私保护和效果,有考虑了如何奖励贡献数据多的机构,以一个共识机制来实现。 所以, 联邦学习是一个“闭环”的学习机制。
核心技术
- 隐私保护技术
- 多方安全计算 Secure Multi-party Computation (MPC)
- 同态加密 Homomorphic Encryption (HE)
- 姚式混淆电路 Yao’s Garbled Circuit
- 秘密共享 Secret Sharing
- 差分隐私 Differential Privacy (DP)
- 联邦学习系统
- 隐私保护下的样本ID匹配
- 隐私保护下的训练过程
- 两方解决
- 两方推理
小微企业项目应用
【解决问题】基于纵向联邦学习的小微企业信贷产品违约预测模型
【数据】银行的信用评级和收支行为等特征以及税务局的个人营业所得税和年度交款等特征
【模型算法】Logistic & LGBM
【相关资料】- 链接:链接:https://pan.baidu.com/s/1mEGYzdRjllNEUhRDP8mwQw
提取码:hn1c
复制这段内容后打开百度网盘手机App,操作更方便哦
感兴趣的伙伴可以下载资料,加入联邦学习小组,共同研究学习。
对数据分析、机器学习、数据科学、金融风控等感兴趣的小伙伴,需要数据集、代码、行业报告等各类学习资料,可添加微信:wu805686220(记得要备注喔!),也可关注微信公众号:风控圏子(别打错字,是圏子,不是圈子,算了直接复制吧!)
关注公众号后,可联系圈子助手加入如下社群:
- 机器学习风控讨论群(微信群)
- 反欺诈讨论群(微信群)
- python学习交流群(微信群)
- 研习社资料(qq群:102755159)(干货、资料、项目、代码、报告、课件)
相互学习,共同成长。
【联邦学习】联邦学习相关推荐
- 虚拟专题:联邦学习 | 联邦可视化:一种隐私保护的可视化新模型
来源:智能科学与技术学报 联邦可视化:一种隐私保护的可视化新模型 魏雅婷, 王智勇, 周舒悦, 陈为 浙江大学计算机辅助设计与图形学国家重点实验室,浙江 杭州 310058 [摘 要]概述了联邦可视 ...
- 虚拟专题:联邦学习 | 联邦学习隐私保护研究进展
来源:大数据期刊 联邦学习隐私保护研究进展 王健宗, 孔令炜, 黄章成, 陈霖捷, 刘懿, 卢春曦, 肖京 平安科技(深圳)有限公司,广东 深圳 518063 摘要:针对隐私保护的法律法规相继出台,数 ...
- Per-FedAvg:联邦个性化元学习
关注公众号,发现CV技术之美 Personalized Federated Learning with Theoretical Guarantees: A Model-Agnostic Meta-Le ...
- CIKM 2022 AnalytiCup Competition: 联邦异质任务学习
简介:为了探索联邦学习中的异质性,推动联邦学习领域的发展,阿里巴巴达摩院智能计算实验室联合天池举办"CIKM 2022 AnalytiCup Competition: 联邦异质任务学习&qu ...
- 虚拟专题:联邦学习 | 联邦学习研究综述
来源:网络与信息安全学报 联邦学习研究综述 周传鑫,孙奕,汪德刚,葛桦玮 信息工程大学,河南 郑州 450001 摘要:联邦学习由于能够在多方数据源聚合的场景下协同训练全局最优模型,近年来迅速成为安全 ...
- 通过联邦哈希学习实现隐私掌纹识别
文章目录 摘要 一.介绍 二.提出的方法 1 2 总结 摘要 目前,基于深度学习的掌纹识别方法已经取得了很大的成功.然而,在实际应用中更重要的是隐私问题,他们主要关注的是准确性而忽略了隐私问题.在这封 ...
- 深度学习/联邦学习笔记(六)卷积神经及相关案例+pytorch
深度学习/联邦学习笔记(六) 卷积神经及相关案例+pytorch 卷积神经网络不同于一般的全连接神经网络,卷积神经网络是一个3D容量的神经元,即神经元是以三个维度来排列的:宽度.高度和深度 卷积神经网 ...
- 杭州内推 | 之江实验室招聘机器学习/强化学习/联邦学习算法实习生
合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 之江实验室 之江实验室成立于2017年9月,坐落于杭州城西科创大走廊核心地 ...
- 深度学习 免费课程_深入学习深度学习,提供15项免费在线课程
深度学习 免费课程 by David Venturi 大卫·文图里(David Venturi) 深入学习深度学习,提供15项免费在线课程 (Dive into Deep Learning with ...
- vs2010 学习Silverlight学习笔记(7):控件样式与模板
概要: 终于知道Silverlight--App.xaml是干什么用的了,不仅可以用来封装样式(类似css),还可以制定控件模版...好强大的功能啊. 封装: 继续学习<一步一步学Silverl ...
最新文章
- 解决浮层弹出如何加上datepicker,并且浮动在上面
- 使用VirtualAlloc在0x400000处申请内存
- .NET Core快速入门教程 1、开篇:说说.NET Core的那些事儿
- python3 安装opencv_树莓派安装Python3的OpenCV
- 动态规划——Russian Doll Envelopes
- c语言程序只能编译执行吗,C语言程序仅可以编译执行
- 【软件工程】需求分析文档——需求规格说明书
- Google一些关键词的运用
- 系列个人网站上线一周年总结
- 1419 最小公倍数挑战(素数性质之两两互质 与 取“3”个数的特殊性)
- 快速了解元宇宙的 7 层产业链
- 【FXCG】波段操作的四个步骤
- Java 入门之3:JDK 8 版本的目录结构及bin目录中工具命令的作用概览
- php爬取qq好友,使用php批量抓取QQ空间相册链接
- vuequilleditor编辑器的使用,字体无法对齐的问题
- gcc流程及鲜有人知的参数
- html音频base64编码,录音文件与Base64编码相互转换的方法
- Leetcode刷题100天—706. 设计哈希映射(哈希表)—day74
- 用RecyclerView实现类似支付宝应用图标拖拽排序以及增删管理的功能
- 企业如何保护专利知识产权安全
热门文章
- spring boot 图文验证码(Kaptcha)使用
- 注册表REG文件编写实例(创建、删除、添加、更改键值)
- iNFTnews|马斯克接管Twitter对Web3而言意味着什么?
- Error launching datagrip的if you already have a 64-bit JDK installed,define a JAVA_HOME variable in..
- 借助LVS+Keepalived实现负载均衡
- EasyRecovery2022数据免费恢复文件
- 第十四届蓝桥杯三月真题刷题训练——第 13 天
- 设备产线运维合集丨图扑数字孪生流水线,提升产品装配自动化效率
- css3图标一直旋转样式,css3动画--图标翻转效果
- 基于STM32红外计数的灯光照明