方法:FOC
目的:解决联邦学习中标签质量差异的问题
结论:优于FedAvg 能有效识别带有噪声标签的参与者,降低噪声标签对联邦学习性能的影响
谷仓效应,亦称筒仓效应,指企业内部因缺少沟通,部门间各自为政,只有垂直的指挥系统,没有水平的协同机制,就象一个个的谷仓,各自拥有独立的进出系统,但缺少了谷仓与谷仓之间的沟通和互动。
交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,交叉熵用来衡量两组随机变量之间的相似度,主要用于衡量模型识别值概率与真实值之间的相似度。计算公式如下
机会主义:被用来表示一个参与者模型不是通过简单的平均(如Fed Avg)被聚焦到联邦学习模型中,而是根据其可信度进行加权
双网络,Twin Network Yoshua Bengio 等人提出了一种新型循环神经网络,该网络由前向和反向循环网络组成,并且前向和反向隐藏状态之间有一定的紧密度而共同预测相同的符号。因为前向 RNN 包含了前面序列的信息,而反向 RNN 在同一位置包含了未来的信息,所以利用正则项连接这两种信息将有助于 RNN 获取学习长期依赖的能力。
地球移动距离(EMD)是一种在D区域两个概率分布距离的度量,就是被熟知的Wasserstein度量标准。不正式的说,如果两个分布被看作在D区域上两种不同方式堆积一定数量的山堆,那么EMD就是把一堆变成另一堆所需要移动单位小块最小的距离之和。
上述的定义如果两个分布有着同样的整体(粗浅的说,就像两个堆有着同样的数量),在规范化的直方图或者概率密度函数上。在这基础上,EMD等同于两个分布的第一Mallows距离或者第一Wasserstein距离。
现有的联邦学习方法不考虑本地数据标签质量的差异
——>由于注释器技能水平的不同、偏见、恶意篡改,参与者会受到标签噪声的影响。(e.g. 医疗保健,中国各地的医院处于不同的水平,即使患者情况相同,小医院的误诊病例通常也比人员配置高的大医院多)
——>提出方法 Federated Opportunistic Computing(FOC 联邦机会主义计算):①它在联邦学习协调器上保留了一小组不足以训练一个模型的基准样本;②设计了一种基于互交叉熵的可信度评分,在不需要访问原始数据的情况下计算参与者数据集的标签质量;③在测量可信度的基础上,对FedAvg算法进行改进,以便机会主义地将参与者模型更新聚合到一个全局联邦学习模型中。这样只有携带局部损失的参数才会额外通信。
——>实验结果:能有效识别带有噪声标签的参与者,降低噪声标签对联邦学习性能的影响

联邦机会主义计算(FOC):
用来识别带有噪声标签的参与者,以机会主义的方式将有噪声标签的参与者的模型参数聚合到联邦学习模型中。
适用于跨筒仓的联邦设置
它在中央协调器中保留了一组不足以训练一个强模型的小的基准样本
在联邦学习训练过程中,局部模型和协调器上的联邦学习模型,将形成一个双网络,它们共享相同的模型体系结构,但参数不同
通过定义一个双网络的互交叉熵损失,可以测量每个参与者的数据的可信度,然后用来决定相应参与者被允许参与联邦学习的程度
在每一轮中,FOC对协调者执行可信度加权编排,以避免更新腐败


相关工作:
联邦学习中的non-IID(非独立同分布)问题:参与者可能有不同的数据分布,但有正确的标签
标签质量差异:即使参与者被给予相同的实例集,标签可能不一致
传统机器学习中处理标签质量差异的方法:
  1. 数据级:净化噪声标签 (1)使用小片的训练数据来生成多个模型,并为每个输入生成临时标签,用于确定是否存在噪声标签;(2)设计了拜占庭鲁棒聚合器,以防御对卷积神经网络的 标签翻转数据中毒攻击;(3)数据净化的联邦方法仍然容易受到数据中毒攻击
  2. 算法级:训练容忍噪声的模型(1)从理论角度研究了标签噪声对二值分类的影响,提出了一个简单的加权代理损失来建立一个强有力的经验风险界(2)由于深度学习模型很容易对标签噪声进行过拟合,提出使用元学习( Meta Learning 元学习或者叫做 Learning to Learn 学会学习 Artificial Intelligence --> Machine Learning --> Deep Learning --> Deep Reinforcement Learning --> Deep Meta Learning训练深度模型,在常规梯度更新之前生成合成噪声标签来更新模型(3)都需要访问原始数据,不能直接应用于联邦学习
联邦学习中,标签噪声也与非独立同分布问题有关
(1)因为参与者数据中的大型地球移动距离EMD使得它们的模型多样化,非独立同分布参与者在联邦学习中产生的全局模型较差
(2)提出数据共享策略需要更多的沟通,并有稀释参与者信息的风险
(3)EMD的计算需要联邦学习协调器访问参与者的原始数据,这在联邦学习设置下是不允许的
目前没有联邦学习设置下减轻标签噪声影响的相关工作

FOC方法:
量化了水平联邦学习下每个联邦学习参与者数据集中的标签噪声
度量每个参与者数据的质量,并以机会主义的方式将他们的本地模型更新聚合到联邦学习模型中
FOC的传递途径如下图所示:
一旦每个参与者从联邦学习协调器接收到当前的全局模型,并在本地数据集上进行训练后将本地模型更新发送给联邦学习协调器:
1.每个参与者i在本地数据集上评估全局联邦学习模型,并将评估结果LLi,连同模型更新一起发送给FL协调器
2.联邦学习协调器在一小组基准数据集上逐个评估每个参与者i的本地模型Mi,并将模型性能记录为LSi
3.一旦相应的LLi值由联邦学习协调器接收,它就会计算LLi和LSi之间的互交叉熵损失,产生一个反映参与者i的本地标签质量的可信度度量
4.最后,将每个参与者i的可信度度量作为加权FedAvg操作的权重,以产生一个新的全局联邦学习模型

013 Dealing with Label Quality Disparity in Federated Learning(联邦学习中标签质量差异的处理)相关推荐

  1. 论文 ❀《评价联邦学习中梯度泄漏攻击的框架》- A Framework for Evaluating Gradient Leakage Attacks in Federated Learning

    摘要 联合学习(FL)是一个新兴的分布式机器学习框架,用于与客户网络(边缘设备)进行协作式模型训练.联合学习允许客户将其敏感数据保存在本地设备上,并且只与联合服务器共享本地训练参数更新,从而默认客户隐 ...

  2. 【阅读笔记】Towards Personalized Federated Learning个性化联邦综述

    文章目录 前言 1 背景 1.1 机器学习.联邦学习 1.2 促进个性化联邦学习的动机 2 个性化联邦学习的策略 2.1 全局模型个性化 2.1.1 基于数据的方法 2.1.1.1 数据增强 Data ...

  3. 联邦学习(Federated Learning)介绍

    参考资料: Tensorflow官网教程:https://www.tensorflow.org/federated/ 联邦学(federated learning)习生态:https://cn.fed ...

  4. 【全文翻译】How to Backdoor Federated Learning

    How to Backdoor Federated Learning I.INTRODUCTION II.RELATED WORK III.FEDERATED LEARNING IV.ATTACK O ...

  5. 【论文阅读】FcgFed《Feature-Contrastive Graph Federated Learning: Responsible AI in Graph Information Analy

    针对问题: 图联邦学习中非独立同分布数据造成的局部模型之间的权重差异. 解决方案: 1.设计了一个FcgFed学习系统的架构来分析图信息 系统架构由三部分组成:通信器,数据加载器,核心.通信包为服务器 ...

  6. 详解联邦学习Federated Learning

    今天我们来讲下最近比较博眼球的联邦学习.应该很多人听过但是始终都没懂啥是联邦学习?百度一下发现大篇文章都说可以用来解决数据孤岛,那它又是如何来解决数据孤岛问题的?对于联邦学习,大部分文章还都处于其学术 ...

  7. 《DBA: DISTRIBUTED BACKDOOR ATTACKS AGAINST FEDERATED LEARNING》阅读笔记

    DBA: DISTRIBUTED BACKDOOR ATTACKS AGAINST FEDERATED LEARNING ** 本文发在ICLR 2020,针对联邦学习进行的后门攻击.其提出的方案针对 ...

  8. 【Paper Reading】Privacy-Preserving Aggregation in Federated Learning: A Survey

    Privacy-Preserving Aggregation in Federated Learning: A Survey 原文来源:[Arxiv2022] Privacy-Preserving A ...

  9. No Fear of Heterogeneity: Classifier Calibration for Federated Learning with Non-IID Data

    在开始之前讲一下论文的大致思想:论文作者发现在联邦学习中,分类器的差数差异巨大,在聚合参数之后,分类器效果不好,因此想要对分类器进行修正.使用客户端所有的特征提取器的feature和标签来修正是一种不 ...

最新文章

  1. 端口扫描程序nmap使用详解
  2. 编程疑难杂症の怪诞的【黄色警告】
  3. Windows 系统下通过命令将本地文件上传至远程 Linux 主机的指定目录下
  4. 深和jsonp【转】 jsonpk跨域问题详解
  5. DB2 sql报错后查证原因与解决问题的方法
  6. 贪吃蛇c语言判断没有输入,贪吃蛇问题
  7. python3 shell,python3执行shell命令
  8. 指针数组与二维数组指针的本质区别
  9. 如何使用Windows事件查看器和微软知识库解决问题
  10. 程序员显示器,32寸宜2K分辨率
  11. python使用opencv_玩转Python图片处理 (OpenCV-Python )
  12. 波卡Polkadot
  13. Spring Boot 入门系列(二十八) JPA 的实体映射关系,一对一,一对多,多对多关系映射!...
  14. SM4加密算法原理以及C语言实现
  15. Android测试能不能用monk,Android之monkey Test
  16. 内存溢出————举例分析dump下的hprof文件
  17. 中国半导体芯片产业布局图(2022版)-爱普搜汽车
  18. Windows上安装MySQL数据库(完整版)
  19. 关于常用 软件授权 Licence说明
  20. 反射弧包括那些组成部分_反射弧的组成部分包括

热门文章

  1. wubi装双系统,可能导致无线网卡无法工作
  2. html+css+布局从入门到精通,CSS+DIV网页样式布局实战从入门到精通 中文pdf扫描版[48MB]...
  3. 【PAT】进制回文数
  4. Android 2016新技术
  5. 武汉理工智能车工作室2022招新视频
  6. 易语言 网吧超时电脑管理软件
  7. 如果你还不知道什么是华为ICT大赛,你就OUT了!
  8. 没有磁盘计算机无法运行,网吧的电脑大多数都没有硬盘,那电脑怎么运行
  9. yolov2算法详解
  10. 城市一卡通系统集成商互联互通资质认定全面展开