Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning 私有FL-GAN:基于联邦学习的差分隐私合成数据生成

  • Abstract
  • 1.INTRODUCTION
  • 2.PRIVATE FEDERATED LEARNING OF GAN
    • 2.1. Algorithm summary
    • 2.2. Algorithm framework
    • 2.3. The model learning procedure
    • 2.4. Theoretical analysis
      • Differential Privacy
      • Parallel Composition
  • 3. EXPERIMENTS
    • 隐私级别对图像质量的影响
    • 隐私水平和网络收敛之间的关系
  • 4. CONCLUSION

Abstract

本文提出:一种基于联邦学习的差分隐私生成对抗网络模型

将Lipschitz极限与差分隐私敏感性相结合,该模型可以在不牺牲训练数据隐私的情况下生成高质量的合成数据。

1.INTRODUCTION

GAN应用示例:从文本生成图像,从静止图像生成视频,提高图像分辨率。

Post-Processing

  • DPGAN: 在训练中为鉴别器的梯度添加噪声,使GAN框架修改为差分隐私。
  • PATE-GAN: 将修改后的PATE框架应用于GAN。
  • GANobfuscator:使用精确设计的梯度剪枝策略,实现高质量的合成数据生成。

当前研究的不足:
出于隐私,集中式训练困难。

联邦学习差异隐私解决方案:

[15] Robin C Geyer, Tassilo Klein, and Moin Nabi, “Differentially private federated learning: A client level perspective,” arXiv preprint arXiv:1712.07557, 2017.

MD-GAN: 优化GAN模型分布式训练:

[17] Corentin Hardy, Erwan Le Merrer, and Bruno Sericola, “Md-gan: Multi-discriminator generative adversarial networks for distributed datasets,” in 2019 IEEE International Parallel and Distributed Processing Symposium (IPDPS). IEEE, 2019, pp. 866–877.

本文贡献:提出GAN私有联邦学习(FL-GAN)

2.PRIVATE FEDERATED LEARNING OF GAN

2.1. Algorithm summary

现有研究:对模型最终参数添加噪声

本文:在训练过程中添加噪声。使用 moments accountant 实时记录训练中的隐私损失

合成数据生成模型:梯度惩罚的WGAN

分布式存储数据训练模型:并行训练(parallel training);连环训练(serial training)

2.2. Algorithm framework

parallel training 核心思想:平均客户端的参数更新,完成每轮更新。

缺点: 频繁访问数据,增加隐私泄露风险;访问所有客户端后更新模型,对数据使用的浪费。

本文: 每个客户端依次更新同一模型参数。

2.3. The model learning procedure

在训练过程中添加噪声以满足差分隐私。

  1. 服务器初始化模型,包括鉴别器和生成器,将模型发送给任意客户端 i i i
  2. 客户端 i i i 训练 T g T_g Tg​ 轮,每轮训练中,鉴别器训练 T d T_d Td​ 轮后 合成器进行更新。
  3. 从余下客户端随机选一个,执行步骤 2 ,直到所有客户端都训练完,将最终模型返回服务器。

2.4. Theoretical analysis

私有FL-GAN建立在梯度惩罚的WGAN框架上,通过在更新鉴别器时加入噪声来实现差分隐私。

在计算每个训练数据的鉴别梯度后,加入高斯噪声(Alg.1 lines 10,11)。

使用隐私会计来跟踪训练中的隐私损失。a privacy accountant

Differential Privacy

随机函数 M M M 给出 ( ϵ , δ ) − d i f f e r e n t i a l p r i v a c y (\epsilon,\delta)-differential\quad privacy (ϵ,δ)−differentialprivacy,单条记录上所有不同的数据集 D 1 , D 2 D_1,D_2 D1​,D2​,所有 S ⊆ R a n g e ( M ) S\subseteq Range(M) S⊆Range(M)。 ϵ \epsilon ϵ 为隐私预算控制保护程度和噪音水平。

Parallel Composition

不相交子集 x i ⊆ x x_i\subseteq x xi​⊆x, 设 f ( x i ) f(x_i) f(xi​) 满足 ϵ \epsilon ϵ-差分隐私,应用所有查询 f ( x i ) f(x_i) f(xi​) 仍然满足 ϵ \epsilon ϵ-差分隐私。

Lemma 1.
抽样概率: q = m M q=\frac{m}{M} q=Mm​
每个内循环中鉴别器迭代次数: T d T_d Td​
隐私侵犯: δ \delta δ
对于正的 ϵ \epsilon ϵ: 鉴别器的参数对于 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分隐私 外部循环中使用的所有数据 满足:

算法1中的生成器输出保证了 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分隐私

proof:

根据Lemma 1. 每个客户端训练的鉴别器都满足差分隐私,在差分隐私的 后处理 (post-processing)属性 作用下,生成器也满足差分隐私。

由于并行理论(Parallel Theory),模型在客户端之间传递也不会增加其他客户端隐私泄露风险。

故 每一轮客户端训练中推导出的模型都是 ( ϵ , δ ) (\epsilon,\delta) (ϵ,δ)-差分私有

算法复杂度:
客户端每次通信 参数仅需在客户端之间传递一次。

FL-GAN 总通信复杂度: N ⋅ ( ∣ w ∣ + ∣ θ ∣ ) N\cdot(\lvert \mathcal w\rvert+\lvert \theta\rvert) N⋅(∣w∣+∣θ∣)

对于 DP-FL 方案,生成器一次迭代需要传递 T d T_d Td​ 次参数,总通信复杂度 T g ⋅ T d ⋅ N ⋅ ( ∣ w ∣ + ∣ θ ∣ ) T_g\cdot T_d \cdot N\cdot(\lvert \mathcal w\rvert+\lvert \theta\rvert) Tg​⋅Td​⋅N⋅(∣w∣+∣θ∣)

3. EXPERIMENTS

探索隐私水平和生成的数据质量之间的关系

MNIST: 70k 大小为 28 × 28 28\times28 28×28 的手写数字图像

CelebA: 200k 大小为 64 × 64 64\times64 64×64 的名人脸部图像

鉴别器 α d \alpha_d αd​ 和生成器 α g \alpha_g αg​ 的学习速率 1.0 × 1 0 − 4 1.0\times 10^{-4} 1.0×10−4指数衰减

batch size:64

每个客户端保留一定数量的数据用于训练:
MNIST: 分割为 N 1 ∈ [ 1 , 3 , 6 ] N_1\in[1,3,6] N1​∈[1,3,6],模拟 N 1 N_1 N1​ 个不同的数据持有者。

CelebA: 分割为 N 2 ∈ [ 1 , 10 , 20 ] N_2\in[1,10,20] N2​∈[1,10,20]

噪声尺度: δ = 1 0 − 5 \delta=10^{-5} δ=10−5

鉴别器迭代次数: T d = 5 T_d=5 Td​=5

在鉴别器网络上的激活函数为泄露ReLU(leaky ReLU)
导数的界 B δ ′ ≤ 1 B_{\delta^{'}}\le 1 Bδ′​≤1

隐私级别对图像质量的影响

通过设置不同的隐私参数 ϵ \epsilon ϵ 进行训练,得到了几个隐私保护级别的模型。


隐私水平较高时,可以生成较清晰的图像,较大的隐私参数对应高质量图像,表明:图像失真由噪声引起,而不是质量较差的训练集。

大的隐私参数意味着大的隐私泄露风险,也意味着更好的生成数据,需要在隐私和性能之间权衡。

对比FL-GAN 和 DP-FL:
计算合成数据的 Inception Score (IS)

有三种不同的客户端数量。

Inception Score (IS)得分越高,生成图像质量越高,多样性越大,当隐私参数到一定阈值,合成图像的质量可以与无隐私保护的FL-GAN媲美。

使用Frechet Inception Distance (FID)评估生成的数据,低分代表合成数据的高质量。

隐私水平和网络收敛之间的关系

带有梯度惩罚的WGAN 对每个样本独立施加梯度惩罚,Lipschitz极限要求鉴别器的梯度不超过K(通常设置为1)。

梯度惩罚就是设置一个额外的损失项将梯度与K关联起来,参数K与差分隐私敏感性完美匹配。

给梯度添加噪声前,对其剪辑,使梯度有一个清晰的灵敏度上界,将裁剪值设为K,避免梯度消失和爆炸,保证梯度有界性,便于高斯噪声加入。

从图6看出,仍然可以快速收敛

4. CONCLUSION

FL-GAN可以生成高质量的合成数据,并行训练最大限度利用各个数据库的数据。

【FL-GAN】Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning相关推荐

  1. 【教程搬运】最好的GAN系列教程在这里。

    [教程搬运]最好的GAN系列教程在这里. 1.初窥门径__生成对抗网络(GAN)(一) *GAN的基础知识 注意这个文章有个地方写的不够清楚,就是生成器和判别器训练的过程,我稍微阐述一下,就是: 第一 ...

  2. 【CVPR 2020】蒸馏篇(四):Online Knowledge Distillation via Collaborative Learning

    [CVPR 2020]蒸馏篇(四):Online Knowledge Distillation via Collaborative Learning 论文地址: 代码地址: 主要问题: 主要思路: 具 ...

  3. 【翻译论文】 Supervised Parametric Classification of Aerial LiDAR Data(2004)

    [翻译论文] Supervised Parametric Classification of Aerial LiDAR Data 航空激光雷达数据的监督参数分类 Amin P. Charaniya, ...

  4. 【分享预告】细数GAN和图像分类的前世今生

    这是本周的分享预告,一起来细数图像分类与GAN的前世今生. 更多,欢迎到知乎专栏去投稿与交流,配套资料将放出在github,可扫描二维码进入. 打一个小广告,我的计算机视觉公开课<AI 图像识别 ...

  5. 【论文阅读】2021年牛津大学的 Survey:Recent Advances in Reinforcement Learning in Finance

    1 本文概述 本文是牛津大学2021年对 深度强化学习在金融领域内各种决策的应用 的综述文章.文章分为四个部分,第一部分是整体介绍:第二部分详细介绍了强化学习的基础知识,包括马尔科夫决策过程的定义.基 ...

  6. 【论文翻译】Transferring GANs: generating images from limited data

    论文下载 论文目录 Abstract. 1 Introduction 2 Related Work 3 Generative Adversarial Networks 3.1 Loss functio ...

  7. 【AAAI 2021】在线知识蒸馏中的对等协同学习:Peer Collaborative Learning for Online Knowledge Distillation

    [AAAI 2021]在线知识蒸馏中的协同学习:Peer Collaborative Learning for Online Knowledge Distillation 论文地址: 主要问题: 主要 ...

  8. 【百战GAN】如何使用GAN拯救你的低分辨率老照片

    大家好,欢迎来到专栏<百战GAN>,在这个专栏里,我们会进行算法的核心思想讲解,代码的详解,模型的训练和测试等内容. 作者&编辑 | 言有三 本文资源与生成结果展示 本文篇幅:52 ...

  9. 【深度学习】遗传算法优化GAN

    作者 | Victor Sim 编译 | VK 来源 | Towards Data Science GANs是计算量最大的模型之一,因为它相当于同时训练两个神经网络.对于我那台糟糕的便携式计算机来说, ...

最新文章

  1. 人工智能机器学习区别计算机应用,AI、人工智能和机器学习有什么区别
  2. 深度学习多变量时间序列预测:GRU算法构建时间序列多变量模型预测交通流量+代码实战
  3. Ribbon客户端负载均衡介绍
  4. dml语句包括哪些_MySQL数据操作(DML)语句,入门掌握这些足够了
  5. 带格式化参数的strcat宏定义
  6. OpenSSL(openssl-1.0.1h)编译与安装(Win7)
  7. 编写HTML提高编写代码的效率,优化innerHTML操作(提高代码执行效率)
  8. 怎么撤回操作_微信又更新,拍一拍能撤回了
  9. c++99乘法表_nine-nine table 不是“99张桌子”,理解错了数学老师会打你!
  10. [导入]热烈祝贺实时数据库行业协会成立!
  11. 数据结构-一元多项式加减程序
  12. Silverlight DataGrid 在显示数据, 如果遇到全角的符号, 好像会出错. 待测试.
  13. WebLogic部署项目成功后,访问Error 404
  14. 示波器wvf导入matlab,运动控制系统实验
  15. 【Word】批量修改Word 图片大小
  16. 验证哥德巴赫猜想php,庞加莱猜想告破
  17. Android 字体引入
  18. 第五---七章 交换机和路由器的基本配置
  19. 笔记本电脑 a disk read error occurred 问题解决
  20. 脱粉之后,华为的喜忧参半

热门文章

  1. python编写游戏怎么打包——详解python+pygame游戏开发之使用Py2exe打包游戏为exe文件
  2. 面向GIS工作者的Excel 坐标格式转换公式
  3. c语言mkdir创建文件夹失败,cenos mkdir 无法创建文件夹,即便文件权限为777
  4. quartus ii matlab,基於Quartus II和MATLAB的FIR濾波器設計與仿真(二)
  5. 01 | 崩溃优化(上):关于“崩溃”那些事儿
  6. dw上传服务器显示文件错误,dw服务器配置错误
  7. dw连接mysql内部服务器错误_用dw(dreamweaver)开发asp.net,连接数据库时出现“http错误500,服务器内部错误”的解决方法 | 学步园...
  8. format()函数
  9. 记一次2019MBP15.4蝶式键盘天才吧免费更换
  10. ​50行Python代码爬取黑丝美眉高清图