差分隐私,英文名为differential privacy,顾名思义,保护的是数据源中一点微小的改动导致的隐私泄露问题。比如有一群人出去聚餐,那么其中某人是否是单身狗就属于差分隐私。

为了更形式化地描述差分隐私,我们需要先定义相邻数据集。现给定两个数据集D和D’, 若它们有且仅有一条数据不一样,那我们就称此二者为相邻数据集。以上面数据集为例:假定有  个人,他们是否是单身狗,形成一个集合  (其中 ),那么另一个集合当中只有一个人改变了单身状态,形成另一个集合  ,也就是只存在一个  使得 ,那么这两个集合便是相邻集合。

那么对于一个随机化算法  (所谓随机化算法,是指对于特定输入,该算法的输出不是固定值,而是服从某一分布),其分别作用于两个相邻数据集得到的两个输出分布难以区分。差分隐私形式化的定义为:

也就是说,如果该算法作用于任何相邻数据集,得到一个特定输出  的概率应差不多,那么我们就说这个算法能达到差分隐私的效果。也就是说,观察者通过观察输出结果很难察觉出数据集一点微小的变化,从而达到保护隐私的目的。

那如何才能得到差分隐私呢?最简单的方法是加噪音,也就是在输入或输出上加入随机化的噪音,以期将真实数据掩盖掉。比较常用的是加拉普拉斯噪音(Laplace noise)。由于拉普拉斯分布的数学性质正好与差分隐私的定义相契合,因此很多研究和应用都采用了此种噪音。还是以前面那个数据集为例,假设我们想要知道到底有多少人是单身狗,我们只需要计算  ,那么为了掩盖具体数值,实际输出值应为  ,相应地,另一个数据集输出的是  。这使得观察者分不清最终的输出是由哪个数据集产生的。

前面描述的是差分隐私的严格定义。还有一种稍微放宽一点的定义为:

其中  是一个比较小的常数。要获取这种差分隐私,我们可以使用高斯噪音(Gaussian noise)。

当然,对输入或输出加噪音会使得最终的输出结果不准确。而且由于噪音是为了掩盖一条数据,所以很多情况下数据的多少并不影响加的噪音的量。那么在数据量很大的情况下,噪音的影响很小,这时候就可以放心大胆地加噪音了,但数据量很小的情况下,噪音的影响就显得比较大,会使得最终结果偏离准确值较远而变得不可用。也有些算法不需要加噪音就能达到差分隐私的效果,听起来很美好,但这种算法通常要求数据满足一定的分布,这一点在现实中通常很难满足。

[1] Dwork, Cynthia, et al. "Our data, ourselves: Privacy via
distributed noise generation." Annual International Conference on the Theory and Applications of
Cryptographic Techniques. Springer, Berlin, Heidelberg, 2006.

[2] Dwork, Cynthia, and Aaron Roth. "The algorithmic
foundations of differential privacy." Foundations and Trends® in Theoretical Computer Science 9.3–4 (2014):
211-407.

[3] Bhaskar, Raghav, et al. "Noiseless database
privacy." International Conference on
the Theory and Application of Cryptology and Information Security. Springer, Berlin,
Heidelberg, 2011.

差分隐私Differential Privacy介绍相关推荐

  1. 隐私保护联邦学习之差分隐私原理

    背景 什么是隐私 讲差分隐私前,说一下什么是隐私 其实隐私这个定义,各家有各家的说法,而且各人有各人不同的考量.目前普遍比较接受的是:"单个用户的某一些属性" 可以被看做是隐私.这 ...

  2. 隐私计算:数据脱敏、匿名化、假名化、差分隐私和同态加密

    ​​​​​随着数据挖掘技术的普遍应用,一些厂商通过发布用户数据集的方式鼓励研究人员进一步深入挖掘数据的内在价值,在数据集发布的过程中,就存在安全隐患,可能导致用户隐私的泄露.2016年欧盟通过< ...

  3. 转载-联邦学习 - 基础知识+白皮书+杨强教授讲座总结+同态加密+ 差分隐私

    原文链接:https://blog.csdn.net/qq_41409438/article/details/102213895 联邦学习 兴起原因 概念 分类 横向联邦学习 纵向联邦学习 联邦迁移学 ...

  4. 差分隐私 python_主要开发语言为 Python/Rust:微软与哈佛大学合作开源差分隐私平台...

    微软与哈佛大学OpenDP Initiative 合作研发并开源了首个用于差分隐私的平台.这项工作已持续了将近一年,去年九月,微软首席数据分析管 John Kahan 曾宣布项目的开展:"我 ...

  5. 差分隐私 机器学习_微软发布多个建置可信AI的问责机器学习工具

    为了提高人工智能解决方案的透明度,微软发布多个工具,在Azure上提供负责任机器学习服务(Responsible ML),微软提到,由于机器学习开始被深入整合进日常业务流程,因此透明度显得特别重要,A ...

  6. MindArmour差分隐私

    MindArmour差分隐私 总体设计 MindArmour的Differential-Privacy模块,实现了差分隐私训练的能力.模型的训练主要由构建训练数据集.计算损失.计算梯度以及更新模型参数 ...

  7. 差分隐私相关论文(2) —— Deep Learning with Differential Privacy, Abadi 2016

    本文向大家介绍一下一篇CCS 2016的工作,文章的名字叫Deep Learning with Differential Privacy,在网上应该很容易就能找到,如果有朋友找不到还有兴趣的话可以私信 ...

  8. 差分隐私 java_差分隐私(一) Differential Privacy 简介

    最近一直在学习差分隐私,刚开始学的时候由于对这方面的知识不太清楚,一直处于模模糊糊的理解状态.现在学习了一段时间后开始有了一些初步的认识,所以把学习过程中的一些知识总结一下,方便以后复习,也为其他的小 ...

  9. 差分隐私(Differential Privacy)

    差分隐私(Differential privacy)最早于2008年由Dwork 提出,通过严格的数学证明,使用随机应答(Randomized Response)方法确保数据集在输出信息时受单条记录的 ...

最新文章

  1. 网络协议关系拓扑图 很全面 很好
  2. “电商+金融”融合发展 开辟金融创新新路径
  3. linux ubuntu systemd-udevd进程 cpu占用过高 解决方法
  4. postman自动打开_postman第1讲-开篇:介绍与安装
  5. Delphi自定义获取网卡MAC地址过程
  6. 用Restlet创建面向资源的服务
  7. oracle listagg方法,Oracle实现字符串拼接和分离功能的方法(LISTAGG函数),oraclelistagg...
  8. linux C总结篇(进程)
  9. HBase的Row Key设计
  10. vue项目中vue-fullcalendar的使用(行程日历)
  11. 18.docker top
  12. java整人代码大全_整人代码vbs大全分享
  13. Firefox扩展IE Tab Plus内置功能导致浏览所有网页加载superfish.com脚本
  14. BERT 中wordPiece的原理
  15. Java学习路线全过程(包含视频及图书资源)
  16. 2007年9-11月
  17. HP光影精灵3 TPN-Q193显卡驱动安装不上,鲁大师检测不到显卡
  18. 第7章 CustomView绘图进阶
  19. hyper用vnc连接,hyper用vnc连接该如何设置vnc
  20. 反演地表温度空白或者是DN值无穷大+公式

热门文章

  1. 找出一个正整数的所有因子(因数)
  2. 微信小程序选择视频,获取封面缩略图
  3. Java简单文字时钟
  4. win7 x64.esd
  5. 如何将一个excel表格的数据匹配到另一个表中
  6. 产品经理之SOW、SOP怎么做?绘制流程推荐软件
  7. 推荐算法之潜在因子(Latent Factor)算法
  8. [4.3]-AutoSAR零基础学习-Bsw-NvM学习 <上>
  9. 智能家居工厂模式整体设计框架控制设备测试
  10. 各个省肺炎感染类型及人数可视化R语言基于地理位置进行分面