The Algorithmic Foundations of Differential Privacy (五)

  • 写在前面的话
  • Laplace versus Gauss
    • 什么是先验分布?后验分布?似然估计?
    • 为什么拉普拉斯对应L1,高斯对应L2
    • 回到书上

写在前面的话

有一段时间没更新这个系列了,今天组会完晚上休息一下,再看看这本书。纯属个人笔记,如有问题请看原文或者留下评论。

Laplace versus Gauss

什么是先验分布?后验分布?似然估计?

x: 观察得到的数据(结果)

y : 决定数据分布的参数(原因)

先验分布(因):Pr(y)

后验分布(先果后因:贝叶斯公式):Pr(y|x)

似然估计(先因后果):Pr(x|y)

举个例子:我有一个图像分类模型,有很多数据,每个数据有自己的特征。同时我设定了一些类别。这个时候我拿一个数据问你,这个数据属于哪一类?

Pr(类别|特征)=Pr(类别)×{Pr(特征|类别)/Pr(特征)}

Pr(类别|特征)表示后验,在该特征下属于这个类别的概率。

Pr(类别)表示先验,样本中该类别的概率。

Pr(特征|类别)表示似然,该类别下,是该特征的概率。

Pr(特征|类别)/Pr(特征)越大则偏向这个类别,越小则不是这个类别。

Pr(特征)表示全概率公式计算。

Ps.先验是非常重要的,特别对于机器学习来说,先验就是优化的开始, 可以在较小的数据集中有良好的泛化性能,从信息论的角度看,向系统加入了正确先验这个信息会提高系统的性能。

为什么拉普拉斯对应L1,高斯对应L2

原因是L1和L2正则先验分别是服从拉普拉斯分布和高斯分布的。至于先验分布是什么前面有解释。即先验分布是拉普拉斯分布时,正则化项为L1范数;当先验分布是高斯分布时,正则化项为L2范数。关于这两者的深入理解可以看看这篇博客。

1、拉普拉斯分布在参数w=0点的概率最高,因此L1正则化相比于L2正则化更容易使参数为0。
2、高斯分布在零附近的概率较大,因此L2正则化相比于L1正则化更容易使参数分布在一个很小的范围内。

回到书上


这一段应该比较好理解,我就不赘述了。就是高斯也行,只是用的L2。只是算敏感度的时候要遵循L2范数。并且定理3.22提到了高斯机制伴随着 δ。

高斯优点
1、添加的噪声与其他噪声源具有相同的类型
2、两个高斯的和是高斯的,因此隐私机制对统计分析的影响可能更容易理解和修正。

这两种机制在组合下产生相同的累积损失,因此即使对于每个单独合成来说,隐私保证较弱,但在许多计算中的累积影响是可比较的。此外,如果 δ 足够小(例如,亚多项式),在实践中,我们将永远不会遇到差分隐私保证的不足之处。

也就是说,相对于拉普拉斯噪声,高斯噪声在理论上是有缺点的。考虑 Report Noisy Max(带有拉普拉斯噪声)算法下,每个候选输出在数据库 x 上的效用得分与其在相邻数据集 y 上的效用分数相同。该机制产生 (ε,0)-差分隐私,与候选输出的数量无关。如果我们使用高斯噪声并报告最大值,并且如果候选值的数量比 1/δ 大,那么我们将精确地选择发生概率小于 δ 的具有大高斯噪声的事件。当我们远离高斯分布的尾时,我们不再能保证在 x,y 数据库的观测概率的差别在e±ε因子内。

【高斯和拉普拉斯为什么分别对应L2和L1?】差分隐私系统学习记录(五)相关推荐

  1. 【数学工具?拉普拉斯机制?随机响应?】差分隐私系统学习记录(二)

    The Algorithmic Foundations of Differential Privacy (二) 写在前面的话 Basic Techniques and Composition Theo ...

  2. 【拉普拉斯机制代码实现demo】差分隐私代码实现系列(四)

    差分隐私代码实现系列(四) 写在前面的话 回顾 差分隐私(Differential Privacy) 拉普拉斯机制(The Laplace Mechanism) 多少噪音就足够了?(How Much ...

  3. pytorch实现L2和L1正则化regularization的方法

    pytorch实现L2和L1正则化的方法 目录 目录 pytorch实现L2和L1正则化的方法 1.torch.optim优化器实现L2正则化 2. 如何判断正则化作用了模型? 2.1 未加入正则化l ...

  4. 机器学习02——回归问题中的损失函数 (L2损失L1损失Huber损失函数)

    回归问题预测中的残差 • 预测残差:真实值和预测值之间的差异: ? = ? − ?1 • 忽略预测残差的正负号:残差的平方:?**2 • 最佳模型:残差平方和(Residual Sum of Squa ...

  5. 差分隐私介绍以及拉普拉斯差分隐私实现细节

    差分隐私 差分隐私通过在统计结果中加入了适量噪音以确保修改数据集中一条个体记录不会对统计结果造成显著影响,从而满足了隐私保护的要求.即便攻击者掌握了除一条数据外的全部其他的数据记录,差分隐私仍然能够防 ...

  6. ε-差分隐私之拉普拉斯噪声机制(定义 + 证明 + 代码)

    ε-差分隐私之拉普拉斯噪声机制 差分隐私的描述 1-范式的定义:使用matlab调用函数norm(x, 1) 更多范式见 范式 差分隐私的定义应该满足 拉普拉斯噪声的证明全过程如下: DP方向差分隐私 ...

  7. PyTorch实现L2和L1正则化的方法 | CSDN博文精选

    作者 | pan_jinquan 来源 | CSDN博文精选 目录 1.torch.optim优化器实现L2正则化 2.如何判断正则化作用了模型? 2.1未加入正则化loss和Accuracy 2.1 ...

  8. L1 distace、L2 distance,L1 norm、L2 norm,L1、L2范数

    在练习机器学习时,可能会选择决定是使用L1范数还是L2范数进行正则化,还是作为损失函数等. L1范数也称为最小绝对偏差(LAD),最小绝对误差(LAE).它基本上是最小化目标值(Y i)和估计值(f( ...

  9. 【信号与系统学习笔记】—— 拉普拉斯反变换+由零极点图对傅里叶变换几何求值

    在开始本文的学习之前,大家需要记忆两种特殊形式的信号所对应的拉氏变换以及其对应的 ROC 区域: 信号 x(t)=e−atu(t)x(t) = e^{-at}u(t)x(t)=e−atu(t),其拉氏 ...

最新文章

  1. 活动安排问题--贪心算法
  2. 素材 | 3D立体设定数据多彩数据统计图元素PSD模板
  3. Oracle插入时间
  4. python电视剧口碑分析_小案例(七):口碑分析(python)
  5. java web 缓存省市县_实现 Java 本地缓存,该从这几点开始
  6. 模拟京东商城登陆HttpRequest
  7. Android截屏工具类的使用
  8. 关于C语言的随机函数
  9. matlab产生泊松分布
  10. 第八节课-深度学习软件
  11. 海贼王热血航线正在连接服务器,海贼王热血航线为什么连接不了服务器?老是说人已满进不去?...
  12. 英语3500词(19/20)education主题(2022.4.29)
  13. C# Win32API 模拟鼠标移动及点击事件
  14. ubuntu相关软件安装
  15. 明光市机器人_明光市安保巡逻机器人在线咨询
  16. 2022 年杭电多校第八场补题记录
  17. python制作音乐相册_Python数据可视化:网易云音乐歌单
  18. 计算机在无纸化办公系统中应用属于,0506非计算机专业和计算机专业基础部分会考练习题.doc...
  19. 如何用webpack打包umd模块并测试打包结果
  20. Arcgis导入坐标点与其它图层无法同时显示

热门文章

  1. rm -rf * -bash: /bin/rm: 参数列表过长
  2. 为什么需要函数式编程?
  3. 【Linux】设置虚拟内存
  4. Redis面试 - 如何保证 redis 的高并发和高可用?
  5. HanLP《自然语言处理入门》笔记--5.感知机模型与序列标注
  6. 看完这篇你们团队的代码也很规范
  7. 现在以及未来 互联网名词记录
  8. 常用公共前端CDN库
  9. git命令升级版用法
  10. 闭包的示例_用示例解释JavaScript中的闭包