贝叶斯估计

  • 1. 极大似然估计
    • 1.2 条件对数似然
  • 2. 贝叶斯估计
    • 2.1 最大后验估计(Maximum A Posteriori estimation,MAP)
    • 2.2 共轭先验
  • 参考

机器学习中经验风险最小化结构风险最小化分别对应最大似然估计最大后验估计

1. 极大似然估计


L(θ;x)=f(x;θ)=f(x1,...,xn;θ)=∏Nf(x;θ)θ^ML=arg max⁡θL(θ;x)=arg max⁡θ∏Nf(x;θ)L(\theta;x)=f(x;\theta)=f(x_1,...,x_n;\theta)=\prod_Nf(x;\theta)\\\hat{\theta}_{ML}=\argmax_\theta L(\theta;x)=\argmax_\theta\prod_Nf(x;\theta)L(θ;x)=f(x;θ)=f(x1​,...,xn​;θ)=N∏​f(x;θ)θ^ML​=θargmax​L(θ;x)=θargmax​N∏​f(x;θ)
另外,对数似然不会改变 argmax函数解,而且还可以将积变成和的形式
θ^ML=arg max⁡θ∑Nlogf(xi;θ)\hat{\theta}_{ML}=\argmax_{\theta} \sum_N logf(x_i;\theta)θ^ML​=θargmax​N∑​logf(xi​;θ)
再进一步,似然函数除以m也不会改变解,所以可以写为:
θ^ML=arg max⁡θE[logf(x;θ)]\hat{\theta}_{ML}=\argmax_{\theta}\mathbb{E}[ logf(x;\theta)]θ^ML​=θargmax​E[logf(x;θ)]

KL散度: 衡量经验分布f与模型分布F的log差异
DKL(F∣∣f)=E[logF(x;θ)−logf(x;θ)]D_{KL}(F||f)=\mathbb{E}[logF(x;\theta)-logf(x;\theta)]DKL​(F∣∣f)=E[logF(x;θ)−logf(x;θ)]
左边一项仅涉及到数据生成过程,和模型无关。这意味着当我们训练模型最小化 KL
散度时,我们只需要最小化
−E[logf(x;θ)]-\mathbb{E}[logf(x;\theta)]−E[logf(x;θ)]
所以从最小化KL散度的角度,也可以得到最大似然估计。

1.2 条件对数似然

最大似然估计很容易扩展到估计条件概率 P(y | x;θ),从而给定 x 预测 y 。
θML=arg max⁡θP(Y∣X;θ){\theta}_{ML}=\argmax_{\theta}P(Y|X;\theta)θML​=θargmax​P(Y∣X;θ)
样本X={x1,...,xn}X=\{x_1,...,x_n\}X={x1​,...,xn​}独立同分布,用对数似然函数表示:
θML=arg max⁡θ∑NlogP(yi∣xi;θ)\theta_{ML}=\argmax_{\theta}\sum_NlogP(y_i|x_i;\theta)θML​=θargmax​N∑​logP(yi​∣xi​;θ)

2. 贝叶斯估计

贝叶斯公式

贝叶斯估计:

其中,
π(θ)\pi(\theta)π(θ)为θ\thetaθ的先验分布(prior distribution),表示对参数θ\thetaθ的主观认识,非样本信息。贝叶斯派认为参数不是确定的,所以用随机变量表示,并且服从某个分布;
π(θ∣x)\pi(\theta|x)π(θ∣x)为θ\thetaθ的后验分布(posterior distribution);
和最大似然估计不同,贝叶斯方法使用 θ 的全分布,而非点估计;并且加入先验分布。

贝叶斯估计可以看作是,在假定θ\thetaθ服从先验分布π(θ)\pi(\theta)π(θ)情况下,根据样本信息去校正先验分布,得到后验分布π(θ∣x)\pi(\theta|x)π(θ∣x)。
后验分布是一个条件分布,通常我们取后验分布的期望作为参数的估计值。

2.1 最大后验估计(Maximum A Posteriori estimation,MAP)

参数 θ 的完整贝叶斯后验分布进行预测,有时候是很难的。所以用单点估计来近似。
采用极大似然估计的思想,考虑后验分布极大化而估计θ\thetaθ, 就变成了最大后验估计。

m(x)m(x)m(x)与θ\thetaθ无关,简化计算。

对上面的式子稍作处理(取对数):
取对数后,原来的似然函数变为对数似然函数,又加上logπ(θ)log\pi(\theta)logπ(θ)。可以认为logπ(θ)log\pi(\theta)logπ(θ),为正则化项。所以,MAP可以认为是带有正则化项的最大似然学习。

当然,这并不是总是正确的,例如,有些正则化项可能不是一个概率分布的对数,还有些正则化项依赖于数据,当然也不会是一个先验概率分布。不过,MAP提供了一个直观的方法来设计复杂但可解释的正则化项,例如,更复杂的惩罚项可以通过混合高斯分布作为先验得到,而不是一个单独的高斯分布。

2.2 共轭先验

贝叶斯估计中,如果选取先验分布 π(θ)\pi(\theta)π(θ) 和后验分布π(θ∣x)\pi(\theta|x)π(θ∣x)属于同一个分布族(即共轭分布),则称π(θ)\pi(\theta)π(θ)为似然函数f(x∣θ)f(x|\theta)f(x∣θ)的共轭先验.

共轭先验的选取有如下好处:
a).符合直观,先验分布和后验分布应该是相同形式的;
b).可以给出后验分布的解析形式;
c).可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

常见的共轭先验有:Beta分布(二项分布)、Dirichlet分布(多项分布)。

很显然,共轭先验的选取很大程度上是基于数学理论的方便性,带有很强的主观色彩,而这也是饱受频率学派诟病的一点。频率学派认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。

参考

[1] https://zhuanlan.zhihu.com/p/61593112 (主要参考来源)
[2] 花书 5.6
[3] 概率学派和贝叶斯学派的区别
[4] 深度学习中的两种不确定性

【笔记】贝叶斯估计(Bayesian Estimation)相关推荐

  1. 如何给出Bayesian Estimation模型W的分布?

    Bayesian Estimation如何给出模型W的分布? 坑 W是一个列向量: 现在的理解: 1.Bayesian Estimation和(Maxium Likehood Estimation.M ...

  2. 5003笔记 Statistic Chapter3-Density Estimation

    Density Estimation:密度估计 Cumulative distribution:累计分布函数F(x) 注意,均值mean E(x) = np, Var(x) = np(1-p) Con ...

  3. Mechine Learning 机器学习笔记

    笔记作者:OUC_Shizue 参考课程:复旦大学 邱锡鹏 <神经网络与深度学习> 第一章:机器学习概论 一.机器学习的定义 1.直接定义 ​ 机器学习≈计算机自动构建映射函数 ​ Mac ...

  4. 《神经网络与深度学习》邱希鹏 学习笔记(3)

    <神经网络与深度学习>邱希鹏 学习笔记(3) 完成进度 第二章 机器学习概述 线性回归 参数学习 偏差-方差分解 自我理解 概率 似然 先验 后验 参考文献 完成进度 - 第二章 (1) ...

  5. 最大后验估计_PR Ⅱ:贝叶斯估计/推断及其与MAP的区别

    Probabilistic in Robotics Ⅱ: Bayesian Estimation/Inference 统计推断旨在根据可观察到的事物来了解不可观察到的事物.即,统计推断是基于一个总体或 ...

  6. Parzen-Window Density Estimation(PWDE)

    1.概率密度函数 在在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数.而随机变量的取值落在某个区域之内的概 ...

  7. 算法工程师_浅谈算法工程师的职业定位与发展

    随着大数据和以深度学习为代表的人工智能技术的飞速发展,算法工程师这个职业逐渐成为国内互联网行业的标配.2016年3月,谷歌旗下DeepMind公司的围棋程序"AlphaGo"战胜职 ...

  8. matlab贝叶斯优化工具箱_经济学人的神器——BEAR(贝叶斯估计、分析和回归工具包)...

    武林至尊,宝刀屠龙, 号令天下,莫敢不从, 倚天不出,谁与争锋. --金庸·<倚天屠龙记> Bayesian Estimation, Analysis and Regression(简写为 ...

  9. 先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计

    一.什么叫先验分布.后验分布.似然估计   这几个概念可以用"原因的可能性"和"结果的可能性"的"先后顺序"及"条件关系" ...

最新文章

  1. 九款让WordPress成为赚钱利器的广告插件
  2. 线上应用故障排查之二:高内存占用
  3. linux常见协议对应端口(后期补充)
  4. 星座图与IQ调制总结+BPSK、QPSK、8PSK、16QAM等的区别与总结
  5. linux安装mysql5.7.19
  6. java 课后习题 删除奇数元素下标 然后再删除值为奇数的下标
  7. 我如何用 21 天在 GitHub 上获取 6300 个 Star?
  8. 大数据分析工具有哪些特性
  9. win开启审计功能_一项一项教你测等保2.0——Linux安全审计
  10. 无码编程:无代码软件开发大行其道
  11. matlab与焓湿图,excel与焓湿图的完美结合
  12. 技嘉主板bios设置方法
  13. “配置系统未能初始化” 异常解决
  14. Delphi学习第二课
  15. 论文阅读《Camera pose voting for largescale image-based localization》
  16. 人类简史--经典语句摘录
  17. 阿里云服务器ECS(VPS)介绍及使用视频教程和优惠活动
  18. 18岁、20岁、23岁、25岁、28岁、30岁
  19. 百度AI战疫五十天:三场战役与一次胜利
  20. 面对“惜命且老龄化”的年代,移动健康医疗需加速布局

热门文章

  1. win7计算机建立无线网络连接不上,教你电脑连接不上无线网络怎么办
  2. 如何使用layer弹窗
  3. iOS中GIF图片的加载
  4. vm2 组件存在沙箱逃逸漏洞
  5. 评论一下《PPT演义》
  6. 苹果cms图片外部储存使用教程
  7. python数据分析师工作内容_小白入行数据分析师3年-工作内容复盘分享含代码(一)-Python篇介绍...
  8. 文献综述十九:基于会员通用积分的客户关系管理系统设计与实现
  9. 3GPP: IMS视频码率自适应调整介绍
  10. PSP播放ATRAC3 Plus格式的方法