Laplace近似后验概率

2024-07-02 06:05:27

Laplace近似就是使用正态分布来近似连续变量概率密度函数。

lnf(z)≅lnf(z0)−12A(z−z0)2A=−d2dz2lnf(z)∣z=z0

\ln f(z) \cong \ln f(z_0) - \frac{1}{2}A(z - z0)^2 \quad A = - \frac{d^2}{dz^2} \ln f(z) \mid{z=z_0}

1 非共轭的先验概率

在很多时候在我们建立的概率模型中的先验概率是不存在共轭后验的，
例如，考虑一个模型

Xi∼g(xi|θ)=θ(θ+1)x(θ−1)i(1−xi)，θ>0

X_i \sim g(x_i|\theta)=\theta(\theta+1)x_i^{(\theta-1)}(1-x_i)， \theta>0，对于这个模型来说，并没有任何的prior可以找到共轭分布，因为 θ>0\theta >0 所以把 θ\theta 的先验选作Gamma分布。
这时后验分布，

这时， p(θ|x)p(\theta|x)很难计算。

２ Laplace近似

设θ^\hat \theta是pdf h(θ)h(\theta)的最大值点，所以它也是q(θ)=logh(θ)q(\theta)=\log h(\theta)的最大值点，那么，对q(θ)q(\theta)二阶泰勒展开可得：

其中a~=θ^\tilde{a}=\hat \theta，b~2={−q¨(θ^)}−1\tilde{b}^2=\left\{ -\ddot { q } (\hat \theta) \right\} ^{-1}，注意等式右面的第二部分形式恰好是N(a~,b~2)N(\tilde{a}, \tilde{b}^2)的对数形式，因此h(θ)≈N(a~,b~2)h(\theta)\approx N(\tilde{a}, \tilde{b}^2)。
Laplace近似形式很简单，对近似的函数的要求就是二阶可导，且最最大点处 peaks well，而且近似过程中我们也只需要知道最大点θ^\hat \theta和q¨(θ^)\ddot { q } (\hat \theta) 。
例子：

假设，n=20,Σi=1logXi=−4.59,a=1,b=1n=20, \Sigma_{i=1}\log X_i=-4.59, a= 1,b=1，解上述方程可得θ^=6.69,−q¨(6.69)=0.785\hat \theta=6.69, -\ddot q(6.69)=0.785，因此ξ(θ|x)≈Normal(6.69,1/0.785)\xi(\theta|x)\approx Normal(6.69, 1/0.785)

3 找出θ^\hat \theta

在上面的这里例子中求解θ^\hat \theta很简单，但是并不是所有的模型中都可以直接计算出的，这里可以使用数值方法，例如牛顿法：
初始值：θ=θ0\theta = \theta_0
迭代：

4 正态分布对后验概率估计的质量

现在我们已经可以对一个后验概率使用Laplace近似了，那么我们得到的结果和要近似的分布之间差异到底有多大呢？
结论：当模型是”regular”，prior光滑，n足够大，

对共轭后验的正态近似

当n足够大的时候，有着共轭后验的分布也和正态分布近似。

Laplace近似后验概率相关推荐

论文---overcoming catastrophic forgetting in neural networks
不定期更新--论文 overcoming catastrophic forgetting in neural networks 出处:2017 Jan 25 PNAS(proceedings of t ...
Python 第三方模块机器学习 Scikit-Learn模块有监督学习1 交叉分解,高斯过程,保序回归
一.cross_decomposition 1.简介: 该模块用于进行"交叉分解"(cross decomposition) 2.使用: "典型相关分析"(Ca ...
PRML读书笔记(四)
分类的线性模型分类的目标是在给定输入,预测具有离散性质的目标值.输入空间被多个决策平面划分成多个决策区域,每个区域代表一个类别.决策平面是输入特征的线性函数(待会会详细介绍),因此在D维空间上的决策 ...
[译] 第三章 MCMC
黑客级概率程序设计和贝叶斯方法揭开MCMC的神秘面纱前面两章对读者隐藏了PyMC的内部机制,也就是Markov chain Monte Carlo(MCMC).我们引入本章目的有三.第一点,任何关 ...
第三十五课.基于贝叶斯的深度学习
目录贝叶斯公式基础问题贝叶斯深度学习与深度学习的区别贝叶斯神经网络与贝叶斯网络贝叶斯神经网络的推理与学习前向计算学习贝叶斯公式首先回顾贝叶斯公式:p(z∣x)=p(x,z)p(x)= ...
三大深度学习生成模型：VAE、GAN及其变种
本章将为读者介绍基于深度学习的生成模型.前面几章主要介绍了机器学习中的判别式模型,这种模型的形式主要是根据原始图像推测图像具备的一些性质,例如根据数字图像推测数字的名称,根据自然场景图像推测物体的边界 ...
斯坦福大学「黑盒学习」研究：使用神经变分推理的无向图模型，可替代「采样」 | 附NIPS 2017论文
来源:雷克世界编译:嗯~阿童木呀.多啦A亮概要:机器学习中的许多问题可以自然地用无向图模型的语言表达.在这里,我们提出了无向模型的黑箱学习和推理算法,优化了模型的对数似然的变分近似.我们的方法的核 ...
SLAM到底解决的是什么问题？
1.引言: 机器人的研究越来越多的得到关注和投入,随着计算机技术和人工智能的发展,智能自主移动机器人成为机器人领域的一个重要研究方向和研究热点.移动机器人的定位和地图创建是自主移动机器人领域的热点研究 ...
emd实现信息隐藏_【读书笔记】深入理解TensorFlow架构设计与实现原理（五）
首先一如既往地是我们的约定环节: MCMC:Markov Chain Monte Carlo,马尔可夫蒙特卡洛算法: VAE:Variational AutoEncoder,变分自编码器: 第10章 ...

最新文章

热门文章