前言

在研究SoftMax交叉熵损失函数(Cross Entropy Loss Function)的时候,一种方法是从概率的角度来解释softmax cross entropy loss function的物理意义[1]。

我们再来回顾下分类器输出的Probability Map,如下:

P ( y i ∣ x i ; W ) = e f y i ∑ j e f j P(y_i \mid x_i; W) = \frac{e^{f_{y_i}}}{\sum_j e^{f_j} } P(yi​∣xi​;W)=∑j​efj​efyi​​​

这个公式可以解释为对于给定的 x i x_i xi​和 W W W, 将 x i x_i xi​分类为真实标签 y i y_i yi​的概率为 P P P, 因此从**最大似然估计(Maximum Likelihood Estimation)**的角度来讲,交叉熵损失函数的公式如下:
L i = − log ⁡ ( e f y i ∑ j e f j ) or equivalently L i = − f y i + log ⁡ ∑ j e f j L_i = -\log\left(\frac{e^{f_{y_i}}}{ \sum_j e^{f_j} }\right) \hspace{0.5in} \text{or equivalently} \hspace{0.5in} L_i = -f_{y_i} + \log\sum_j e^{f_j} Li​=−log(∑j​efj​efyi​​​)or equivalentlyLi​=−fyi​​+logj∑​efj​

不就是最大似然估计的公式吗?

而且有个有意思的地方在于,使用概率的角度考虑交叉熵损失的意义,如果给分类器的权重增加一个正则项,如 R ( W ) R(W) R(W),我们还可以使用最大后验估计(Maximmu a Posteriori)的方法去解释它。

那么问题就在于最大似然估计和最大后验概率估计这样两种方法的区别和联系是什么? 查资料的时候发现有个博客[2]写的很好,并且我觉得如果让我写的话也许还不如他写的有条理,因此这里选择直接翻译原文,以下的【方法】一节是我翻译的原文。

方法

最大似然估计(Maximum Likelihood Estimation, MLE, 后文一直用MLE表示)和最大后验概率估计(Maximum A Posteriori Estimation, MAP, 后文一直用MAP表示)都是用于在概率分布或图形模型的设置中估计一些变量的方法。它们类似,因为它们计算单个估计值,而不是完整分布(这句话很别扭,原文:They are similar, as they compute a single estimate, instead of a full distribution.)。

学过Mechine Learning的同学应该都知道MLE的方法。有时候我们甚至都不知道自己使用了MLE的方法,比如,当我们想将一个数据集拟合为高斯分布时,我们会直接计算样本的均值和方差,用来当做拟合的高斯概率密度函数的参数。这就是MLE,因为如果我们使用高斯的概率密度函数对均值和方差求导,并且最大化它(比如设置导数为零),我们得到的就将会是求解样本的均值和样本的方差。另一个例子,在机器学习和深度学习中,大多数的优化问题都可以解释为MLE的问题(这里就是我们在前言中讲过的softmax cross entropy loss function的解释了)。

讲的更抽象一点,假设我们现在有一个似然函数方程 P ( x ∣ θ ) P(x|\theta) P(x∣θ),那么我们想使用MLE方法估计的参数 θ \theta θ可以表示成如下的公式:
θ M L E = a r g m a x θ P ( X ∣ θ ) = a r g m a x θ ∏ i P ( x i ∣ θ ) \begin{aligned} \theta_{MLE} &= \mathop{\rm arg\,max}\limits_{\theta} P(X \vert \theta) \\[10pt] &= \mathop{\rm arg\,max}\limits_{\theta} \prod_i P(x_i \vert \theta) \end{aligned} θMLE​​=θargmax​P(X∣θ)=θargmax​i∏​P(xi​∣θ)​
在实际计算过程中,由于将很多小于1的数相乘会使最终的结果趋近于0,导致数据的下溢出。因此我们将乘法转化为log空间中的加法,由于log函数是单调递增的,因此最大化上面的方程就等价于最大化下面的这个方程:
θ M L E = a r g m a x θ log ⁡ P ( X ∣ θ ) = a r g m a x θ log ⁡ ∏ i P ( x i ∣ θ ) = a r g m a x θ ∑ i log ⁡ P ( x i ∣ θ ) \begin{aligned} \theta_{MLE} &= \mathop{\rm arg\,max}\limits_{\theta} \log P(X \vert \theta) \\[10pt] &= \mathop{\rm arg\,max}\limits_{\theta} \log \prod_i P(x_i \vert \theta) \\[10pt] &= \mathop{\rm arg\,max}\limits_{\theta} \sum_i \log P(x_i \vert \theta) \end{aligned} θMLE​​=θargmax​logP(X∣θ)=θargmax​logi∏​P(xi​∣θ)=θargmax​i∑​logP(xi​∣θ)​
如果使用这个框架,我们只需要计算模型的log形式的似然函数,然后最大化这个似然函数求得参数 θ \theta θ即可,可以使用我们最喜欢的优化函数如梯度下降法。

到此为止,我们已经理解了MLE是如何操作的,从现在起,我们又要开启故事的另一条主线了。


MAP通常出现在Bayesian的环景中,因为,正如其名字显示,MAP利用了后验概率的分布,而不仅仅是似然函数。

回忆一下贝叶斯准则,我们可以通过先验概率和似然函数的乘积得到后验概率如下:
P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) ∝ P ( X ∣ θ ) P ( θ ) \begin{aligned} P(\theta \vert X) &= \frac{P(X \vert \theta) P(\theta)}{P(X)} \\[10pt] &\propto P(X \vert \theta) P(\theta) \end{aligned} P(θ∣X)​=P(X)P(X∣θ)P(θ)​∝P(X∣θ)P(θ)​
一般情况下我们都会忽略掉归一化因子,因为我们严格地说这里是优化,因此只要比例就够了。

如果我们把之前的MLE估计中的似然函数去掉,换成后验概率,那么目标函数变成如下形式:
θ M A P = a r g m a x θ P ( X ∣ θ ) P ( θ ) = a r g m a x θ log ⁡ P ( X ∣ θ ) P ( θ ) = a r g m a x θ log ⁡ ∏ i P ( x i ∣ θ ) P ( θ ) = a r g m a x θ ∑ i log ⁡ P ( x i ∣ θ ) P ( θ ) \begin{aligned} \theta_{MAP}& = \mathop{\rm arg\,max}\limits_{\theta} P(X \vert \theta) P(\theta) \\[10pt] &= \mathop{\rm arg\,max}\limits_{\theta} \log P(X \vert \theta) P(\theta) \\[10pt] &= \mathop{\rm arg\,max}\limits_{\theta} \log \prod_i P(x_i \vert \theta) P(\theta) \\[10pt] &= \mathop{\rm arg\,max}\limits_{\theta} \sum_i \log P(x_i \vert \theta) P(\theta) \end{aligned} θMAP​​=θargmax​P(X∣θ)P(θ)=θargmax​logP(X∣θ)P(θ)=θargmax​logi∏​P(xi​∣θ)P(θ)=θargmax​i∑​logP(xi​∣θ)P(θ)​
对比下MLE和MAP的公式,两者唯一的区别在于MAP估计中增加了一个先验概率 P ( θ ) P(\theta) P(θ),否则,二者完全相同。这就意味着,似然函数现在增加了一个权重,并且这些权重来源于先验概率。

我们假设下如果我们在MAP模型中使用最简单的先验概率,比如均匀分布。这也就意味着,我们在 θ \theta θ的所有可能出现的值上增加了一个相同的权重。也就是说,先验概率上乘了一个常数。因为它是个常数,因此不会对优化结果产生影响,故我们可以把这个常数从目标函数中去掉。

更具体一点,假设 θ \theta θ的可能取值有6个。那么我们就让 p ( θ ) p(\theta) p(θ)的值都为 1 6 \frac{1}{6} 61​,此时,我们就可以在MAP模型中将常数部分去掉,如下:
θ M A P = a r g m a x θ ∑ i log ⁡ P ( x i ∣ θ ) P ( θ ) = a r g m a x θ ∑ i log ⁡ P ( x i ∣ θ ) c o n s t = a r g m a x θ ∑ i log ⁡ P ( x i ∣ θ ) = θ M L E \begin{aligned} \theta_{MAP} &= \mathop{\rm arg\,max}\limits_{\theta} \sum_i \log P(x_i \vert \theta) P(\theta) \\[10pt] &= \mathop{\rm arg\,max}\limits_{\theta} \sum_i \log P(x_i \vert \theta) \, const \\[10pt] &= \mathop{\rm arg\,max}\limits_{\theta} \sum_i \log P(x_i \vert \theta) \\[10pt] &= \theta_{MLE} \end{aligned} θMAP​​=θargmax​i∑​logP(xi​∣θ)P(θ)=θargmax​i∑​logP(xi​∣θ)const=θargmax​i∑​logP(xi​∣θ)=θMLE​​

我们又回到了MLE!

如果我们使用了不同的先验概率,比如高斯分布函数,那么其先验概率就不再是处处相同,由于取决于分布的区域,概率或高或低,不总是相同了。

至此我们可以得出结论,MLE是MAP的一个特殊情况,也就是当先验概率为均匀分布时,二者相同。

总结

至此文章翻译完了,并且得出了一个结论:

MLE是MAP的一个特殊情况,也就是当先验概率为均匀分布时,二者相同。

第一次做翻译工作,感觉真的很别扭,明明英文读着很流畅,可就是不知道怎么用汉语表述,尴尬至极。

以后尽量还是不翻译了,整合下各种资料就好了

机器学习基础:最大似然(Maximum Likelihood) 和最大后验估计 (Maximum A Posteriori Estimation)的区别相关推荐

  1. 机器学习之数学基础(一)~maximum likelihood

    一.转载博客 转载在:https://www.douban.com/note/640290683/ 注0:<deep learning>的chapter 5有一部分讲maximum lik ...

  2. 极大似然估计(Maximum Likelihood Estimattion Theory)是什么?极大似然估计的本质思想是什么?为什么极大似然可以作为损失函数使用?负对数似然损失函数(Negative

    极大似然估计(Maximum Likelihood Estimattion Theory)是什么?极大似然估计的本质思想是什么?为什么极大似然可以作为损失函数使用?负对数似然损失函数(Negative ...

  3. 【声源定位】 球面散乱数据插值方法/似然估计hybrid spherical interpolation/maximum likelihood (SI/ML) 麦克风阵列声源定位

    1.软件版本 MATLAB2021a 2.本算法理论知识点 球面散乱数据插值方法/似然估计SI/ML 麦克风阵列声源定位 3.算法具体理论 这个部分的程序如下所示: 这个部分理论如下所示: 本文最后的 ...

  4. [转载]什么是似然度~maximum likelihood

    转载在:https://www.douban.com/note/640290683/ 注0:<deep learning>的chapter 5有一部分讲maximum likelihood ...

  5. 【机器学习算法-python实现】最大似然估计(Maximum Likelihood)

    1.背景 最大似然估计是概率论中常常涉及到的一种统计方法.大体的思想是,在知道概率密度f的前提下,我们进行一次采样,就可以根据f来计算这个采样实现的可能性.当然最大似然可以有很多变化,这里实现一种简单 ...

  6. 机器学习基础——先验概率、后验概率和似然估计的讲解;频率派和贝叶斯派之分;以及MLE和MAP方法的解析

    1.先验概率 假定 B 1 , B 2 , - , B n B_1,B_2,\ldots ,B_n B1​,B2​,-,Bn​是某个过程所有可能的前提条件,也就是 B 1 , B 2 , - , B ...

  7. 极大似然估计Maximum Likelihood Estimation

    极大似然估计是概率论在统计学的应用,是一种参数估计.说的是已知随机样本满足某种具体参数未知的概率分布,参数估计就是通过若干次试验,利用结果推出参数的大概值.极大似然估计的一种直观想法是已知某个事件发生 ...

  8. 机器学习基础 EM算法

    文章目录 一.初识EM算法 二.EM算法介绍 1. 极大似然估计 1.1 问题描述 1.2 用数学知识解决现实问题 1.3 最大似然函数估计值的求解步骤 2. EM算法实例描述 3. EM算法流程 三 ...

  9. 2.机器学习基础(一)

    文章目录 第二章 机器学习基础 2.1 基本概念 2.1.1 什么是神经网络 2.1.2 各种常见算法图示 2.1.3 计算图的导数计算 2.1.4 理解局部最优与全局最优 2.1.5 大数据与深度学 ...

最新文章

  1. Nginx小功能合集
  2. 一天搞定CSS:表单(form)--20
  3. EnjoyingSoft之Mule ESB开发教程第六篇:Data Transform - 数据转换
  4. Knative 实战:基于阿里云 Kafka 实现消息推送
  5. jquery读取json文件跨域_跨域方法的若干种方式
  6. 【李宏毅2020 ML/DL】P60-61 Unsupervised Learning - Deep Generative Model
  7. 使用晨曦记账本记账,将账目明细导出excel表格上
  8. cad批量打印_CAD批量打印插件的安装与使用方法
  9. 通过NAT64实现ipv6 client 访问ipv4 Server
  10. 两台计算机如何共享文档,两台电脑怎么共享文件夹?
  11. VS解决方案下文件的含义(记录)
  12. Linux系统之热插拨事件uevent
  13. Mikrotik路由器(routerOS)调试环境搭建
  14. 一文熟悉 Go 的循环结构 —— for 循环
  15. 文字和图片,图片和图片底部对齐
  16. qemu 加载ubuntu
  17. 硬盘的主流技术,最新的硬盘技术
  18. Hexo+Github博客搭建之Matery主题个性化修改篇(一)
  19. Yolov1、Yolov2、Yolov3学习笔记
  20. 高效云盘、SSD 云盘和普通云盘的区别和应用场景

热门文章

  1. 微信小程序之图表系列——最简单的表格制作
  2. 【Android】APK的打包流程
  3. 如何选择优化器 optimizer
  4. android源码树结构介绍
  5. MOS管基本驱动电路
  6. 5c标准第二语言,美国语言教学5C标准对中文作为第二语言教学课堂的启示
  7. CMake问题:The CXX compiler identification is unknown
  8. 按位与和异或运算符(Python中两个不常用,却重要的运算符)
  9. 天文学论文绘图注意事项
  10. RK3188 5.1平台PCM2708 USB声卡调试