经验风险最小化:
minf∈F1N∑Ni=1L(yi,f(xi))\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))
结构风险最小化:
minf∈F1N∑Ni=1L(yi,f(xi))+λJ(f)\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f)
李航博士《统计学习方法》中第一章第九页中有两个论断
1 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
2 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计

证明论断1:
极大似然估计:对于观测的随机变量D,其总体分布为
P(D;θ)P(D;\theta)
(这里θ\theta是一个未知的参数,是一个常量而不是变量)
S为抽样得到的样本,S=(s1,s2,...,sN)S=(s_1,s_2,...,s_N),样本是独立同分布得到的,因此样本的分布为
L(θ)=∏Ni=1P(si;θ)L(\theta) = \prod_{i=1}^{N} P(s_i;\theta)
当S=(s1,s2,...,sN)S=(s_1,s_2,...,s_N)确定,则上式可以看做是θ\theta的函数。
这个函数反映了在观察结果已知的情况下,θ\theta的“似然程度”,因此上式被叫做似然函数。用似然程度最大的那个θ∗\theta_{*}去做θ\theta的估计,这种估计方法叫做”极大似然估计”。取对数,极大平均似然函数为:
maxlogL(θ)=max1N∑Ni=1logP(si;θ)\max log L(\theta)=\max \frac{1}{N}\sum_{i=1}^{N}log P(s_i;\theta)
上式等价于
min−logL(θ)=min1N∑Ni=1−logP(si;θ)\min -log L(\theta)=\min \frac{1}{N}\sum_{i=1}^{N} -log P(s_i;\theta)
在统计学习中,S就是样本,si=(xi,yi).xi为特征,yi为标签s_{i}=(x_i,y_i).x_i\mbox{为特征,}y_i{为标签}
当模型是条件概率分布时,则P(si;θ)=P(yi|xi;θ)P(s_i;\theta)=P(y_i|x_i;\theta)
min−logL(θ)=min1N∑Ni=1−logP(yi|xi;θ)−−−−−(1)\min -log L(\theta)=\min \frac{1}{N}\sum_{i=1}^{N} -log P(y_i|x_i;\theta) -----(1)
当损失函数是对数损失函数(L(Y,P(Y|X))=−logP(Y|X)L(Y,P(Y|X)) = -log P(Y|X)),则最小化经验风险的公式为
minf∈F1N∑Ni=1L(yi,f(xi))=minf∈F1N∑Ni=1L(yi,p(yi|xi;θ))=minf∈F1N∑Ni=1−logp(yi|xi;θ)—–(2)\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i)) =\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,p(y_i|x_i;\theta)) =\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} -log p(y_i|x_i;\theta) —–(2)
对比(1)(2)两个公式,论断1得证。

证明论断2:
极大似然估计将θ\theta看做是一个确定但未知的常量,而贝叶斯学派则认为θ\theta可以看做一个随机变量,从这个视角出发可得到条件概率P(θ|S)P(\theta|S)
因此利用贝叶斯公式得到
P(θ|S)=P(S|θ)P(θ)P(S)P(\theta|S)=\frac{P(S|\theta)P(\theta)}{P(S)}
最大后验概率估计是要最大化P(θ|S)P(\theta|S)这个后验概率,因此
maxP(θ|S)=maxP(S|θ)P(θ)\max P(\theta|S) = \max P(S|\theta)P(\theta)
上式与极大似然估计相比,只多了个P(θ)P(\theta),左边和极大似然估计一样,因此对左边取对数处理求平均似然最大
max1N∑Ni=1logP(si|θ)+logP(θ)\max \frac{1}{N}\sum_{i=1}^{N} log P(s_i|\theta)+log P(\theta)
当模型是条件概率分布时,则P(si;θ)=P(yi|xi;θ)P(s_i;\theta)=P(y_i|x_i;\theta)因此,
max1N∑Ni=1logP(yi|xi;θ)+logP(θ)\max \frac{1}{N}\sum_{i=1}^{N} log P(y_i|x_i;\theta)+log P(\theta)
取负号,转换为
min1N∑Ni=1−logP(yi|xi;θ)−logP(θ)−−−−−(3)\min \frac{1}{N}\sum_{i=1}^{N} -log P(y_i|x_i;\theta)-log P(\theta) -----(3)
当损失函数是对数损失函数(L(Y,P(Y|X))=−logP(Y|X)L(Y,P(Y|X)) = -log P(Y|X)),模型是条件概率分布时,
结构风险最小化公式
minf∈F1N∑Ni=1L(yi,f(xi))+λJ(f)=minf∈F1N∑Ni=1−logP(yi|xi;θ)+λJ(f)—–(4)\min \limits_{f\in F} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f) =\min \limits_{f\in F} \frac{1}{N} \sum_{i=1}^{N} -log P(y_i|x_i;\theta)+\lambda J(f) —–(4)
比较公式(3)(4),则当λJ(f)=−logP(θ)\lambda J(f) = -log P(\theta)两者等价,论断2得证。

极大似然估计 最大后验概率估计相关推荐

  1. 参数估计:极大似然估计、矩估计的基本概念及应用方法

    来源:首席数据科学家 今天分享一下关于参数估计的基本概念.尤其是极大似然估计,有着重要的应用. 01 - 参数估计的定义 首先,什么是参数估计呢? 之前我们其实已经了解到很多种分布类型了,比如正态分布 ...

  2. 理解极大似然估计与最大后验概率估计

    文章目录 概率和统计 贝叶斯公式 似然函数 最大似然估计 最大后验概率估计 最大似然估计和最大后验概率估计的区别 最大似然估计的一个例子 参考链接 概率和统计 概率(probabilty)和统计(st ...

  3. 机器学习笔记---从极大似然估计的角度看待Logistic回归

    前言 看完极大似然估计后,想起Logistic回归中的参数估计就是使用这个方法,因此详细的记录整个推导的过程.[公式可以移动,若不能,可以切换横屏] 本文约1.4k字,预计阅读10分钟 Logisti ...

  4. 极大似然估计(Maximum Likelihood)与无监督

    1. 极大似然与最大概率 因为不是科班出身,所以最初接触极大似然的时候,总是很奇怪为什么叫极大似然,而不直接叫做最大概率? 后来才知道极大似然是用来估计未知参数的,而最大概率的表述更适合于已知参数的情 ...

  5. 机器学习 —— 极大似然估计与条件概率

    今天在研究点云分割的时候终于走完了所有的传统路子,走到了基于机器学习的分割与传统自底向上分割的分界点(CRF)算法.好吧,MIT的老教授说的对,其实你很难真正绕过某个问题,数学如是,人生也如是. -- ...

  6. 机器学习之极大似然估计详解

    文章目录 前言 极大似然原理 极大似然估计 极大似然估计的应用及推导 推导 联合概率是什么 求极大似然估计值$\hat\theta$的一般步骤 前言 极大似然估计在机器学习中很多模型都会用到,理解了极 ...

  7. envi最大似然分类_闲谈最大后验概率估计(MAP estimate)amp;极大似然估计(MLE)和机器学习中的误差分类...

    上一篇文章中提到了一个有趣的实验,简单来说就是1-100中有若干个数字是"正确的",只告诉其中一部分"正确的"数字,去猜全部"正确的"数字. ...

  8. 贝叶斯分类、极大似然估计和最大后验概率估计的一些概念

    朴素贝叶斯分类算法:https://zhuanlan.zhihu.com/p/26262151 极大似然估计:https://blog.csdn.net/zengxiantao1994/article ...

  9. 最大似然估计和最大后验概率估计的理解与求解

    1. 最大似然估计的理解 最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, ...

最新文章

  1. Java中关于String类型的10个问题
  2. Android用Intent和Bundle传list
  3. 使用 sitemesh/decorator装饰器装饰jsp页面(原理及详细配置)
  4. 利用Eigen进行矩阵计算
  5. mysql导入组织树脚本_mysql存储过程递归调用发作树数据
  6. eclipse import的项目报autowired cannot be resolved to a type的错误
  7. 编译android4.4 报错error: call to '__property_get_too_small_error' declared with attribute 的处理 (转载)...
  8. 将DynamipsGUI和VMware虚拟机进行桥接
  9. 虚幻4引擎开发的手游_掌上视觉进化,盘点近年虚幻4引擎开发的手游大作
  10. 用计算机算术表白,数学表白密码
  11. 《构建高可用Linux服务器 第3版》—— 1.5 Linux服务器的优化
  12. UTC相关的时区转换
  13. VueX 以及axios
  14. 广告投放策略及数据分析
  15. linux轻量级进程,linux轻量级进程LWP
  16. J2EE高级开发框架小课程之Spring框架2——Spring容器作用域,生命周期,Spring管理对象之间依赖关系
  17. Python dict字典基本操作
  18. java web开发(和vue联合开发)
  19. Delphi 官方下载 地址
  20. Python自动覆盖录屏软件——NIRE工作室开源软件(参数自动校正)(欢迎白嫖)

热门文章

  1. 民警同志立刻往女同志那儿走来
  2. linux zip 压缩子目录,Linux zip命令:压缩文件或目录
  3. vue create is a Vue CLI 3 only command and you are using Vue CLI 2.9.6. You may want to run the
  4. ansys用什么cpu_学ansys软件需要什么样的电脑配置才能运行?
  5. 北师大 外国教育史-7(进步主义教育运动)
  6. Oracle数据文件损坏无法正常修复问题
  7. 58同城将在美国纽交所挂牌上市
  8. 58同城再曝上市传闻:筹资至少1亿美元
  9. U盘小助手 使用和功能说明
  10. pdc 半圆_PDC。 我已经准备好进行革命了。 打动我。 把我吹走