频率派vs贝叶斯派!

文章目录

  • 一. 数据描述
  • 二. 频率派观点
  • 三. 贝叶斯派观点
  • 四. 总结
  • 五. 参考文章

一. 数据描述

  • 对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号(假如数据有 NNN 个样本,样本的维度为 ppp):
    XN×p=(x1,x2,⋯,xN)T=(x11x12⋯x1px11x22⋯x2p⋮xN1xN2⋯xNp)N×p(1)\boldsymbol X_{N\times p}=(\boldsymbol x_{1},\boldsymbol x_{2},\cdots,\boldsymbol x_{N})^{T}=\left(\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1 p} \\ x_{11} & x_{22} & \cdots & x_{2 p} \\ \vdots & & & \\ x_{N 1} & x_{N 2} & \cdots & x_{N p} \end{array}\right)_{N \times p} \tag{1} XN×p​=(x1​,x2​,⋯,xN​)T=⎝⎜⎜⎜⎛​x11​x11​⋮xN1​​x12​x22​xN2​​⋯⋯⋯​x1p​x2p​xNp​​⎠⎟⎟⎟⎞​N×p​(1) 其中每个观测都是由 p(x∣θ)p(x|\theta)p(x∣θ) 生成的。

二. 频率派观点

  • p(x∣θ)p(x|\theta)p(x∣θ)中的 θ\thetaθ 是一个未知常量。对于 NNN 个观测来说观测集的概率为 p(X∣θ)=iid∏i=1Np(xi∣θ))p(X|\theta)\mathop{=}\limits _{iid}\prod\limits _{i=1}^{N}p(\boldsymbol x_{i}|\theta))p(X∣θ)iid=​i=1∏N​p(xi​∣θ))(iid表示独立同分布,每个样本都服从 xi∼p(x∣θ)\boldsymbol x_{i} \sim p(x|\theta)xi​∼p(x∣θ))。为了求 θ\thetaθ 的大小,我们采用最大对数似然(MLE)的方法:
    θMLE=argmaxθp(X∣θ)=iidargmaxθ∑i=1Np(xi∣θ)=∏i=1Np(xi∣θ))(2)\theta_{MLE}=\mathop{\text {argmax}}\limits _{\theta}p(\boldsymbol X|\theta)\mathop{=}\limits _{iid}\mathop{\text {argmax}}\limits _{\theta}\sum\limits _{i=1}^{N}p(\boldsymbol x_{i}|\theta)=\prod\limits _{i=1}^{N}p(\boldsymbol x_{i}|\theta))\tag{2} θMLE​=θargmax​p(X∣θ)iid=​θargmax​i=1∑N​p(xi​∣θ)=i=1∏N​p(xi​∣θ))(2)
  • 为了简化运算,通常加上log,如下:
    θMLE=argmaxθlog⁡P(X∣θ)⏟L(θ)=iidargmaxθ∑i=1Nlog⁡p(xi∣θ)(3)\theta_{MLE}=\mathop{\text {argmax}}\limits _{\theta} \underbrace{\log P(\boldsymbol X \mid \theta)}_{\mathcal{L}(\theta)}\mathop{=}\limits _{iid}\mathop{\text {argmax}}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)\tag{3} θMLE​=θargmax​L(θ)logP(X∣θ)​​iid=​θargmax​i=1∑N​logp(xi​∣θ)(3)

三. 贝叶斯派观点

  • 贝叶斯派认为 p(x∣θ)p(x|\theta)p(x∣θ) 中的 θ\thetaθ 不是一个常量。这个 θ\thetaθ 满足一个预设的 先验分布 θ∼p(θ)\theta\sim p(\theta)θ∼p(θ) 。于是根据 贝叶斯定理 依赖观测集参数的后验可以写成:
    p(θ∣X)=p(X∣θ)⋅p(θ)p(X)=p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ(4)p(\theta|\boldsymbol X)=\frac{p(\boldsymbol X|\theta)\cdot p(\theta)}{p(\boldsymbol X)}=\frac{p(\boldsymbol X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(\boldsymbol X|\theta)\cdot p(\theta)d\theta}\tag{4} p(θ∣X)=p(X)p(X∣θ)⋅p(θ)​=θ∫​p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)​(4)
  • 为了求 θ\thetaθ 的值,我们要最大化这个参数后验MAP(最大概率后验估计):
    θMAP=argmaxθp(θ∣X)=argmaxθp(X∣θ)⋅p(θ)(5)\theta_{MAP}=\mathop{\text {argmax}}\limits _{\theta}p(\theta|\boldsymbol X)=\mathop{\text {argmax}}\limits _{\theta}p(\boldsymbol X|\theta)\cdot p(\theta)\tag{5} θMAP​=θargmax​p(θ∣X)=θargmax​p(X∣θ)⋅p(θ)(5)
  • 其中第二个等号是由于分母和 θ\thetaθ 没有关系。求解这个 θ\thetaθ 值后计算p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ\frac{p(\boldsymbol X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(\boldsymbol X|\theta)\cdot p(\theta)d\theta}θ∫​p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)​ ,就得到了参数的后验概率。其中 p(X∣θ)p(\boldsymbol X|\theta)p(X∣θ) 叫似然,是我们的模型分布。得到了参数的后验分布后,我们可以将这个分布用于预测贝叶斯预测:
    p(xnew∣X)=∫θp(xnew∣θ)⋅p(θ∣X)dθ(6)p(x_{new}|\boldsymbol X)=\int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|\boldsymbol X)d\theta\tag{6} p(xnew​∣X)=θ∫​p(xnew​∣θ)⋅p(θ∣X)dθ(6) 其中积分中的被乘数是模型,乘数是后验分布。

四. 总结

  • 频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论(解loss function的问题)占有重要地位。而 贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用

五. 参考文章

  • https://www.bilibili.com/video/BV1aE411o7qd?p=2
  • https://www.yuque.com/bystander-wg876/yc5f72/hu0291

『机器学习白板』频率派vs贝叶斯派相关推荐

  1. 机器学习基础——先验概率、后验概率和似然估计的讲解;频率派和贝叶斯派之分;以及MLE和MAP方法的解析

    1.先验概率 假定 B 1 , B 2 , - , B n B_1,B_2,\ldots ,B_n B1​,B2​,-,Bn​是某个过程所有可能的前提条件,也就是 B 1 , B 2 , - , B ...

  2. 频率学派和贝叶斯学派的一些区别

    很多人能讲出一大堆哲学理论来阐明这一对区别. 但我觉得,从工程师角度来讲,这样理解就够了: 频率 vs 贝叶斯 = P(X;w) vs P(X|w) 或 P(X,w) 你是把参数当作一个待确认系数 还 ...

  3. 德国坦克问题及频率学派与贝叶斯学派

    转载:Tony's blog: 德国坦克问题及频率学派与贝叶斯学派 (tonysh-thu.blogspot.com) 这是一个看起来很基础很简单的经典问题:假设所有的德国坦克是从1开始按自然数递增编 ...

  4. 频率学派与贝叶斯学派(先验分布与后验分布,MLE和MAP)

    频率学派(古典学派)和贝叶斯学派是数理统计领域的两大流派. 这两大流派对世界的认知有本质的不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范 ...

  5. 贝叶斯集锦:贝叶斯派和频率派的一个例子

    转载自:http://site.douban.com/182577/widget/notes/10567181/note/278503359/ 这个例子的主要目的在于探讨贝叶斯派和频率派适用的具体情境 ...

  6. 机器学习 · 总览篇 III 统计推断: 频率学派和贝叶斯学派

    统计推断作为重要的机器学习基础,对它的了解十分必要,否则我们做机器学习只是在黑盒操作,对其原理和结果难以解释 本文首发于我的知乎专栏<机器怎么学习>中 机器学习·总览篇(3) 统计推断: ...

  7. 机器学习领域中各学派划分——符号主义、频率主义、贝叶斯主义、连接主义核心思想和理论

    机器学习领域中各学派划分--符号主义.频率主义.贝叶斯主义.连接主义 文章目录 机器学习领域中各学派划分--符号主义.频率主义.贝叶斯主义.连接主义 符号主义 频率主义 贝叶斯主义 连接主义 符号主义 ...

  8. 频率学派和贝叶斯学派的参数估计

    一 频率学派与贝叶斯学派的区别 二 频率学派的参数估计 极大似然估计 1 离散随机变量的似然函数 2 连续随机变量的似然函数 3 最大似然估计一般求解过程 三 贝叶斯学派的参数估计 最大后验估计 贝叶 ...

  9. 频率学派和贝叶斯学派区别浅谈

    区别 往大里说,世界观就不同,频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值:贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布,个人认为这 ...

最新文章

  1. @apioperation 作用_石莲子的功效与作用分享
  2. 小程序:位置信息(Location)及微信小程序LBS解决方案实践
  3. linux当前时间 按格式化,Linux下date命令,格式化输出,时间设置
  4. HTTP协议学习笔记(一)请求方法名及状态码
  5. npm ERR! code ELIFECYCLE npm ERR! errno 1 npm ERR! iview-admin@2.0.0 dev: `vue-cli-service serve
  6. 找出数组中第i小元素(时间复杂度Θ(n)--最坏情况为线性的选择算法
  7. 文本处理工具--正则表达式
  8. 拓端tecdat|R语言相关分析和稳健线性回归分析
  9. ueditor 文件服务器,ueditor-extend: 对百度UEditor编辑器做扩展,开放文件存储方法和获取远程文件列表方法,使其更灵活,更容易和独立的文件服务或者文件存储的云服务结合。...
  10. 3dmax高级建模方法总结
  11. regsvr32注册dll或ocx错误0x80040201的原因
  12. 人工智能技术与现代应用
  13. 第七章 Scala基础——类继承
  14. 计算机运行一段时间假死,电脑使用一段时间后变慢或死机(提高电脑运行速度技巧)...
  15. 会议安排(经典贪心算法例题)
  16. css 实现一个尖角_css实现气泡的小尖角效果
  17. 2019-11-14
  18. win10 电脑找不到WIFI,手机却能连上,问题解决
  19. Audio Codec介绍-6(音频设备的3种硬件接口--PCM,IIS和AC97)
  20. ad hoc是什么的简称_ad hoc是什么意思

热门文章

  1. 网络实验室:2.4GHz和5GHz频段实测比
  2. 奇迹按键精灵挂机脚本_{za}奇迹挂机捡物按键精灵源码507
  3. PAT 乙级 锤子剪刀布 (20)
  4. iPhone的Push(推送通知)功能原理浅析[转]
  5. 50 道网络面试题及答案(下)
  6. 管理软件Jira Service Desk使用教程之如何将Jira Cloud用于Slack?
  7. Ubuntu-可以编辑的PDF阅读器Master
  8. 华为交换机S5720命令
  9. python爬虫后进行诗词接龙_飞花令今天看了诗词大会特别有感触,还上了热搜,史上最长飞花令...
  10. 2021年机修钳工(中级)考试总结及机修钳工(中级)试题及答案