一. 数据描述

对概率的诠释有两大学派，一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号(假如数据有 NNN 个样本，样本的维度为 ppp)：
XN×p=(x1,x2,⋯,xN)T=(x11x12⋯x1px11x22⋯x2p⋮xN1xN2⋯xNp)N×p(1)\boldsymbol X_{N\times p}=(\boldsymbol x_{1},\boldsymbol x_{2},\cdots,\boldsymbol x_{N})^{T}=\left(\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1 p} \\ x_{11} & x_{22} & \cdots & x_{2 p} \\ \vdots & & & \\ x_{N 1} & x_{N 2} & \cdots & x_{N p} \end{array}\right)_{N \times p} \tag{1} XN×p=(x1,x2,⋯,xN)T=⎝⎜⎜⎜⎛x11x11⋮xN1x12x22xN2⋯⋯⋯x1px2pxNp⎠⎟⎟⎟⎞N×p(1) 其中每个观测都是由 p(x∣θ)p(x|\theta)p(x∣θ) 生成的。

二. 频率派观点

p(x∣θ)p(x|\theta)p(x∣θ)中的 θ\thetaθ 是一个未知常量。对于 NNN 个观测来说观测集的概率为 p(X∣θ)=iid∏i=1Np(xi∣θ))p(X|\theta)\mathop{=}\limits _{iid}\prod\limits _{i=1}^{N}p(\boldsymbol x_{i}|\theta))p(X∣θ)iid=i=1∏Np(xi∣θ))(iid表示独立同分布，每个样本都服从 xi∼p(x∣θ)\boldsymbol x_{i} \sim p(x|\theta)xi∼p(x∣θ))。为了求 θ\thetaθ 的大小，我们采用最大对数似然(MLE)的方法：
θMLE=argmaxθp(X∣θ)=iidargmaxθ∑i=1Np(xi∣θ)=∏i=1Np(xi∣θ))(2)\theta_{MLE}=\mathop{\text {argmax}}\limits _{\theta}p(\boldsymbol X|\theta)\mathop{=}\limits _{iid}\mathop{\text {argmax}}\limits _{\theta}\sum\limits _{i=1}^{N}p(\boldsymbol x_{i}|\theta)=\prod\limits _{i=1}^{N}p(\boldsymbol x_{i}|\theta))\tag{2} θMLE=θargmaxp(X∣θ)iid=θargmaxi=1∑Np(xi∣θ)=i=1∏Np(xi∣θ))(2)

为了简化运算，通常加上log，如下：
θMLE=argmaxθlog⁡P(X∣θ)⏟L(θ)=iidargmaxθ∑i=1Nlog⁡p(xi∣θ)(3)\theta_{MLE}=\mathop{\text {argmax}}\limits _{\theta} \underbrace{\log P(\boldsymbol X \mid \theta)}_{\mathcal{L}(\theta)}\mathop{=}\limits _{iid}\mathop{\text {argmax}}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)\tag{3} θMLE=θargmaxL(θ)logP(X∣θ)iid=θargmaxi=1∑Nlogp(xi∣θ)(3)

三. 贝叶斯派观点

贝叶斯派认为 p(x∣θ)p(x|\theta)p(x∣θ) 中的 θ\thetaθ 不是一个常量。这个 θ\thetaθ 满足一个预设的 先验分布 θ∼p(θ)\theta\sim p(\theta)θ∼p(θ) 。于是根据 贝叶斯定理 依赖观测集参数的后验可以写成：
p(θ∣X)=p(X∣θ)⋅p(θ)p(X)=p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ(4)p(\theta|\boldsymbol X)=\frac{p(\boldsymbol X|\theta)\cdot p(\theta)}{p(\boldsymbol X)}=\frac{p(\boldsymbol X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(\boldsymbol X|\theta)\cdot p(\theta)d\theta}\tag{4} p(θ∣X)=p(X)p(X∣θ)⋅p(θ)=θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)(4)

为了求 θ\thetaθ 的值，我们要最大化这个参数后验MAP(最大概率后验估计)：
θMAP=argmaxθp(θ∣X)=argmaxθp(X∣θ)⋅p(θ)(5)\theta_{MAP}=\mathop{\text {argmax}}\limits _{\theta}p(\theta|\boldsymbol X)=\mathop{\text {argmax}}\limits _{\theta}p(\boldsymbol X|\theta)\cdot p(\theta)\tag{5} θMAP=θargmaxp(θ∣X)=θargmaxp(X∣θ)⋅p(θ)(5)

其中第二个等号是由于分母和 θ\thetaθ 没有关系。求解这个 θ\thetaθ 值后计算p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ\frac{p(\boldsymbol X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(\boldsymbol X|\theta)\cdot p(\theta)d\theta}θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ) ，就得到了参数的后验概率。其中 p(X∣θ)p(\boldsymbol X|\theta)p(X∣θ) 叫似然，是我们的模型分布。得到了参数的后验分布后，我们可以将这个分布用于预测贝叶斯预测：
p(xnew∣X)=∫θp(xnew∣θ)⋅p(θ∣X)dθ(6)p(x_{new}|\boldsymbol X)=\int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|\boldsymbol X)d\theta\tag{6} p(xnew∣X)=θ∫p(xnew∣θ)⋅p(θ∣X)dθ(6) 其中积分中的被乘数是模型，乘数是后验分布。

四. 总结

频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论(解loss function的问题)占有重要地位。而 贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用。

五. 参考文章

https://www.bilibili.com/video/BV1aE411o7qd?p=2

https://www.yuque.com/bystander-wg876/yc5f72/hu0291

『机器学习白板』频率派vs贝叶斯派相关推荐

机器学习基础——先验概率、后验概率和似然估计的讲解；频率派和贝叶斯派之分；以及MLE和MAP方法的解析
1.先验概率假定 B 1 , B 2 , - , B n B_1,B_2,\ldots ,B_n B1,B2,-,Bn是某个过程所有可能的前提条件,也就是 B 1 , B 2 , - , B ...
频率学派和贝叶斯学派的一些区别
很多人能讲出一大堆哲学理论来阐明这一对区别. 但我觉得,从工程师角度来讲,这样理解就够了: 频率 vs 贝叶斯 = P(X;w) vs P(X|w) 或 P(X,w) 你是把参数当作一个待确认系数还 ...
德国坦克问题及频率学派与贝叶斯学派
转载:Tony's blog: 德国坦克问题及频率学派与贝叶斯学派 (tonysh-thu.blogspot.com) 这是一个看起来很基础很简单的经典问题:假设所有的德国坦克是从1开始按自然数递增编 ...
频率学派与贝叶斯学派（先验分布与后验分布，MLE和MAP）
频率学派(古典学派)和贝叶斯学派是数理统计领域的两大流派. 这两大流派对世界的认知有本质的不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范 ...
贝叶斯集锦：贝叶斯派和频率派的一个例子
转载自:http://site.douban.com/182577/widget/notes/10567181/note/278503359/ 这个例子的主要目的在于探讨贝叶斯派和频率派适用的具体情境 ...
机器学习 · 总览篇 III 统计推断: 频率学派和贝叶斯学派
统计推断作为重要的机器学习基础,对它的了解十分必要,否则我们做机器学习只是在黑盒操作,对其原理和结果难以解释本文首发于我的知乎专栏<机器怎么学习>中机器学习·总览篇(3) 统计推断: ...
机器学习领域中各学派划分——符号主义、频率主义、贝叶斯主义、连接主义核心思想和理论
机器学习领域中各学派划分--符号主义.频率主义.贝叶斯主义.连接主义文章目录机器学习领域中各学派划分--符号主义.频率主义.贝叶斯主义.连接主义符号主义频率主义贝叶斯主义连接主义符号主义 ...
频率学派和贝叶斯学派的参数估计
一频率学派与贝叶斯学派的区别二频率学派的参数估计极大似然估计 1 离散随机变量的似然函数 2 连续随机变量的似然函数 3 最大似然估计一般求解过程三贝叶斯学派的参数估计最大后验估计贝叶 ...
频率学派和贝叶斯学派区别浅谈
区别往大里说,世界观就不同,频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值:贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布,个人认为这 ...

『机器学习白板』频率派vs贝叶斯派

文章目录

一. 数据描述

二. 频率派观点

三. 贝叶斯派观点

四. 总结

五. 参考文章

『机器学习白板』频率派vs贝叶斯派相关推荐

最新文章

热门文章