似然函数和最大似然估计

拿到一组样本时，在大致判断了它服从什么样的分布以后，最重要的步骤就是求得分布的最优参数，以下简称参数为 θ \theta θ。这里回顾以下最大似然估计法。

1 最大似然估计
最大似然估计，以我的理解，就是找到一个最优参数 θ \theta θ，使得观测到已知样本的可能性最大，是一种反推方法。

对于随机变量 X X X，观测到一组相互独立的n维样本 x 1 , x 2 . . . x n x_1,x_2...x_n x1,x2...xn。若 X X X在某一取值 x i x_i xi处的概率密度为 f X ( x i ∣ θ ) f_X(x_i|\theta) fX(xi∣θ)，那么随机变量 X X X取值为这一组样本的概率密度为

f X ( x ∣ θ ) = f X ( x 1 , x 2 . . . x n ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) \begin{aligned} f_X(x|\theta)=f_X(x_1,x_2...x_n|\theta)=\prod_{i=1}^{n}f(xi|\theta) \end{aligned} fX(x∣θ)=fX(x1,x2...xn∣θ)=i=1∏nf(xi∣θ)

似然估计函数： L ( θ ∣ x ) = f X ( x ∣ θ ) L(\theta|x)=f_X(x|\theta) L(θ∣x)=fX(x∣θ)。在得到了 L ( θ ∣ x ) L(\theta|x) L(θ∣x)后，我们想找出的最优参数(即最大似然参数) θ ^ M V \hat\theta_{MV} θ^MV就是那个能让 L ( θ ∣ x ) L(\theta|x) L(θ∣x)取到最大值的参数，为什么是最大值我们稍后通过例子可以推断出。

θ ^ M V = arg ⁡ max ⁡ θ L ( θ ∣ x ) \begin{aligned} \hat\theta_{MV}=\mathop{\arg\max}_{\theta}L(\theta|x) \end{aligned} θ^MV=argmaxθL(θ∣x)

如果一个函数一阶可导，二阶倒数<0，那么这一定是一个凸函数，函数的最大值就是在一阶倒数=0时候的取值。
{ ∂ L ( θ ∣ x ) ∂ θ = 0 ∂ 2 L ( θ ∣ x ) ∂ θ 2 < 0 \begin{aligned} \left\{ \begin{array}{lr} \frac{\partial L(\theta|x)}{\partial \theta} =0 &\\ &\\ \frac{\partial^2 L(\theta|x)}{\partial \theta^2}<0 \end{array} \right. \end{aligned} ⎩⎪⎨⎪⎧∂θ∂L(θ∣x)=0∂θ2∂2L(θ∣x)<0

2 举例

上面都是理论和结论，为了更好地理解最大似然估计，举一个例子。假设有一枚均匀的硬币，扔到正面和反面的概率都为0.5。现在扔了2次硬币，都是正面。从概率学的角度上讲，扔一枚硬币2次都是正面的概率为0.5*0.5=0.25.

第一次	第二次	概率
正	正	0.25
正	反	0.25
反	正	0.25
反	反	0.25

现在假设我们不知道硬币是否均匀，也不知道扔到正反面的概率分别为多少，令随机变量X为扔到正面的次数，假设扔到正面的概率为 θ \theta θ，那么扔到反面的概率为 1 − θ 1-\theta 1−θ, 那么似然函数为：
L ( θ ∣ x ) = f X ( x ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) = C n a P ( X = 正面 ) a P ( X = 负面 ) n − a = C n a θ a ( 1 − θ ) n − a \begin{aligned} L(\theta|x)=f_X(x|\theta)=\prod_{i=1}^{n}f(xi|\theta)=C_n^aP(X=正面)^aP(X=负面)^{n-a}=C_n^a\theta^a(1-\theta)^{n-a} \end{aligned} L(θ∣x)=fX(x∣θ)=i=1∏nf(xi∣θ)=CnaP(X=正面)aP(X=负面)n−a=Cnaθa(1−θ)n−a

θ \theta θ的取值在 0 , 1 0,1 0,1之间。当观测到扔2次硬币均为正面时，似然函数的值为 C 2 2 θ 2 ( 1 − θ ) 0 = θ 2 C_2^2\theta^2(1-\theta)^0=\theta^2 C22θ2(1−θ)0=θ2。由于 L ( θ ∣ x ) = θ 2 L(\theta|x)=\theta^2 L(θ∣x)=θ2是一个凹函数，使得似然函数最大的 θ ^ M V \hat\theta_{MV} θ^MV的值是1。也就是说，在观察到连续两次扔硬币都是正面朝上的情况下，我们认为硬币投掷时正面朝上的概率为1是最合理的。

合理并不代表正确，这仅是在当前观测条件下最好的预测。当样本数量较大时，例如扔1000次硬币，观察正反两面朝上的情况，求出的 θ ^ M V \hat\theta_{MV} θ^MV会越来越接近真实值1/2。

似然函数和最大似然估计相关推荐

如何理解「最大似然估计」？参数估计、似然函数、最大似然估计
文章目录引言参数估计最大似然估计似然函数求解最大似然估计问题为什么要对似然函数取对数? "似然"与"概率"的区别机器学习中的应用参考资料引言 ...
【简述与推导】似然函数，最大似然估计，条件概率，全概率，贝叶斯概率
目录 1. 似然(likehood)与最大似然估计 2. 条件概率(conditional probability),全概率(total probability),和贝叶斯概率(Bayes proba ...
统计信号处理中的似然函数与最大似然估计
假设条件 1.参数为标量形式,θθθ 2.加性模型(x[n]=s[n;θ]+w[n],n=0,1,-N−1x[n]=s[n;θ]+w[n],n=0,1,-N-1x[n]=s[n;θ]+w[n],n=0 ...
似然函数与极大似然估计
似然函数与极大似然估计标签(空格分隔): ML 似然函数随机变量XXX的概率分布已知,但是这个分布的参数是未知的,需要我们去估计,我们把他记作θ\thetaθ,好比在抛硬币的试验中,硬币正面朝 ...
似然函数，最大似然估计，以及与条件概率，贝叶斯概率区别简要说明
目录 1. 似然(likehood)与最大似然估计 2. 条件概率(conditional probability),全概率(total probability),和贝叶斯概率(Bayes proba ...
似然函数以及最大似然估计
在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性.似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等."似然性"与" ...
似然函数的意义与极大似然估计
什么是概率? 简单来说,概率是一个函数,定义域是样本空间,满足非负性,规范性,可列可加性. 严格的公理化定义如下: 概率可以做什么?统计又可以做什么? 什么是先验概率,后验概率,似然? 先验概率:根据 ...
交叉熵损失函数和似然估计_熵、交叉熵及似然函数的关系
熵.交叉熵及似然函数的关系 1. 熵 1.1 信息量信息量:最初的定义是信号取值数量m的对数为信息量\(I\),即 \(I=log_2m\).这是与比特数相关的,比如一个信号只有两个取值,那么用1个 ...
专栏 | 机器学习 - 最大似然估计
https://www.toutiao.com/a6672959716013900301/ 生活实例我们在生活中就经常应用到最大似然估计的思想. 比如你高中的班主任上课时从教室门缝进行扒头观测,10 ...

似然函数和最大似然估计

似然函数和最大似然估计

似然函数和最大似然估计相关推荐

最新文章

热门文章