似然函数和最大似然估计
似然函数和最大似然估计
拿到一组样本时,在大致判断了它服从什么样的分布以后,最重要的步骤就是求得分布的最优参数,以下简称参数为 θ \theta θ。这里回顾以下最大似然估计法。
1 最大似然估计
最大似然估计,以我的理解,就是找到一个最优参数 θ \theta θ,使得观测到已知样本的可能性最大,是一种反推方法。
对于随机变量 X X X,观测到一组相互独立的n维样本 x 1 , x 2 . . . x n x_1,x_2...x_n x1,x2...xn。若 X X X在某一取值 x i x_i xi处的概率密度为 f X ( x i ∣ θ ) f_X(x_i|\theta) fX(xi∣θ),那么随机变量 X X X取值为这一组样本的概率密度为
f X ( x ∣ θ ) = f X ( x 1 , x 2 . . . x n ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) \begin{aligned} f_X(x|\theta)=f_X(x_1,x_2...x_n|\theta)=\prod_{i=1}^{n}f(xi|\theta) \end{aligned} fX(x∣θ)=fX(x1,x2...xn∣θ)=i=1∏nf(xi∣θ)
似然估计函数: L ( θ ∣ x ) = f X ( x ∣ θ ) L(\theta|x)=f_X(x|\theta) L(θ∣x)=fX(x∣θ)。在得到了 L ( θ ∣ x ) L(\theta|x) L(θ∣x)后,我们想找出的最优参数(即最大似然参数) θ ^ M V \hat\theta_{MV} θ^MV就是那个能让 L ( θ ∣ x ) L(\theta|x) L(θ∣x)取到最大值的参数,为什么是最大值我们稍后通过例子可以推断出。
θ ^ M V = arg max θ L ( θ ∣ x ) \begin{aligned} \hat\theta_{MV}=\mathop{\arg\max}_{\theta}L(\theta|x) \end{aligned} θ^MV=argmaxθL(θ∣x)
如果一个函数一阶可导,二阶倒数<0,那么这一定是一个凸函数,函数的最大值就是在一阶倒数=0时候的取值。
{ ∂ L ( θ ∣ x ) ∂ θ = 0 ∂ 2 L ( θ ∣ x ) ∂ θ 2 < 0 \begin{aligned} \left\{ \begin{array}{lr} \frac{\partial L(\theta|x)}{\partial \theta} =0 &\\ &\\ \frac{\partial^2 L(\theta|x)}{\partial \theta^2}<0 \end{array} \right. \end{aligned} ⎩⎪⎨⎪⎧∂θ∂L(θ∣x)=0∂θ2∂2L(θ∣x)<0
2 举例
上面都是理论和结论,为了更好地理解最大似然估计,举一个例子。假设有一枚均匀的硬币,扔到正面和反面的概率都为0.5。现在扔了2次硬币,都是正面。从概率学的角度上讲,扔一枚硬币2次都是正面的概率为0.5*0.5=0.25.
第一次 | 第二次 | 概率 |
---|---|---|
正 | 正 | 0.25 |
正 | 反 | 0.25 |
反 | 正 | 0.25 |
反 | 反 | 0.25 |
现在假设我们不知道硬币是否均匀,也不知道扔到正反面的概率分别为多少,令随机变量X为扔到正面的次数,假设扔到正面的概率为 θ \theta θ,那么扔到反面的概率为 1 − θ 1-\theta 1−θ, 那么似然函数为:
L ( θ ∣ x ) = f X ( x ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) = C n a P ( X = 正 面 ) a P ( X = 负 面 ) n − a = C n a θ a ( 1 − θ ) n − a \begin{aligned} L(\theta|x)=f_X(x|\theta)=\prod_{i=1}^{n}f(xi|\theta)=C_n^aP(X=正面)^aP(X=负面)^{n-a}=C_n^a\theta^a(1-\theta)^{n-a} \end{aligned} L(θ∣x)=fX(x∣θ)=i=1∏nf(xi∣θ)=CnaP(X=正面)aP(X=负面)n−a=Cnaθa(1−θ)n−a
θ \theta θ的取值在 0 , 1 0,1 0,1之间。当观测到扔2次硬币均为正面时,似然函数的值为 C 2 2 θ 2 ( 1 − θ ) 0 = θ 2 C_2^2\theta^2(1-\theta)^0=\theta^2 C22θ2(1−θ)0=θ2。由于 L ( θ ∣ x ) = θ 2 L(\theta|x)=\theta^2 L(θ∣x)=θ2是一个凹函数,使得似然函数最大的 θ ^ M V \hat\theta_{MV} θ^MV的值是1。也就是说,在观察到连续两次扔硬币都是正面朝上的情况下,我们认为硬币投掷时正面朝上的概率为1是最合理的。
合理并不代表正确,这仅是在当前观测条件下最好的预测。当样本数量较大时,例如扔1000次硬币,观察正反两面朝上的情况,求出的 θ ^ M V \hat\theta_{MV} θ^MV会越来越接近真实值1/2。
似然函数和最大似然估计相关推荐
- 如何理解「最大似然估计」?参数估计、似然函数、最大似然估计
文章目录 引言 参数估计 最大似然估计 似然函数 求解最大似然估计问题 为什么要对似然函数取对数? "似然"与"概率"的区别 机器学习中的应用 参考资料 引言 ...
- 【简述与推导】似然函数,最大似然估计,条件概率,全概率,贝叶斯概率
目录 1. 似然(likehood)与最大似然估计 2. 条件概率(conditional probability),全概率(total probability),和贝叶斯概率(Bayes proba ...
- 统计信号处理中的似然函数与最大似然估计
假设条件 1.参数为标量形式,θθθ 2.加性模型(x[n]=s[n;θ]+w[n],n=0,1,-N−1x[n]=s[n;θ]+w[n],n=0,1,-N-1x[n]=s[n;θ]+w[n],n=0 ...
- 似然函数与极大似然估计
似然函数与极大似然估计 标签(空格分隔): ML 似然函数 随机变量XXX的概率分布已知,但是这个分布的参数是未知的,需要我们去估计,我们把他记作θ\thetaθ,好比在抛硬币的试验中,硬币正面朝 ...
- 似然函数,最大似然估计,以及与条件概率,贝叶斯概率区别简要说明
目录 1. 似然(likehood)与最大似然估计 2. 条件概率(conditional probability),全概率(total probability),和贝叶斯概率(Bayes proba ...
- 似然函数以及最大似然估计
在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性.似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等."似然性"与" ...
- 似然函数的意义与极大似然估计
什么是概率? 简单来说,概率是一个函数,定义域是样本空间,满足非负性,规范性,可列可加性. 严格的公理化定义如下: 概率可以做什么?统计又可以做什么? 什么是先验概率,后验概率,似然? 先验概率:根据 ...
- 交叉熵损失函数和似然估计_熵、交叉熵及似然函数的关系
熵.交叉熵及似然函数的关系 1. 熵 1.1 信息量 信息量:最初的定义是信号取值数量m的对数为信息量\(I\),即 \(I=log_2m\).这是与比特数相关的,比如一个信号只有两个取值,那么用1个 ...
- 专栏 | 机器学习 - 最大似然估计
https://www.toutiao.com/a6672959716013900301/ 生活实例 我们在生活中就经常应用到最大似然估计的思想. 比如你高中的班主任上课时从教室门缝进行扒头观测,10 ...
最新文章
- 为什么训练集用fit_transform()而测试集用transform()及sklearn.feature_extraction.text.CountVectorizer API详解
- 图像篡改检测pytorch版本
- Eclipse无法编译,提示错误“找不到或者无法加载主类”解决方法
- 二分法求解方程的根java_C语言二分法求解方程根的两种方法
- 调用SMS腾讯云短信验证码API的几个坑,及详细使用流程
- Apache Cassandra 数据存储模型
- cisco engine memory
- php mysql切换版本5.7_phpstudy里升级mysql版本到5.7
- ActionSheet的用法
- linux fuse文件系统在 android fuse sdcard的 运用
- 如何完全卸载oracle和删除oracle在注册表中的注册信息
- AutoLayout 的一些坑
- 附录G 标准模板库方法和函数
- 人工智能对计算机技术的,人工智能技术在计算机网络技术的影响
- Win7 下替代NetMeeting的屏幕共享工具 InletexEMC
- PL-SLAM:通过点和线段组合的立体SLAM系统
- 【Java】实现wav格式音乐的 播放、停止、循环播放、音量调节
- 【python--爬虫】彼岸图网高清壁纸爬虫
- Python类和包的介绍
- 互联网乱弹之毒在何方?