最大似然估计（MLE）

1、前言

MLE：MVU估计量的一种替代形式。在MVU估计量不存在或者存在但无法求解情况下，MLE十分有效。它是居于最大似然原理的估计，是最通用的获取实用估计的一种方法。

MLE的特点：当观测数据足够多时，其性能是最优的，特别是它的近似率极高，因此非常接近MVU估计量。其近似的本质就是对足够多的数据记录，MLE具有渐进有效性（即可达CRLB）。

标量参数的MLE定义：对于固定的 x，使 $p(x;\theta )$ 最大的 $\theta$ 值，最大化是在 $\theta$ 允许的范围内求取的。

MLE原理：对某个给定 $\theta$ ，x 落在一个小区域的概率是 $p(x;\theta )dx$ 。

2、MIL性质

MLE对足够多的数据记录，该估计量是无偏的，有效的（可达到CRLB），并且具有高斯PDF。

即对MLE估计量的分布可表示为 ( ‘~ ’ 表示渐进分布于)

$\hat{\theta }\sim N(\theta ,I^{-1}(\theta ))$

这个性质构成了MLE准最佳性的基础，但是存在一个问题：预先很难知道，数据量 N 取多大才使得性质成立。

3、MLE的渐进特性

若数据 x 的PDF $p(x;\theta )$ 满足某些“正则”条件，那么对足够多的数据，未知参数 $\theta$ 的MLE服从

$\hat{\theta }\sim N(\theta ,I^{-1}(\theta ))$

$I(\theta )$ 是Fish信息。Fish的意义和定义：https://www.zhihu.com/question/26561604

此处正则条件：i>要求对数似然函数的导数存在；ii>要求Fish信息不为零。

4、变换参数的MLE

有些请况下，更希望估计 $\theta$ 的一个函数，比如像 $\alpha =\theta^{2}$ 这样的。不过需要注意以下两点

1）如果参数 $\alpha =g(\theta)$ ， $\alpha$ 与 $\theta$ 是一一映射的，则可由 $\alpha =g(\theta)$ 的反函数 $\theta =g^{-1}(\alpha)$ 带入 $p(x;\theta )$ 得到 $p(x;g^{-1}(\alpha ))$ 似然函数的最大来求得 $\alpha$ 的估计。

2）如果参数 $\alpha =g(\theta)$ ， $\alpha$ 与 $\theta$ 不是一一映射的，则将所有可能的 $\theta =g^{-1}(\alpha)$ 带入 $p(x;\theta )$ ，然后在对应的 $\alpha$ 的取值范围下，求取使 $p(x;g^{-1}(\alpha ))$ 最大的 $\alpha$ 的估计。

由这两点可以总结得到MLE的不变性：参数 $\alpha =g(\theta)$ 的MLE由下面的公式给出（其中PDF是 $\theta$ 的函数）

$\alpha$ 与 $\theta$ 是一一对应的： $\hat{\alpha }=g(\hat{\theta})$

$\alpha$ 与 $\theta$ 不是一一对应的：取使 $p(x;g^{-1}(\alpha ))$ 最大的估计值 $\hat{\alpha }$ （注意配合 $\alpha$ 的取值范围进行估计）

5、求MLE的方法

1）一般方法

求总样本的似然函数 $p(x;\theta )$ ，也可以进一步表示成对数似然形式 $lnp(x;\theta )$ ；然后对对数似然PDF求估计参数的偏导 $\frac{\partial lnp(x;\theta )}{\partial \theta }$ ，并令其等于零来求取MLE估计 $\hat{\theta }$ 。注意：若这样求取的 $\hat{\theta }$ 不再 $\theta$ 范围内时，那么在 $\theta$ 的允许范围区间取找 $\hat{\theta }$ 使 $p(x;\theta )$ 或者 $lnp(x;\theta )$ 最大即可。

2）特殊方法（一般用于无法直接求解 $\frac{\partial lnp(x;\theta )}{\partial \theta }=0$ 的请况）

i> Newton-Raphson方法（迭代法）

首先令 $g(\theta )=\frac{\partial lnp(x;\theta )}{\partial \theta }$

然后对 $g(\theta )=0$ 的解进行一个初始猜测值 $\theta_{0}$ 。假设 $g(\theta )$ 在 $\theta_{0}$ 附近是近似线性的，则 $g(\theta )$ 近似表示为

$g(\theta )=g(\theta _{0})+\frac{\mathrm{d} g(\theta )}{\mathrm{d} \theta }|_{\theta =\theta _{0}}(\theta -\theta _{0})$

随后由利用这个式子求解零值所对应的 $\theta_{1}$ ， $\theta_{1}$ 为

$\theta _{1}=\theta _{0}-\frac{\mathrm{d} g(\theta )}{\mathrm{d} \theta }|_{\theta =\theta _{0}}$

重复上面过程：用 $\theta_{1}$ 作 $g(\theta )$ 的线性化点，不断求新的零值点。新点的迭代求取公式如下

$\theta _{k+1}=\theta _{k}-\frac{\mathrm{d} g(\theta )}{\mathrm{d} \theta }|_{\theta =\theta _{k}}$

最终将 $g(\theta )$ 带入迭代公式中得到MLE表达

$\theta _{k+1}=\theta _{k}-[\frac{\partial^2 lnp(x;\theta )}{\partial \theta ^2}]^{-1 }\frac{\partial lnp(x;\theta )}{\partial \theta }|_{\theta =\theta _{k}}$

Remark：迭代可能不收敛；即使迭代收敛，求得的值可能不是全局最大的（解决方法：最好采取多个起始点迭代）。

ii> 得分法（迭代法）

该方法考虑到MLE是MVU估计量，具有有效性，达到CRLB。则可以近似将N-R迭代法中的二阶导换掉

$\frac{\partial^2 lnp(x;\theta )}{\partial \theta ^2}|_{\theta =\theta _{k}}\approx -I(\theta _{k})$

即最终迭代的MLE表达

$\theta _{k+1}=\theta _{k}+I^{-1}(\theta )\frac{\partial lnp(x;\theta )}{\partial \theta }|_{\theta =\theta _{k}}$

Remmark：存在与N-R迭代法一样的收敛问题。

6、线性模型的最佳MLE

如果观测到数据的 x 可由一般线性模型表示为

$X=H\theta + W$

H——是N×p（秩为p，N>p）矩阵； $\theta$ ——p×1的参数矢量；W——其PDF为N(0, C)的噪声矢量

那么 $\theta$ 的MLE为

$\hat{\theta}=(H^{T}C^{-1}H)^{-1}H^{T}C^{-1}X$

注意 $\hat{\theta}$ 是一个有效的估计量，它达到了CRLB，故它是MVU估计量， $\hat{\theta}$ 的PDF为

$\hat{\theta}\sim N(0,(H^{T}C^{-1}H)^{-1})$

最大似然估计（MLE）相关推荐

最大似然估计(MLE)，最大后验概率估计（MAP），贝叶斯估计入门讲解
已知数据X,去拟合某个概率模型的参数θ,是最基本的机器学习过程. 本文将入门讲解3个最基本的方法:最大似然估计(Maximum Likelihood Estimation,简称MLE),最大后验概率估 ...
最大似然估计(MLE)与最小二乘估计(LSE)的区别
最大似然估计与最小二乘估计的区别标签(空格分隔): 概率论与数理统计最小二乘估计对于最小二乘估计来说,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值与观测值之差的平方和最小. ...
最大似然估计（MLE）最大后验概率（MAP）
文章转载自:Leavingseason http://www.cnblogs.com/sylvanas2012/p/5058065.html 1) 最大似然估计 MLE 给定一堆数据,假如我们知道它是 ...
最大似然估计（MLE：样本观测总体参数）是如何工作的？
1. MLE的意义:样本估计总体分布参数假定一个事件的观测样本服从如下分布,我们如何确定总体数据的分布模型? 首先应该想到是建立线性回归模型,然而由于该变量不是正态分布的,而且是不对称的,因此不符合 ...
验后方差估计python_最大似然估计（MLE）最大后验概率（MAP）
1) 最大似然估计 MLE 给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即"模型已定,参数未知". 例如,我们知道这个分布是正态分布 ...
独家 | 一文读懂最大似然估计(附R代码)
作者:阿尼·辛格翻译: 陈之炎校对:丁楠雅本文约4200字,建议阅读10+分钟. 本文将研究MLE是如何工作的,以及它如何用于确定具有任何分布的模型的系数. 简介解释模型如何工作是数据科学中最 ...
机器学习数学基础-最大似然估计与贝叶斯法则
以下文章摘录自 <机器学习观止--核心原理与实践> 京东: https://item.jd.com/13166960.html 当当:http://product.dangdang.com ...
有意思的概率——似然值似然函数及最大似然估计讲解
该系列博客旨在对概率论和统计学的相关概念和应用进行一个整体的梳理,既记录自己的学习过程,也可以为大家提供一个参考. 这篇博客主要讲解概率论和统计学中经常涉及到的,不是很好理解的一个概念--似然(Lik ...
详解最大似然估计、最大后验概率估计及贝叶斯公式
最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种 ...
贝叶斯公式的对数似然函数_贝叶斯估计、最大似然估计、最大后验概率估计
贝叶斯估计.最大似然估计(MLE).最大后验概率估计(MAP)这几个概念在机器学习和深度学习中经常碰到,读文章的时候还感觉挺明白,但独立思考时经常会傻傻分不清楚(

最大似然估计（MLE）

最大似然估计（MLE）相关推荐

最新文章

热门文章