目录

  • 前言
  • 相关证明
    • 无偏估计
    • 系数的标准差
  • 高斯-马尔可夫定理的优点同局限性

前言

最小二乘法(least squares)是我们很早就就接触过的一类方法,是广义线性回归的特殊情形——即一元线性回归。本文将假设误差遵从高斯——马尔可夫假设,证明为什么在该假设下,最小二乘法求得的系数是最佳的,证明无偏估计、并推导系数的的方差。

相关证明

最小二乘法数学式:

yi=xiTβ+εiy_i=x_i^{T}\beta + \varepsilon_iyi​=xiT​β+εi​ --(1)

xi=(1xi0xi1...xik),β=(b0b1...bk)x_i=\begin{pmatrix}1\\ x_{i0} \\ x_{i1} \\... \\x_{ik}\end{pmatrix}, \beta= \begin{pmatrix}b_0 \\ b_1 \\... \\ b_k\end{pmatrix}xi​=⎝⎜⎜⎜⎜⎛​1xi0​xi1​...xik​​⎠⎟⎟⎟⎟⎞​,β=⎝⎜⎜⎛​b0​b1​...bk​​⎠⎟⎟⎞​。

ε\varepsilonε为误差项,假设其服从高斯——马尔可夫假设,即均值为0,且与随机变量xix_ixi​无关,所有的误差的方差都相同且各自之间不相关且XXX为一个确定值。既有:

E(εi)=0E(\varepsilon_i) = 0E(εi​)=0, −(假设1)\ \ \ \ \ -(假设1)     −(假设1)

E(ε∣x)=0E(\varepsilon|x)=0E(ε∣x)=0, −(假设2)\ \ \ \ \ -(假设2)     −(假设2)

var(ε)=σ2Ivar(\varepsilon) = \sigma^2Ivar(ε)=σ2I。 −(假设3)\ \ \ \ \ -(假设3)     −(假设3)

其中III为单位矩阵。

下面首先求β\betaβ的估计值β^\hat{\beta}β^​,并证明它是β\betaβ的无偏估计,先不考虑(1)式中的误差项,并将有所的样本带入上市,我们可得:

Y=XTβY = X^T\betaY=XTβ −(2)\ \ \ \ -(2)    −(2)

其中Y=(y0,y1,...,yn)T,X=(x0,x1,...,xn)Y=(y_0, y_1, ..., y_n)^T, X=(x_0 , x_1,..., x_n)Y=(y0​,y1​,...,yn​)T,X=(x0​,x1​,...,xn​)
为了求出β\betaβ的值,首先将(2)式两边左乘XXX,然后在左乘(XXT)−1(XX^T)^{-1}(XXT)−1,即可推出

β^=(XXT)−1XY\hat\beta=(XX^T)^{-1}XYβ^​=(XXT)−1XY

无偏估计

下面证明β^\hat\betaβ^​是β\betaβ的无偏估计。
E(β^)=E((XXT)−1XY)=E((XXT)−1X(XTβ+ε))=E(β+(XXT)−1Xε)=β+E(β+(XXT)−1Xε)−(3)=β+E((XXT)−1X)∗E(ε)−(4)=β−(5)\begin{array}{rcl} E(\hat\beta)&=&\text{E}((XX^T)^{-1}XY)\\&=&E((XX^T)^{-1}X(X^T\beta + \varepsilon))\\&=&\text{E}(\beta+(XX^T)^{-1}X\varepsilon) \\&=&\beta+E(\beta+(XX^T)^{-1}X\varepsilon) \ \ \ \ \ \ -(3) \\&=&\beta + E((XX^T)^{-1}X)*E(\varepsilon) \ \ \ \ \ -(4) \\&=&\beta\ \ \ \ \ -(5) \end{array}E(β^​)​======​E((XXT)−1XY)E((XXT)−1X(XTβ+ε))E(β+(XXT)−1Xε)β+E(β+(XXT)−1Xε)      −(3)β+E((XXT)−1X)∗E(ε)     −(4)β     −(5)​
上式(3)到(4)利用了假设2,(4)到(5)利用了假设3,证毕。

系数的标准差

下面求系数的标准差。
var(βˉ)=E((β^−β)(β^−β)T)=E((XXT)−1Xε∗εTXT(XXT)−1)−(5)=(XXT)−1XE(εεT)XT(XXT)−1−(6)=σ2(XXT)−1\begin{array}{rcl} var(\bar\beta)&=&E((\hat\beta-\beta)(\hat\beta-\beta)^T) \\&=&E((XX^T)^{-1}X\varepsilon*\varepsilon^TX^T(XX^T)^{-1})\ \ \ \ \ -(5) \\&=&(XX^T)^{-1}XE(\varepsilon\varepsilon^T) X^T(XX^T)^{-1}\ \ \ \ \ -(6) \\&=&\sigma^2(XX^T)^{-1}\end{array}var(βˉ​)​====​E((β^​−β)(β^​−β)T)E((XXT)−1Xε∗εTXT(XXT)−1)     −(5)(XXT)−1XE(εεT)XT(XXT)−1     −(6)σ2(XXT)−1​

从(5)式到(6式)的原因是我们假设XXX为确定值,对于每一个系数,它的标准差为:

SEi=σ2(XTX)ii−1SE_i=\sqrt{\sigma^2(X^TX)^{-1}_{ii}}SEi​=σ2(XTX)ii−1​​

现在用反证法来证明最小二乘估计是最佳无偏线性估计,假设存在比最小二乘估计更好的无偏线性估计βˉ=CY\bar\beta=CYβˉ​=CY, 由于CCC的任意性,设C=(XXT)−1X+DC=(XX^T)^{-1}X + DC=(XXT)−1X+D,其中DDD是(k+1)∗N(k+1)*N(k+1)∗N的非零矩阵,k+1k+1k+1为特征个数加上一个常量项,NNN为样本个数。

由假设条件, 是无偏估计,所以必须满足E(βˉ)=βE(\bar\beta)=\betaE(βˉ​)=β,而:
E(βˉ)=E(CY)=E(((XXT)−1X+D)(XTβ+ε))=E(((XXT)−1X+D)XTβ)+E((XXT)−1X+D)E(ε)=E(((XXT)−1X+D)XTβ)=β(I+DXT)\begin{array}{rcl}E(\bar\beta)&=&E(CY)\\&=&E(((XX^T)^{-1}X + D)(X^T\beta+\varepsilon)) \\&=&E(((XX^T)^{-1}X + D)X^T\beta) + E((XX^T)^{-1}X + D)E(\varepsilon) \\&=&E(((XX^T)^{-1}X + D)X^T\beta) \\&=&\beta(I + DX^T) \end{array}E(βˉ​)​=====​E(CY)E(((XXT)−1X+D)(XTβ+ε))E(((XXT)−1X+D)XTβ)+E((XXT)−1X+D)E(ε)E(((XXT)−1X+D)XTβ)β(I+DXT)​
所以DXT=0DX^T=0DXT=0。
既有:
var(βˉ)=E[[((XXT)−1X+D)Y−((XXT)−1XY−(XXT)−1Xε)][((XXT)−1X+D)Y−((XXT)−1XY−(XXT)−1Xε)T]]=E[(DY+(XXT)−1Xε)(DY+(XXT)−1Xε)T]=E(DYYTDT+DYεTXT(XXT)−1+(XXT)−1XεYTDT+(XXT)−1XεεTXT(XXT)−1)=σ2DDT+E(D(XTβ+ε)εTXT(XXT)−1)+E((XXT)−1Xε(XTβ+ε)TDT)+σ2E(XXT)−1=σ2DDT+E(DXTβεTXT∗(XXT)−1)+E(DεεTXT(XXT)−1)+E((XXT)XεβTXDT)+E((XXT)XεεTDT)+σ2E(XXT)−1=σ2DDT+σ2E(XXT)−1\begin{array}{rcl}var(\bar\beta)&=&E[[((XX^T)^{-1}X+D)Y - ((XX^T)^{-1}XY-(XX^T)^{-1}X\varepsilon)][((XX^T)^{-1}X+D)Y - ((XX^T)^{-1}XY-(XX^T)^{-1}X\varepsilon)^T]]\\ &=&E[(DY+(XX^T)^{-1}X\varepsilon)(DY+(XX^T)^{-1}X\varepsilon)^T]\\ &=&E(DYY^TD^T+DY\varepsilon^TX^T(XX^T)^{-1} + (XX^T)^{-1}X\varepsilon Y^TD^T+(XX^T)^{-1}X\varepsilon\varepsilon^TX^T(XX^T)^{-1})\\ &=&\sigma^2DD^T+E(D(X^T\beta+\varepsilon)\varepsilon^TX^T(XX^T)^{-1}) + E((XX^T)^{-1}X\varepsilon(X^T\beta+\varepsilon)^TD^T) + \sigma^2E(XX^T)^{-1}\\&=&\sigma^2DD^T + E(DX^T\beta\varepsilon^TX^T*(XX^T)^{-1}) + E(D\varepsilon\varepsilon^TX^T(XX^T)^{-1}) + E((XX^T)X\varepsilon \beta^TX D^T) + E((XX^T)X\varepsilon \varepsilon^T D^T) + \sigma^2E(XX^T)^{-1}\\ &=&\sigma^2DD^T + \sigma^2E(XX^T)^{-1} \end{array}var(βˉ​)​======​E[[((XXT)−1X+D)Y−((XXT)−1XY−(XXT)−1Xε)][((XXT)−1X+D)Y−((XXT)−1XY−(XXT)−1Xε)T]]E[(DY+(XXT)−1Xε)(DY+(XXT)−1Xε)T]E(DYYTDT+DYεTXT(XXT)−1+(XXT)−1XεYTDT+(XXT)−1XεεTXT(XXT)−1)σ2DDT+E(D(XTβ+ε)εTXT(XXT)−1)+E((XXT)−1Xε(XTβ+ε)TDT)+σ2E(XXT)−1σ2DDT+E(DXTβεTXT∗(XXT)−1)+E(DεεTXT(XXT)−1)+E((XXT)XεβTXDT)+E((XXT)XεεTDT)+σ2E(XXT)−1σ2DDT+σ2E(XXT)−1​

由于DDTDD^TDDT对角线上的值都是大于等于0的,因此βˉ\bar\betaβˉ​的协方差是大于等于β^\hat\betaβ^​的,与原假设相矛盾,也即β^\hat\betaβ^​是最佳的无偏估计,证毕。

高斯-马尔可夫定理的优点同局限性

高斯-马尔可夫定理的优点在于,它证明了简单的线性模型计算出的参数是最优的,而线性模型的最大优点在于计算简单、效率高,同时我们也可以检验出计算出的系数是否是显著的。它的局限性就在于它的几个强假设,比如XXX是确定的,且各个误差项都是独立的且均值都为0,但在实际情况中,上面的假设是比较强的,如XXX是会受到抽样的影响,在时序数据中,各个误差项并不独立。另一方面,高斯-马尔可夫定理针对的是线性情况,在非线性下它的结论不在成立。

参考文献:

[1]最小二乘法与高斯-马尔可夫定理

[2]高斯-马尔可夫定理-维基百科

[3]常用算法分析——最小二乘法

[4]最小二乘法的利与弊:高斯马尔科夫定理

最小二乘法——高斯-马尔可夫定理的证明,无偏估计、求系数的方差相关推荐

  1. ESL第三章 回归的线性方法 系数近似置信集/高斯-马尔可夫定理/正交化、最优子集/向前向后逐步选择/向前分段回归、参数有效数量/最小角回归、主成分/偏最小二乘、多输出收缩、其他L1和路径相关算法

    (ESL把线性回归讲的非常丰富,真的开阔视野) 目录 3.2 线性回归模型的最小二乘法 3.2.2 高斯-马尔可夫定理 3.2.3 从简单单变量回归到多重回归 3.2.4 多输出 3.3 子集选择 3 ...

  2. GM-MCMC高斯混合马尔科夫-蒙特卡洛算法线性地震反演

    目录 1.算法概述 2.仿真效果 3.MATLAB仿真源码 1.算法概述 ​高斯-马尔可夫定理(Gauss–Markov theory)是指在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线 ...

  3. kl散度度量分布_概率图简要模型笔记(二)马尔可夫随机场与KL散度、最大熵、指数族分布、高斯分布、极大似然分布...

    这一篇文章主要是想捋一捋KL散度.最大熵.指数族分布这些东西之间的关系,这是一些非常基本的知识点,刚入门机器学习的时候,傻傻分不清楚,现在回过头来看,其实很多东西都可以串起来,不得不感叹数学真是一个很 ...

  4. 马尔科夫逻辑网(译文)

    马修 理查德森(mattr@cs.washington.edu) 和佩德罗 多明戈斯 (pedrod@cs.washington.edu) 美国西雅图华盛顿大学计算机科学工程系WA 98195-250 ...

  5. 马尔科夫随机场与gibbs分布

    1. 首先由两个定义,什么是马尔科夫随机场,以及什么是吉布斯分布 马尔科夫随机场:对于一个无向图模型G,对于其中的任意节点X_i,[以除了他以外的所有点为条件的条件概率]和[以他的邻居节点为条件的条件 ...

  6. ESL第十七章 无向图模型 学习/推断/成对马尔可夫独立/全局马尔可夫性、协方差图/高斯图/修改回归算法/图结构估计/图lasso、【受限】玻尔兹曼机/泊松对数线性建模/迭代比例过滤/对比散度

    目录 17.1 导言 17.2 马尔可夫图及其性质 17.3 连续变量的无向图模型 17.3.1 图结构已知的参数估计 17.3.2 估计图结构 17.4 离散变量的无向图模型 17.4.1 图结构已 ...

  7. 从贝叶斯理论到马尔可夫随机场(MRF)--以图像分割为例

    从贝叶斯理论到马尔可夫随机场--以图像分割为例 马尔可夫随机场(CRF) 图像分割过程 Matlab代码实现 Python实现代码 参考文献 本文主要介绍马尔可夫随机场及其在图像分割中的应用.基于马尔 ...

  8. 马尔科夫随机场之图像分割【二】

    由于经常有读者说运行出错,我又本地校准了下程序,由于版权限制,lena图MATLAB新版已经撤除了,这里改成了cameraman的图 参考:http://blog.csdn.net/on2way/ar ...

  9. 深入浅出的马尔科夫入门文章

    http://blog.csdn.net/pipisorry/article/details/46618991 生成模式(Generating Patterns) 1.确定性模式(Determinis ...

  10. MCMC原理解析(马尔科夫链蒙特卡洛方法)

    马尔科夫链蒙特卡洛方法(Markov Chain Monte Carlo),简称MCMC,MCMC算法的核心思想是我们已知一个概率密度函数,需要从这个概率分布中采样,来分析这个分布的一些统计特性,然而 ...

最新文章

  1. 【廖雪峰python入门笔记】list_替换元素
  2. ASP.NET MVC 5 - 验证编辑方法(Edit method)和编辑视图(Edit view)
  3. Linux项目自动部署
  4. 什么?原来C#还有这两个关键字
  5. linux里的进程简介
  6. 数据库中间件漫谈——看看云时代,它会走向何方
  7. 图胜千言:电商支付架构设计
  8. 一文搞懂四种同步工具类
  9. linux虚拟文件系统(六)-文件关闭操作分析
  10. 解决vim中文乱码问题
  11. java中输出a个b_下面代码输出什么 ( ) var a=0,b=0; for(;a10,b7;a++,b++){ g=a+b; } console.log(g);_学小易找答案...
  12. hihocoder1241 Best Route in a Grid
  13. android打开相机拍照及打开相册选择照片
  14. git分布式版本管理系统和github平台
  15. bat批量定时打开网址
  16. 小白学统计|面板数据分析与Stata应用笔记(一)
  17. 佐客牛排机器人餐厅_“机器人餐厅”来了
  18. JavaWeb项目-快递代领-需求分析(二)-软件工程-小组项目
  19. 词频分析(Python脚本)
  20. Maven依赖详细理解

热门文章

  1. Python 爬虫 爬取视频
  2. tp5——实践前台模板引入
  3. python数据生成pdf_利用Python的Django框架生成PDF文件的教程
  4. eclipse中的英文与汉语对照表
  5. iOS通俗易懂的微信支付接入和爬坑指南,十分钟轻松搞完
  6. 腾讯云多媒体文件处理总结
  7. hi3519模组测试
  8. 免费创建GOOGLE共享网盘
  9. java 传入一个日期, 计算公历节日和农历节假日的常用类(包括除夕、清明节、母亲节、父亲节的算法)
  10. 股指期货基差和升贴水介绍