线性回归模型（OLS）2

本系列文章基于R语言中lm函数的输出，介绍线性回归模型的例子和原理。

本文是系列文章的第二篇，将介绍线性回归模型中的一些常见假设以及基于这些假设对回归系数的检验。

本文包括以下4个小节：
1. 常见假设
2. 示例：mtcars数据集
3. 模型推导
4. 附录代码

以下内容为免费试读部分，完整文章可到公号“生信了”付费阅读

1. 常见假设

在前文《线性回归模型（OLS）1》中我们已经介绍过线性回归模型的定义以及基于普通最小二乘（OLS）求解回归系数的方法。在此我们作简要回顾：

假设我们观察到一些数据 {xi,yi}i=1n\{\mathbf{x}_i, y_i\}_{i=1}^n{xi,yi}i=1n，其中 xi=(xi1,xi2,…,xip)T\mathbf{x}_i=(x_{i1},x_{i2},\ldots,x_{ip})^\mathsf{T}xi=(xi1,xi2,…,xip)T，线性回归模型研究因变量 yiy_iyi 和自变量 xi\mathbf{x}_ixi 之间的关系：

yi=β0+β1xi1+β2xi2+⋯+βpxip+ϵi=∑j=0pβjxij+ϵi,(xi0=1)\begin{align*} y_i &= \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip} + \epsilon_i \\ &= \sum_{j=0}^p \beta_j x_{ij} + \epsilon_i, \qquad (x_{i0} = 1) \end{align*} yi=β0+β1xi1+β2xi2+⋯+βpxip+ϵi=j=0∑pβjxij+ϵi,(xi0=1)

其中 βj\beta_jβj 是回归系数，而 ϵi\epsilon_iϵi 是误差项。上面的式子用矩阵表示就是：

y=Xβ+ϵ\begin{equation} \mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon} \tag{2.1} \end{equation}y=Xβ+ϵ(2.1)

OLS要求最优的回归系数 β^\hat{\boldsymbol{\beta}}β^ 应该让所有观测数据的误差项平方的和最小，即

β^=arg⁡min⁡β∥y−Xβ∥2\begin{align*} \hat{\boldsymbol{\beta}} &= \arg \min_{\boldsymbol{\beta}} \| \mathbf{y} - \mathbf{X}\boldsymbol{\beta} \|^2 \tag{2.2} \end{align*}β^=argβmin∥y−Xβ∥2(2.2)

据此得到其解析解，作为OLS方法下得到的回归系数的估计值：

β^=(XTX)−1XTy\begin{equation} \hat{\boldsymbol{\beta}} = (\mathbf{X}^\mathsf{T} \mathbf{X})^{-1} \mathbf{X}^\mathsf{T} \mathbf{y} \tag{2.3} \end{equation}β^=(XTX)−1XTy(2.3)

实际上，当我们对数据和模型添加一些假设后，我们可以对模型进行更详尽的分析。对OLS而言，除了基础假设“因变量与自变量之间是线形关系”之外，常用的假设包括：

误差项与自变量无关，即自变量是“外生“（exogenous）的：

E[ϵ∣X]=0\begin{equation} \mathbb{E}[\boldsymbol{\epsilon}|\mathbf{X}] = \boldsymbol{0} \tag{2.4} \end{equation}E[ϵ∣X]=0(2.4)

误差项互相独立且同方差，即：

var[ϵ∣X]=σ2In\begin{equation} \text{var}[\boldsymbol{\epsilon}|\mathbf{X}] = \sigma^2 \mathbf{I}_n \tag{2.5} \end{equation}var[ϵ∣X]=σ2In(2.5)

误差项符合多元正态分布，且：

ϵ∼N(0,σ2In)\begin{equation} \boldsymbol{\epsilon} \sim \mathcal{N}(\boldsymbol{0}, \sigma^2 \mathbf{I}_n) \tag{2.6} \end{equation}ϵ∼N(0,σ2In)(2.6)

自变量之间不是线性相关的，即

rank(X)=p+1\begin{equation} \text{rank}(\mathbf{X}) = p + 1 \tag{2.7} \end{equation}rank(X)=p+1(2.7)

在上述几个前提条件下，我们可以证明：

E[β^]=β\begin{equation} \mathbb{E}[\hat{\boldsymbol{\beta}}] = \boldsymbol{\beta} \tag{2.8} \end{equation}E[β^]=β(2.8)

var[β^]=σ2(XTX)−1\begin{equation} \text{var}[\hat{\boldsymbol{\beta}}] = \sigma^2(\mathbf{X}^\mathsf{T} \mathbf{X})^{-1} \tag{2.9} \end{equation}var[β^]=σ2(XTX)−1(2.9)

β^∼N(β,σ2(XTX)−1)\begin{equation} \hat{\boldsymbol{\beta}} \sim \mathcal{N}(\boldsymbol{\beta}, \sigma^2(\mathbf{X}^\mathsf{T} \mathbf{X})^{-1}) \tag{2.10} \end{equation}β^∼N(β,σ2(XTX)−1)(2.10)

在对回归系数估计值作假设检验时，一般零假设（null hypothesis）为 βj=0\beta_j = 0βj=0。我们可以证明（见下文）在此零假设条件下，我们可以构建一个统计量 TjT_jTj 符合 ttt 分布（注意到 X\mathbf{X}X 是一个 n×(p+1)n \times (p+1)n×(p+1) 的矩阵）：

Tj=β^js.e.^(β^j)∼tn−p−1,j=0,1,…,p\begin{equation} T_j = \frac{\hat{\beta}_j}{\widehat{\mathrm{s.e.}}(\hat{\beta}_j)} \sim t_{n-p-1}, \quad j=0,1,\ldots,p \tag{2.11} \end{equation}Tj=s.e.(β^j)β^j∼tn−p−1,j=0,1,…,p(2.11)

其中 β^j\hat{\beta}_jβ^j 的“标准差” s.e.^(β^j)\widehat{\mathrm{s.e.}}(\hat{\beta}_j)s.e.(β^j) 为：

s.e.^(β^j)=s2(XTX)jj−1\begin{equation} \widehat{\mathrm{s.e.}}(\hat{\beta}_j) = \sqrt{s^2(\mathbf{X}^\mathsf{T}\mathbf{X})^{-1}_{jj}} \tag{2.12} \end{equation}s.e.(β^j)=s2(XTX)jj−1(2.12)

而

s2=(y−Xβ^)T(y−Xβ^)n−p−1\begin{equation} s^2 = \frac{(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})^{\mathsf{T}} (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) }{n-p-1} \tag{2.13} \end{equation}s2=n−p−1(y−Xβ^)T(y−Xβ^)(2.13)

我们可以证明，上式中 s2s^2s2 是 σ2\sigma^2σ2 的一个无偏估计，即

E[s2]=σ2\begin{equation} \mathbb{E}[s^2] = \sigma^2 \tag{2.14} \end{equation}E[s2]=σ2(2.14)

并且 (n−p−1)s2/σ2(n-p-1)s^2/\sigma^2(n−p−1)s2/σ2 符合自由度是 n−p−1n-p-1n−p−1 的卡方分布。

(n−p−1)s2σ2∼χn−p−12\begin{equation} (n-p-1)\frac{s^2}{\sigma^2} \sim \chi^2_{n-p-1} \tag{2.15} \end{equation}(n−p−1)σ2s2∼χn−p−12(2.15)

我们会在“模型推导”小节中给出证明过程。

下文首先给出一个R语言中线性回归模型的例子，然后介绍其背后的原理。

2. 示例：mtcars数据集