1 一般回归问题

一般来说,计量经济学教材会从线性回归讲起,但这里再在线性回归之前,理一理更一般性的回归问题。

先看定义一下什么叫回归:

定义1 回归函数(Regression Function):E(y∣x)\mathbb{E}(y|\mathbf{x})E(y∣x)就是yyy对x\mathbf{x}x的回归函数。

再定义一个度量预测得好不好的指标:

定义2 均方误(Mean Squared Error,MSE):假设用g(x)g(\mathbf{x})g(x)预测yyy,则预测量g(x)g(\mathbf{x})g(x)的均方误为 MSE(g)=E[y−g(x)]2\text{MSE}(g)=\mathbb{E}[y-g(\mathbf{x})]^2MSE(g)=E[y−g(x)]2

最好的预测函数的形式是什么?以下定理表明,最好的预测函数,恰恰就是回归函数即条件期望。

定理1 MSE的最优解:E(y∣x)\mathbb{E}(y|\mathbf{x})E(y∣x)是以下问题的最优解:
E(y∣x)=arg⁡min⁡g∈FMSE(g)=arg⁡min⁡g∈FE[y−g(x)]2\mathbb{E}(y|\mathbf{x}) = \arg\min_{g\in \mathbb{F}} \text{MSE}(g) = \arg\min_{g\in \mathbb{F}} \mathbb{E}[y-g(\mathbf{x})]^2 E(y∣x)=argg∈Fmin​MSE(g)=argg∈Fmin​E[y−g(x)]2
其中F\mathbb{F}F是所有可测和平方可积函数的集合(space of all measurable and square-integrable functions):
F={g:Rk+1→R∣∫g2(x)fX(x)dx<∞}\mathbb{F}=\{ g:\mathbb{R}^{k+1}\to\mathbb{R} \Big| \int g^2(\mathbf{x})f_X(\mathbf{x})\,d\mathbf{x}<\infty\} F={g:Rk+1→R∣∣∣​∫g2(x)fX​(x)dx<∞}

在该定理中,直接求解最值问题比较复杂,需要用到变分法,用构造法证明该定理比较简单,直接对MSE(g)\text{MSE}(g)MSE(g)做分解即可。令g0(x)≡E(y∣x)g_0(\mathbf{x})\equiv \mathbb{E}(y|\mathbf{x})g0​(x)≡E(y∣x),则有
MSE(g)=E[y−g0(x)+g0(x)−g(x)]2=E[y−g0(x)]2+E[g0(x)−g(x)]2+2E[(y−g0(x))(g0(x)−g(x))]2=E[y−g0(x)]2+E[g0(x)−g(x)]2\begin{aligned} \text{MSE}(g) = &\mathbb{E}[y-g_0(\mathbf{x})+g_0(\mathbf{x})-g(\mathbf{x})]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2+2\mathbb{E}[\left(y-g_0(\mathbf{x})\right)\left(g_0(\mathbf{x})-g(\mathbf{x})\right)]^2\\ =& \mathbb{E}[y-g_0(\mathbf{x})]^2+\mathbb{E}[g_0(\mathbf{x})-g(\mathbf{x})]^2 \end{aligned} MSE(g)===​E[y−g0​(x)+g0​(x)−g(x)]2E[y−g0​(x)]2+E[g0​(x)−g(x)]2+2E[(y−g0​(x))(g0​(x)−g(x))]2E[y−g0​(x)]2+E[g0​(x)−g(x)]2​
显然,第一项为常数,只有当第二项为000即g(x)=g0(x)g(\mathbf{x})=g_0(\mathbf{x})g(x)=g0​(x)时,MSE(g)\text{MSE}(g)MSE(g)取到最小。

再来看一个有关回归中的扰动项的定理:

定理2 回归等式(Regresssion Identity):给定E(y∣x)\mathbb{E}(y|\mathbf{x})E(y∣x),总是有
y=E(y∣x)+εy=\mathbb{E}(y|\mathbf{x})+\varepsilony=E(y∣x)+ε 其中ε\varepsilonε为回归扰动项(regression disturbance),满足E(ε∣x)=0\mathbb{E}(\varepsilon|\mathbf{x})=0E(ε∣x)=0。

接下来的问题是,我们该如何对这个最优解g0(x)g_0(\mathbf{x})g0​(x)建模?最简单地,可以用线性函数去近似它。

2 线性回归

首先,引入仿射函数的概念:

定义3 仿射函数族(Affine Functions):记x=(1,x1,…,xk)′\mathbf{x}=(1,x_1,\ldots,x_k)'x=(1,x1​,…,xk​)′,β=(β0,β1,…,βk)′\beta=(\beta_0,\beta_1,\ldots,\beta_k)'β=(β0​,β1​,…,βk​)′,则仿射函数族定义为
A={g:Rk+1→R∣g(x)=x′β}\mathbb{A}= \left\{g: \mathbb{R}^{k+1}\to\mathbb{R} \Big| g(\mathbf{x})=\mathbf{x}'\beta \right\} A={g:Rk+1→R∣∣∣​g(x)=x′β}

当我们将g(x)g(x)g(x)的函数集合从所有可测且平方可积的函数集限制为仿射函数集后,问题转变为求解最优的参数β∗\beta^*β∗使得MSE最小化,该参数就称为最优最小二乘近似系数。

定理3 最优线性最小二乘预测(Best Linear Least Squares Prediction):假设E(y2)<∞E(y^2)<\inftyE(y2)<∞且矩阵E(xx′)\mathbb{E}(\mathbf{x}\mathbf{x}')E(xx′)非奇异,则优化问题
min⁡g∈AE[y−g(x)]2=min⁡β∈Rk+1E(y−x′β)2\min_{g\in\mathbb{A}} \mathbb{E}[y-g(\mathbf{x})]^2=\min_{\beta\in\mathbb{R}^{k+1}} \mathbb{E}(y-\mathbf{x}'\beta)^2g∈Amin​E[y−g(x)]2=β∈Rk+1min​E(y−x′β)2
的解,即最优线性最小二乘预测为
g∗(x)=x′β∗g^*(\mathbf{x})=\mathbf{x}'\beta^*g∗(x)=x′β∗
其中
β∗=[E(xx′)]−1E(xy)\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y)β∗=[E(xx′)]−1E(xy)

证明非常容易,只需对一阶条件dE(y−x′β)2dβ∣β=β∗=0\dfrac{d\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta}\bigg|_{\beta=\beta^*}=0dβdE(y−x′β)2​∣∣∣∣​β=β∗​=0求解即可,因为二阶条件即Hessian矩阵d2E(y−x′β)2dβdβ′=E(xx′)\dfrac{d^2\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta d\beta'}=\mathbb{E}(\mathbf{x}\mathbf{x}')dβdβ′d2E(y−x′β)2​=E(xx′)在E(xx′)\mathbb{E}(\mathbf{x}\mathbf{x}')E(xx′)非奇异时一定是正定的。

下面正式定义线性回归模型:

定义4 线性回归模型(Linear Regression Model):
y=x′β+u,β∈Rk+1y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1}y=x′β+u,β∈Rk+1
其中uuu是回归模型误差(regression model error)。

那么,线性回归模型和最优线性最小二乘预测之间有什么关系?

定理4 假设定理3的条件成立,y=x′β+uy=\mathbf{x}'\beta+uy=x′β+u,并令β∗=[E(xx′)]−1E(xy)\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y)β∗=[E(xx′)]−1E(xy)为最优线性最小二乘近似系数。则
β=β∗\beta=\beta^*β=β∗
等价于E(xu)=0\mathbb{E}(\mathbf{x}u)=0E(xu)=0。

该定理的证明非常简单,需从必要性和充分性两方面证明,在此不作展开。

该定理意味着,只要正交条件E(xu)=0\mathbb{E}(\mathbf{x}u)=0E(xu)=0满足,那么线性回归模型的参数值就等于最优线性最小二乘近似系数β∗\beta^*β∗,二者等价。

3 模型的正确设定

均值模型怎样才是正确设定了?

定义5 条件均值模型的正确设定(Correct Model Specification in Conditional Mean):线性回归模型y=x′β+u,β∈Rk+1y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1}y=x′β+u,β∈Rk+1是条件均值E(y∣x)\mathbb{E}(y|\mathbf{x})E(y∣x)的正确设定,若存在某个参数βo∈Rk+1\beta^o \in \mathbb{R}^{k+1}βo∈Rk+1使得E(y∣x)=x′β\mathbb{E}(y|\mathbf{x})=\mathbf{x}'\betaE(y∣x)=x′β。
另一方面,若对于任意β∈Rk+1\beta\in \mathbb{R}^{k+1}β∈Rk+1均有E(y∣x)≠x′β\mathbb{E}(y|\mathbf{x})\neq \mathbf{x}'\betaE(y∣x)​=x′β,则线性回归模型是对E(y∣x)\mathbb{E}(y|\mathbf{x})E(y∣x)的错误设定。

由该定义可以看到,线性回归模型设定正确的条件是存在某一参数βo\beta^oβo使得E(u∣x)=0\mathbb{E}(u|\mathbf{x})=0E(u∣x)=0。换句话说,线性回归模型设定正确的充要条件是E(u∣x)=0\mathbb{E}(u|\mathbf{x})=0E(u∣x)=0,其中u=y−x′βou=y-\mathbf{x}'\beta^ou=y−x′βo。

下面的定理说明当均值模型设定正确时,回归模型误差项uuu与真实回归扰动项ε\varepsilonε的关系:

定理5 如果线性回归模型y=x′β+uy=\mathbf{x}'\beta+uy=x′β+u是对条件均值E(y∣x)\mathbb{E}(y|\mathbf{x})E(y∣x)的正确设定,则
(1) 存在一个参数βo\beta^oβo和一个随机变量ε\varepsilonε,有y=x′βo+εy=\mathbf{x}'\beta^o+\varepsilony=x′βo+ε,其中E(ε∣x)=0\mathbb{E}(\varepsilon|\mathbf{x})=0E(ε∣x)=0;
(2) β∗=βo\beta^*=\beta^oβ∗=βo。

由定义5可直接得到(1),对于(2),可由(1)的E(ε∣x)=0\mathbb{E}(\varepsilon|\mathbf{x})=0E(ε∣x)=0推出E(xε)=0\mathbb{E}(\mathbf{x}\varepsilon)=0E(xε)=0,再使用定理4即可得证。

为便于理解,下面用一个例子说明什么叫模型的正确设定和错误设定:

假设数据生成过程(DGP)为y=1+12x1+14(x12−1)+εy=1+\dfrac{1}{2}x_1+\dfrac{1}{4}(x_1^2-1)+\varepsilony=1+21​x1​+41​(x12​−1)+ε,其中x1x_1x1​与ε\varepsilonε是相互独立的N(0,1)\mathcal{N}(0,1)N(0,1)随机变量。现在如果我们用线性回归模型y=x′β+uy=\mathbf{x}'\beta+uy=x′β+u对该DGP进行近似,其中x=(1,x1)′\mathbf{x}=(1,x_1)'x=(1,x1​)′。

经计算,我们可以解得最优线性最小二乘近似β∗=(1,12)′\beta^*=(1,\dfrac{1}{2})'β∗=(1,21​)′,而g∗(x)=1+12x1g^*(\mathbf{x})=1+\dfrac{1}{2}x_1g∗(x)=1+21​x1​,可以看到其中没有包含非线性的部分。若在回归模型中取β=β∗\beta=\beta^*β=β∗,由定理4,就有E(xu)=0\mathbb{E}(\mathbf{x}u)=0E(xu)=0,但是,此时E(u∣x)=14(x12−1)≠0\mathbb{E}(u|\mathbf{x})=\dfrac{1}{4}(x_1^2-1)\neq 0E(u∣x)=41​(x12​−1)​=0,即模型没有正确设定。

模型没有被正确设定,它会造成什么样的后果?计算可知真正的期望边际效应为E(y∣x)dx1=12+12x1\dfrac{\mathbb{E}(y|\mathbf{x})}{dx_1}=\dfrac{1}{2}+\dfrac{1}{2}x_1dx1​E(y∣x)​=21​+21​x1​,但它不等于β1∗=12\beta^*_1=\dfrac{1}{2}β1∗​=21​。也就是说,模型的错误设定,会导致解出的最优线性最小二乘近似并不是真正的期望边际效用。

参考资料

  • 洪永淼《高级计量经济学》,2011

一般回归问题、线性回归与模型的正确设定相关推荐

  1. 19 多元线性回归与模型回归

    19 多元线性回归与模型回归 标签:机器学习与数据挖掘 1.调整 R 2 R^2 R2   对于 R 2 R^2 R2,只要添加入新的参数,它就会变大,不过这个变量有没有用.而我们采用 调 整 R 2 ...

  2. python计算均方根误差_如何在Python中创建线性回归机器学习模型?「入门篇」

    线性回归和逻辑回归是当今很受欢迎的两种机器学习模型. 本文将教你如何使用 scikit-learn 库在Python中创建.训练和测试你的第一个线性.逻辑回归机器学习模型,本文适合大部分的新人小白. ...

  3. UA MATH571A 多元线性回归I 模型设定与推断

    UA MATH571A 多元线性回归I 模型设定与推断 模型设定 最小二乘法(Method of Least Square) 系数 Mean Response and Residual 多元回归的AN ...

  4. Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS

    Spark MLlib回归算法------线性回归.逻辑回归.SVM和ALS 1.线性回归: (1)模型的建立: 回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多 ...

  5. 回归——一元线性回归

    一元线性回归 基本概念 分类与回归 一元线性回归 代价函数 相关系数 梯度下降法 推导 代码实现 梯度下降法Python代码实现 从0开始 借助python库 matlab代码实现 参考文章链接 基本 ...

  6. 回归算法 - 线性回归求解 θ(最大似然估计求解)

    回顾线性回归的公式:θ是系数,X是特征,h(x) 是预测值. h(x) = θ0 + θ1x1 + θ2x2 + - + θnxn h(x) = Σ θixi( i=0~n ) h(x) = θTX ...

  7. 线性回归之模型的保存和加载

    线性回归之模型的保存和加载 1 sklearn模型的保存和加载API from sklearn.externals import joblib   [目前这行代码报错,直接写import joblib ...

  8. Machine Learning | (9) 回归算法-线性回归

    Machine Learning | 机器学习简介 Machine Learning | (1) Scikit-learn与特征工程 Machine Learning | (2) sklearn数据集 ...

  9. 逻辑回归阈值_逻辑回归or线性回归,傻傻分不清楚

    欢迎关注"生信修炼手册"! 线性回归作为一种常用的关联分析工具,其功能强大,解释度高,但是其缺点也是很明显的.其只适用于处理连续型的变量,无法处理离散型的变量,比如对于case/c ...

最新文章

  1. boost::hana::id用法的测试程序
  2. c# 编程学习(二)
  3. JobDataMap 更新_04
  4. 这让全场的chinaakd
  5. 分支-13. 计算天数
  6. scrapy爬取汽车之家宝马5系图片
  7. 【Kafka】 kafka集群升级导致broker.id发生变动变动引起的问题
  8. macos下安装redis客户端
  9. std::atomic_thread_fence
  10. android内存泄漏MAT,利用Android Studio、MAT对Android进行内存泄漏检测
  11. 基于STM32F427的模拟SSI协议绝对式编码器位置反馈通信
  12. office 快捷键
  13. 自动驾驶软件开发人才现状_一文读懂自动驾驶研究现状
  14. 程序员github头像_给新程序员的5个GitHub技巧
  15. 计算机网络实验之验证性实验
  16. BUUCTF 2021-10-4 Pwn
  17. 【机器学习】训练集、验证集与测试集
  18. 从南丁格尔图到医学发展史
  19. 中央财经的计算机类学什么时候,2019年3月全国计算机等级考试中央财经大学考试点报名通知...
  20. leetcode每日一题 1020. 飞地的数量 简单的DFS板子题 (DFS+填平遍历) 根据是否连通边界找其是否为飞地~

热门文章

  1. 导轨式串口服务器作用,导轨式RS485串口服务器 USR-DR302
  2. 初中计算机教学初探,中学信息技术课教学初探
  3. 原生js实现全选和反选的功能 --冯浩的博客
  4. 惠普笔记本触摸板双指、多指操作失效问题的解决
  5. 非小细胞肺癌计算机软件,Hsp90在中国人群非小细胞肺癌临床诊治应用的Meta分析...
  6. ITIL学习笔记——核心流程之:可用性管理
  7. 【CSDN|每日一练】幼稚班作业
  8. 【转】当你 林俊杰 歌曲链接(支持QQ空间)
  9. 在浏览器中输入域名跳转到IIS7的欢迎界面
  10. video 标签 禁止下载 亲测有效 隐藏按钮 三个点 亲测有效