一、多重共线性说明

多重共线性一般是指:如果有两个或者多个自变量高度相关(相关系数大于0.8),难以区分一个自变量对因变量的影响和作用,将自变量相关性产生的后果定义为多重共线性,一般提出多重共线性问题,研究者往往会想到回归分析。回归分析方法,回归模型等,在统计学中都占有重要地位,多数情况下,使用回归分析进行构建模型是,由于模型中解释变量之间存在高度相关关系(如相关系数大于0.8),所以导致数据模型估计失真,此时需要消除多重共线性问题,实现模型的精准估计。接下来从多重共线性的诊断,多重共线性解决办法以及举例进行说明多重共线性几个方面进行说明。

二、多重共线性诊断

1.经验法

经验法就是通过宏观经验进行简单的判断,模型的R方比较高,但是变量不显著(回归中的t检验),或者模型结果不合理,这可能存在多重共线性,即如果R方较高,一般情况下方程整体会显著(即通过F检验),但t检验表明,没有或很少有斜率系数是显著不为0的。

2.相关系数检验法

对于模型中任意两个不同的解释变量进行相关分析,得到相关系数,如果相关系数的绝对值较大(一般大于0.8),则认为这两个变量相关性较高,但是需要知道,相关分析只能检验两个解释变量之间的相关性,对于更多(比如三个)解释变量的相关性检验并不适用。

3.VIF(方差膨胀因子法)

4.特征根判断法

三、解决办法

如果存在多重共线性问题,一般可以从三个方面进行说明,剔除变量、增大样本量以及更换模型。

1.剔除变量

剔除变量是处理共线性最直接的办法。一般可以找出引起多重共线性的解释变量,然后把它从模型中剔除,但是常常不容易判断具体哪一个变量引起的多重共线性,所以一般解决办法有逐步回归法等。逐步回归是在模型中逐个引入解释变量,如果新引入的变量使得模型统计意义检验或者判断与事实相符,并且R方又能提高,则应该引入,反之无需引入。但是,排除引起共线性的变量后,保留在模型中变量的系数估计值将会改变,并且实际意义也会发生变化。

2.增大样本量

一般如果在计量经济模型中,入股变量的样本数据极少,很容易引起多重共线性问题,可以通过手机更多的观测值来增加样本量,可以避免或者减少共线性的影响,但是会引起计算量的增加。

3.更换模型

除此之外,还可以更换研究模型,利用岭回归、主成分回归、Lasso回归等。

岭回归是以引入偏误来减少参数估计量方差的方法,虽然通过岭回归能使数据变的更合理,但是如果是原模型的实际意义不合理,即使通过岭回归修正后也不一定使模型通过实际意义的检验,所以说在实际应用中也不是所有的共线性都可以用岭回归来解决。操作如下:

主成分回归中主成分分析又称主分量分析,他是利用降维的思想,在尽量减少损失的信息的前提下,把多个指标通过正交旋转转化为几个综合的指标的分析方法,其基本原理是:利用主成分分析将解释变量转换成若干个主成分,这些主成分从不同侧面反映了解释变量的综合影响,然后在讲解释变量对这些主成分进行回归,在根绝主成分分与解释变量之间的关系,求得原回归模型的估计方程。比如有6个X,其利用降维原理将6个X降维成比如2个主成分,然后后续再进行分析比如线性回归(此种做法称作主成分回归)。操作如下:

Lasso回归

Lasso回归分析(Lasso Regression)是一种用于解决线性回归分析中自变量共线性的研究算法。针对Lasso回归:其研究步骤共为2步,分别是结合轨迹图寻找最佳K值;输入K值进行回归建模。具体如下:

第一步:Lasso回归分析前需要结合轨迹图确认K值;K值的选择原则是各个自变量的标准化回归系数趋于稳定时的最小K值。K值越小则偏差越小,K值为0时则为普通线性OLS回归;SPSSAU提供K值智能建议,也可通过主观识别判断选择K值;

第二步:对于K值,其越小越好,通常建议小于1,确定好K值后,得出Lasso回归模型估计。操作如下:

虽然岭回归和Lasso回归看起来操作差不多但是二者的原理确大不相同,岭回归是使用L2正则化,Lasso回归是使用L1正则化。接下来举个例子进行说明。

四、举例说明

利用线性回归研究居民消费价格指数y和农村居民消费价格x1,、城市居民消费价格指数x2以及商品零售价格指数x3之间的影响关系。其中数据来源于中国统计局网站(文末有案例数据可以下载)。

1.判断多重共线性

首先判断模型是否存在共线性问题,判断多重共线性的方法有很多这里利用VIF值进行判断。结果如下:

从结果可以看出,VIF值均大于10,所以存在多重共线性,需要进行处理,尽管处理多重共线性的方法有多种,这里选择比较常用的岭回归进行处理。

2.解决多重共线性

利用岭回归处理多重共线性问题,一般有两步分别如下:

  1. 岭回归分析前需要结合岭迹图确认K值;K值的选择原则是各个自变量的标准化回归系数趋于稳定时的最小K值。K值越小则偏差越小,K值为0时则为普通线性OLS回归;SPSSAU提供K值智能建议,也可通过主观识别判断选择K值;
  2. 对于K值,其越小越好,通常建议小于1;确定好K值后,即可主动输入K值,得出岭回归模型估计。

首先结合岭迹图确认K值:

结果如下:

从上图看出,以居民消费价格指数y为因变量,农村居民消费价格x1,、城市居民消费价格指数x2以及商品零售价格指数x3为自变量做岭回归,图中可以看看出,当K值为0.01时,此时自变量的标准回归系数趋于稳定,所以SPSSAU系统建议将K值取为0.01。

确定好K值后,即可主动输入K值,得出岭回归模型估计。结果如下:

从F检验结果中可以看到p值小于0.05,整体模型有效,至少有一个x对y产生影响,模型有意义。接着进行查看岭回归结果,如下:

从岭回归的结果中可以看出,模型公式为:y=2.000 + 0.328*x1 + 0.559*x2 + 0.094*x3。并且x1、x2和x3对因变量均有影响(p值均小于0.05)并且标准化系数均大于0所以农村居民消费价格x1,、城市居民消费价格指数x2以及商品零售价格指数x3均对居民消费价格指数y有正向影响的作用。并且0.541>0.357>0.103,所以说明x2对因变量的影响最大。模型的R方为0.999,接近于1,说明模型拟合的非常好。

五、总结

本文最开始介绍了多重共线性,然后进行说明多重共线性如何进行诊断多重共线性,其中包括经验法,相关系数检验法,VIF值以及特征根判断法,并且如果存在多重共线性应该如何解决,可以剔除变量或者增大样本量或者更换模型,举例说明如何解决多重共线性,利用岭回归的方法进行解决,最后得到有效结论。

多重共线性问题如何解决?相关推荐

  1. 线性回归的多重共线性问题及其解决

    Content 线性回归的多重共线性 1. 前提 2. 由损失函数推导ω(基于最小二乘法OLS) 3. 上述计算结果不成立 3.1 多重共线性的机器学习解释 3.2 多重共线性的解决 4. Ridge ...

  2. 【Python计量】多重共线性的检验和解决

    文章目录 一.多重共线性的产生原因 二.多重共线性的检验 1.简单相关系数法 2.方差膨胀因子法(variance inflation factor,VIF) 三.多重共线性的解决 我们以伍德里奇&l ...

  3. 系统学习机器学习之特征工程(三)--多重共线性

    什么是多重共线性? 回归中的多重共线性是一个当模型中一些预测变量与其他预测变量相关时发生的条件.严重的多重共线性可能会产生问题,因为它可以增大回归系数的方差,使它们变得不稳定.以下是不稳定系数导致的一 ...

  4. 第四篇[机器学习] 机器学习,线性回归的优化

    当我们的数据存在多重共线性时,即其中的一个自变量可以用其他一个或几个自变量的线性表达式进行表示,你会发现,拟合之后的方差会特别大 一般说来当解释变量的容忍度(TOLERANCE)小于0.10或者方差膨 ...

  5. 数值分析 pdf_统计分析前,要做哪些数据准备工作?

    作者:高乐:审稿:龚志忠,张耀文 提到数据分析,首先会想到的可能是t检验.回归分析等各种具体的分析方法,但对于经历过完整数据分析的同学来说,最复杂.最耗费时间的步骤往往是数据的清理,也就是将数据整理成 ...

  6. 20应用统计考研复试要点(part35)--简答题

    学习笔记,仅供参考,有错必纠 简答题 简述无偏估计量与最小方差无偏估计量的定义 无偏性,是指估计量抽样分布的数学期望等于被估计的总体参数. 最小方差无偏估计,是在无偏估计类中使均方误差达到最小的估计量 ...

  7. 机器学习笔试面试超详细总结(一)

    文章目录 1.判别模型和生成模型 2.最大概率分词 3.中文分词的基本方法 4.CRF(条件随机场)的特点 5.隐马尔可夫模型(HMM)时间复杂度及可以使用的数据集 6.在二分类问题中的评价方案 7. ...

  8. 机器学习面试题总结!!!!

    需要内推三七互娱的盆友萌,(9月5号截止)可以参考另一篇文章,或者内推QQ群:175423207 BAT机器学习面试系列 1.请简要介绍下SVM. SVM,全称是support vector mach ...

  9. 机器学习面试笔试超详细总结(一)(转载)

    目录 1.判别模型和生成模型 2.最大概率分词 3.中文分词的基本方法 4.CRF(条件随机场)的特点 5.隐马尔可夫模型(HMM)时间复杂度及可以使用的数据集 6.在二分类问题中的评价方案 7.决策 ...

最新文章

  1. 魔兽争霸Ⅲ运行时不能初始化directX的错误解决
  2. 帝国cms如何安装php模板,2020帝国cms模板安装教程详细介绍
  3. js 数据结构中邻接矩阵的图的直观表示
  4. 【工具】[Listary]好用到哭的快速搜索工具
  5. ”被裁员6次的运营总监分享”总被裁员的运营人到底是为什么?
  6. Optimizing graphics rendering in Unity games
  7. 超声波清洗机是什么?
  8. 参考文献中英文人名_参考文献英文人名的缩写规则
  9. beyondcompare ubuntu revoked问题
  10. 使用U盘在虚拟机下安装双系统(windows and linux)乃至多系统
  11. NX二次开发-UFUN自定义尺寸导出NX窗口区域图像UF_DISP_create_framed_image
  12. Win10电脑用360杀毒一全盘杀毒就蓝屏
  13. Android-分辨率以及dip(dp)、dpi、ppi、px、sp、pt说明
  14. 不想参加难度较高的全国联考,可以选择中外合作办学硕士在职研究生
  15. 网页前端知识汇总(三)——网页前端利用二维码插件qrcode生成在线二维码
  16. 2023系统分析师---系统规划
  17. CVPR2021:百篇AR/VR关联性研究成果汇总
  18. 小米 2021 春招面试总结
  19. 用3dmax测试软件会烧掉硬件吗,以3ds Max软件为例 3D渲染和三维建模是CPU重要还是显卡重要?...
  20. AI-自然语言处理-自然语言处理介绍

热门文章

  1. 4 将x的平方赋值给y
  2. 关于QT按钮乱码问题(初学遇到的问题)
  3. 护士站之web service
  4. 京东云开发者|软件架构可视化及C4模型:架构设计不仅仅是UML
  5. python降低图片分辨率_使用numpy快速降低图像分辨率的Python代码
  6. Java准确获取Word/Excel/PPT/PDF的页数(附Word页数读不准的处理办法)
  7. android app字体库,Uni-app使用字体库,在浏览器正常,但是在Android手机,调不到字体库,如何修改呢?...
  8. 收银软件怎么选性价比最高?手把手教你如何挑选对的收银系统!
  9. Android自定义控件字体大小设置。
  10. 吴恩达机器学习笔记(三)