1. 多重共线性

 多重共线性是指线性回归模型中的解释变量之间由于存在精确或高度相关关系

例如:某个回归模型包含2个变量,年龄工作经验年数,常识可知年龄越大,工作经验年数越大,两个变量可能存在高度关联,因此模型中可能存在多重共线性

2. 多重共线性的危害

a. 模型估计失真难以估计准确稳定性降低,意味着回归方程的标准误差可能会增大;

b. 模型参数估计不准确,方差大,这也是模型估计不准的原进一步原因,至于为什么看3

c. 无法判断单独变量的影响,计算特征贡献度;

d. 因此自变量显著性可能会失去意义,本应该显著的自变量不显著,本不显著的自变量却是显著

3. 共线性的存在导致模型估计不准的原因

最小化损失函数的目的是找到一组最优回归系数,宏观定义上可以理解为模型参数。多重共线性的存在会导致模型参数估计不准确,进而导致模型估计失真估计不准的问题

简单穿插一下回归系数的概念:

回归系数:regression coefficient

回归系数在 回归方程 中表示 自变量 x 对 因变量 y 影响大小的参数,它反映当自变量每变化一个单位时,因变量所期望的变化量

回归系数越大表示 x 对 y 的影响越大,正回归系数表示 y 随 x 增大而增大,负回归系数表示 y 随 x 增大而减小。

例如回归方程式Y=bX+a中,斜率 b称为回归系数,表示X每变动一单位,平均而言,Y将变动b单位。

更通俗的讲:从线性回归的角度进一步理解回归系数。

变量 y 与变量 x = (x1, x2, x3.....,xn),之间的关系是 ,此时称 f(x) 为 y 对 x 的回归,f(x) 称为回归函数。通常在正态分布情形,若 f(x) 是 x 的线性函数 ,是回归常数, 称为回归系数

回到多重共线性的危害上:

如果模型中存在多重共线性,这说明至少有两个自变量 A 和 B 是高度或完全相关的,即两个变量的变化趋势一致,其中一个变化,另一个也会发生类似的变化。相关性越强,在只改变A,不改变B的情况下,单纯从A的变化解释Y的变化就很困难,也就是和实际不符(实际环境可能是从A和B共同变化的角度解释Y的变化,因此很难理解)。

因此,会降低估计系数的可信度 或者 降低模型 的稳定性和性能。

4. 判断标准

a. 皮尔逊相关系数,可以解释连续型变量之间的线性相关程度,该值大于0.8,则可以认为存在多重共线性;对于连续型—离散型和离散型—离散型的变量对,则可以利用其他的方式(后续会另开一篇);

b.  实现增加一个变量或者删除一个变量,观察回归系数的值是否有很大变化,若变化很大,则说明该变量的估计系数不可信 或 不稳定;

c. 如果说 F 检验通过,并且决定系数值也较大,但是 t 检验并不显著,也可能存在多重共线性;

d. 回归系数的正负符号与专业知识相反或与实际分析结果不符,也会存在多重共线性的可能。

以上a ~ d,均为主观判断方法;还有一种正规的检验方法!

观察回归分析中的VIF值(方差膨胀因子),表达式1 / (1 - r2)。多重共线性会使参数估计值的方差变大,方差膨胀因子越大,说明共线性越强。通常的判断标准是VIF值大于10,即具有多重共线性,有的文献也说大于5即有共线性。​​​​​​​

5. 解决办法,如何消除多重共线性​​​​​​​

a. 保留一个变量,并删除与其高度相关的其他变量,以逐步回归法得到最广泛的应用;

b. 引入L1 和 L2 正则化,减少参数量的方差,降低VIF,可以处理多重共线性;

c. 特征合并或者特征组合,将相关变量线性组合在一起处理;

d. 特征降维,如PCA

e. 差分法,时间序列数据、线性模型:将原模型变换为差分模型(转自百度百科,我没懂。。)

上述内容源自:回归系数_百度百科,多重共线性_百度百科,​​​​​​​速进!!关于多重共线性你知道多少? - 知乎 以及 自己的学习和理解,可以的话,这几篇都可以看看。

回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法,回归系数相关推荐

  1. 线性回归系数的标准误_回归模型中的标准化回归系数是什么,该如何计算得到?...

    在前期内容中,我们介绍了如何对数据进行标准化处理,将原始的连续型变量转化为一个无量纲的标准化数值,消除不同变量之间因性质.量纲.数量级等属性的差异而带来的影响,从而使不同变量的效应大小具有可比性,因此 ...

  2. R语言使用car包的outlierTest函数通过假设检验的方法检测回归模型中的异常值(outlier)、输出异常值对应的统计量、p值以及Bonferonnii校正p值

    R语言使用car包的outlierTest函数通过假设检验的方法检测回归模型中的异常值(outlier).输出异常值对应的统计量.p值以及Bonferonnii校正p值 目录

  3. R语言计算回归模型标准化残差实战(Standardized Residuals):识别回归模型中离群点

    R语言计算回归模型标准化残差实战(Standardized Residuals):识别回归模型中离群点 目录

  4. R语言White’s检验实战:检验回归模型中是否存在异方差性(heteroscedasticity)、发生了异常差(heteroscedasticity)问题如何解决

    R语言White's检验实战:检验回归模型中是否存在异方差性(heteroscedasticity).发生了异常差(heteroscedasticity)问题如何解决 目录

  5. R语言Goldfeld-Quandt检验实战:检验回归模型中是否存在异方差性(heteroscedasticity)、发生了异常差(heteroscedasticity)问题如何解决

    R语言Goldfeld-Quandt检验实战:检验回归模型中是否存在异方差性(heteroscedasticity).发生了异常差(heteroscedasticity)问题如何解决 目录

  6. R语言使用pROC包绘制ROC曲线实战:roc函数计算AUC值、plot.roc函数绘制ROC曲线、添加置信区间、为回归模型中的每个因子绘制ROC曲线并在同一个图中显示出来

    R语言使用pROC包绘制ROC曲线实战:roc函数计算AUC值.plot.roc函数绘制ROC曲线.添加置信区间.为回归模型中的每个因子绘制ROC曲线并在同一个图中显示出来 目录

  7. R语言回归模型中的Pr(>|t|)如何解读?Pr(>|t|)如何计算?

    R语言回归模型中的Pr(>|t|)如何解读?Pr(>|t|)如何计算? 目录 |t|)如何解读?Pr(>|t|)如何计算?">R语言回归模型中的Pr(>|t|) ...

  8. 【回归模型中两变量相乘】交互作用,调节作用

    在一些回归模型中,我们常看到回归方程中有两个变量以相乘的形式出现,如: y p r i c e = β 0 + β 1 p r o d u c t t y p e + β 2 p r o d u c ...

  9. JavaScript中的ParseInt(08)和“09”返回0的原因分析及解决办法

    今天在程序中出现一个bugger ,调试了好久,最后才发现,原来是这个问题. 做了一个实验: alert(parseInt("01")),当这个里面的值为01====>07时 ...

最新文章

  1. Oracle排序排除null,oracle 排序(中文,null的处理)
  2. 海尔智慧家庭食联网:为每1个家庭配备专属健康顾问
  3. leetcode 378. Kth Smallest Element in a Sorted Matrix
  4. Linux 命令(三)--用户管理
  5. YBTOJ:魔法数字(数位dp)
  6. crontab 日志_liunx 中定时清理过期日志文件
  7. mpu6050 重力加速度_2021年高考物理一轮复习学与练 重力、弹力 、摩擦力 高中物理知识总结大全...
  8. .net 反编译_向.net/Unity 程序员推荐一个十分因吹斯听的网站:sharplab.io
  9. 安卓加密软件_视频加密后如何播放?加密视频如何播放?
  10. 最常用的5个Python第三方库,你知道几个?第三个97%的程序员都在用!
  11. multisim 10.0安装、破解、汉化
  12. JAVA SSM毕业设计——基于SSM的校园二手交易平台的设计与实现
  13. Resource exhausted: OOM when allocating tensor with shape[620,20000] and type float on /job:localhos
  14. C语言中0UL 1UL什么意思
  15. 简述python程序的书写规范_简明的 Python 编程规范
  16. 写javaEE初学者的我
  17. matlab院校,MATLAB要来了?!
  18. 【算法讲7:积性函数(下)】⌈ 加性函数 ⌋ 与 ⌈ 积性函数 ⌋ 与 ⌈ 狄利克雷卷积 ⌋ 详细介绍
  19. 一、CSS弹性布局[弹性盒子、弹性元素]
  20. 基于SSM框架的超市管理系统

热门文章

  1. Datawhale-数据挖掘实践(智慧海洋)
  2. 关于《后浪》的B站弹幕分析总结(一)——爬取B站视频的上万条弹幕的方法
  3. BlueTooth: 嵌入式蓝牙网关中蓝牙驱动层研究与实现
  4. Android相机开发
  5. Javascript 2022-7-21
  6. proxmox 上传镜像失败解决
  7. 用Python做游戏有多简单
  8. LeetCode 报错AddressSanitizer: SEGV on unknown address 0x000000619d20 (pc 0x000000401a6a bp 0x7ffd35b3
  9. 安拆网分享:钢板桩的强大
  10. dnf连接服务器黑屏xp系统,xp系统开机黑屏的解决办法