在做线性回归的时候,一般分为以下几个步骤:
1、画散点图,简单的查看是否存在线性关系(3D以下)
2、线性模型跑一遍试试效果
3、其中需要查看以下几个指标:3.1 正太分布检验3.1 多重共线性、异方差性、自相关性3.2 变量显著性  3.4 拟合效果4、解释变量

上面一篇文章了解了如何利用t检验进行变量的显著性检验,下面着重学习如何进行多重共线性的检验

零、可决系数R方

一、辅助回归模型检验

二、方差膨胀系数(VIF)

VIF的取值大于1,VIF值越接近于1,多重共线性越轻,反之越重。通常以10作为判断边界。当VIF<10,不存在多重共线性;当10<=VIF<100,存在较强的多重共线性;当VIF>=100, 存在严重多重共线性。

容忍度的值界于0至1之间,当容忍度值较小时,表示此自变量与其他自变量之间存在共线性。

容忍度~VIF的倒数

三、皮尔逊相关系数 判断多重共线性

皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进;
要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下:

Pearson相关系数公式如下:

由公式可知,Pearson相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度,为了更好的度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差的基础上除以了两个随机变量的标准差,容易得出,pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。

四、解决办法

1. 手动移除出共线性的自变量

2. 逐步回归法

3. 增加样本容量

4. 岭回归

5. 利用因子分析合并变量

数据分析——多重共线性检验相关推荐

  1. 多重共线性检验-方差膨胀系数(VIF)

    方差膨胀系数(variance inflation factor,VIF)是衡量多元线性回归模型中复 (多重)共线性严重程度的一种度量.它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比 ...

  2. Python 在使用variance_inflation_factor 做VIF多重共线性检验时,是否要加入常数项?

    用一份数据跑回归,惯例先做了一下多重共线性的检验 参考网上的各种教程,大部分都是直接把自变量丢进去就可以出来结果 我的代码: 但这个结果和我拿spss跑回归得出来的VIF值完全不一样 python,只 ...

  3. python数据分析 - T检验与F检验:二组数据那个更好?(一)

    T检验,F检验 1.导语 2.假设检验 2.1 原假设与备择假设 2.2 接受域与拒绝域 2.3 两类错误 3.单样本的假设检验 3.1 选择零假设和对立假设 3.2 选择显著水平α 3.3 决定检验 ...

  4. Python玩转数据分析——T检验

    概念 T检验,也称 student t 检验 ( Student's t test ) ,用来比较两个样本的均值差异是否显著,通常用于样本含量较小 ( n < 30 ) 的样本.分为单样本 t ...

  5. 多重共线性检验之方差膨胀因子VIF

    过程 1.构造每一个自变量与其余自变量的线性回归模型,例如,数 据集中含有p个自变量,则第一个自变量与其余自变量的线性组合可以 表示为 2.根据如上线性回归模型得到相应的判决系数R2R^2R2,进而计 ...

  6. 数据分析编程检验——车流量统计(不能使用pandas和numpy)

    目录 一.要求展示 二.获取内容 1.从文本中取内容 ​         2.对文本中的内容处理 三.需求计算 1.按车辆编号对数据进行分组,统计采样时间间隔 ①分组 ②计算 四.源码 一.要求展示 ...

  7. 从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 下载

    资料目录: 目 录第1章 数据分析与挖掘概述 11.1 什么是数据分析和挖掘 11.2 数据分析与挖掘的应用领域 21.2.1 电商领域--发现破坏规则的"害群之马" 21.2.2 ...

  8. datagrid出现相同两组数据_数据分析之统计学

    统计学知识 思维导图 第一节 统计学基本原理 数据分析相关概念 一.描述统计 测量尺度 1.定类(nominal) 功能:分类的作用,比如性别 2.定序(ordinal) 功能:分类.排序的作用,比如 ...

  9. 从零开始学python数据分析与挖掘

    目   录 第1章  数据分析与挖掘概述 1.1  什么是数据分析和挖掘 1.2  数据分析与挖掘的应用领域 1.2.1  电商领域--发现破坏规则的"害群之马" 1.2.2  交 ...

最新文章

  1. 结构体成员的引用方法
  2. OVS DPDK--介绍(一)
  3. 如何搭建一个node 工程
  4. System.Drawing.Color转System.Windows.Media.Color
  5. plsql连接远程Oracle的方法
  6. python初学者用什么软件_初学者编写python用什么软件
  7. python进程池的实现原理_Python基于进程池实现多进程过程解析
  8. 雷军喊你报考武汉大学
  9. tomcat详细日志配置
  10. FFmpeg滤镜实现区域视频增强 及 D3D实现视频播放区的拉大缩小转
  11. cocos2d-xFinalProject踩坑记录(cocosStudio控件获取,角色移动及动画,碰撞检测,背景音乐与场景)...
  12. nrf24l01无线模块c语言程序,NRF24L01 无线通信模块使用
  13. 成功解决 遇到3dmax模型文件出错,找回并修复出错文件
  14. 线代 006 克拉默法则 线性方程组求解
  15. vue中使用file-saver导出文件
  16. Ceph 故障排查笔记 | 万字经验总结
  17. 诺禾-数据库操作优化
  18. 微信群活码的原理及其作用,以及活码怎么使用
  19. 软件构造 Lab3 CircularOrbit 实验日记
  20. CDMA2000简介

热门文章

  1. 跟我学UDS(ISO14229) ———— 0x10(DiagnosticSessionControl)
  2. Final Cut Pro X for mac(视频剪辑软件)新增功能
  3. 淘宝主搜索离线集群完成Hadoop 2
  4. JAVA版商城 B2B2C商城 多商家商城 直播带货商城 短视频带 货商城 新零售商城 o2o商城 拼团商城 分销商城 直播商城 springcloud商城 spring cloud商城 积分商城
  5. [免签约]微信+支付宝个人收款解决方案
  6. 计算机网络安全存在的问题
  7. 计算机图形学 文字裁剪
  8. mongoDB介绍与客户端认证权限
  9. 基于java+springmvc+mybatis+vue+mysql的鲜花销售系统
  10. Photoshop制作水印文字