两变量之间的相关性分析
目录
- 0. 基本概念
- 1. 卡方检测
- 2. Eta系数
- 3. Pearson系数
- (1) 适用条件
- (2) 系数公式
- (3) t检验
- 4. Spearman等级相关系数
- (1) 适用情况
- (2) 计算
- (3) t 检验
- 5. *Kendall-tua-b 等级相关系数
定类 | 定序 | 定距 | |
---|---|---|---|
定类 | 卡方 | 卡方 | Eta系数 |
定序 | Spearman | Spearman | |
定距 | Pearson |
0. 基本概念
相关的定义:
关系强度定义:
定类变量:根据定性的原则区分各类别的变量
特点:
举例:性别、民族、婚姻状况
定序变量:等级次序
特点:
举例:文化程度、工厂规模、年龄大小
定距变量:区别同一类别中等级次序及其距离的变量
特点:
- 能定量分析
- 零点没有意义
- 无法做乘除,只能做加减
举例:温度、比率、智力水平
定比变量:区别同一类别中等级次序及其距离的变量
特点:
- 零点有概念
- 可以做乘除
收入、价格、市场占有率
1. 卡方检测
2. Eta系数
3. Pearson系数
(1) 适用条件
- 定距变量、定比变量
- 两变量的总体应服从正态分布,或接近正态的单峰对称分布
- 两变量间为线性关系
- 变量必须是成对的数据
- 两变量是连续变量
- 数据个数一般大于30对
(2) 系数公式
r=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−xˉ)∑i=1n(yi−yˉ)r= \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})\sum_{i=1}^n(y_i-\bar{y})}} r=∑i=1n(xi−xˉ)∑i=1n(yi−yˉ)∑i=1n(xi−xˉ)(yi−yˉ)
r>0,正相关
r<0,负相关
r绝对值 | 相关程度 |
---|---|
0 ~0.19 | 极低相关 |
0.2~0.39 | 低度相关 |
0.4~0.69 | 中度相关 |
0.7~0.89 | 高度相关 |
0.9~1 | 极高相关 |
(3) t检验
检验是否存在偶然性
t=r1−r2n−2t= \frac{r}{\sqrt{1-\frac{r^2}{n-2}}} t=1−n−2r2r
4. Spearman等级相关系数
(1) 适用情况
度量定序变量之间的关系
(2) 计算
rs=1−6∑(xi−yi)2n(n2−1)r_s = 1-\frac{6\sum(x_i-y_i)^2}{n(n^2-1)} rs=1−n(n2−1)6∑(xi−yi)2
计算前先从小到大排序
(3) t 检验
当n>20时,再进行t检验
t=rsn−21−rs2t = r_s\sqrt{\frac{n-2}{1-r_s^2}} t=rs1−rs2n−2
- ∣t∣>ta2|t|>t_{\frac{a}{2}}∣t∣>t2a,表明rrr统计显著
- ∣t∣≤ta2|t|\le t_{\frac{a}{2}}∣t∣≤t2a,表明rrr统计不显著,存在偶然性误差
5. *Kendall-tua-b 等级相关系数
适用于度量定序变量间的线性关系
两变量之间的相关性分析相关推荐
- NLP之【点互信息PMI】——衡量两变量之间的相关性
点互信息PMI--衡量两变量之间的相关性 绪论 一.PMI的基本概念 二.调用Python nltk来计算两个词的PMI 三.根据词语的共现频次表自定义PMI函数计算 附录:nltk.download ...
- 没有第三个变量的前提下交换两个变量_多变量相关性分析(一个因变量与多个自变量)...
目录: 前言 偏相关或复相关 意义与用途 分析方法: 1. 样本相关系数矩阵.相关系数检验 2. 复相关分析 3. 决定系数 (RMSE的介绍) 小结 一.前言: 继上一篇文章,继续探讨相关性分析,这 ...
- 变量之间的相关性研究
目录 1 什么是相关性? 协方差及协方差矩阵 相关系数 (1)简单相关分析 (2)偏相关分析 (3)复相关分析 (4)典型相关分析 2 对已有数据的预分析 2.1 绘制变量相关的热力图 2.2 对热力 ...
- 最大信息系数——检测变量之间非线性相关性
https://blog.csdn.net/qtlyx/article/details/50780400 最后的效果就是这样的.很明显可以看到,左下角那个有点像三角函数的关系,Pearson系数(就是 ...
- 变量之间的相关性:协方差、相关系数
协方差 方差和标准差衡量的是一个变量(一组数据)的离散程度,也就是变量和均值之间的偏离程度. 协方差衡量的是两个变量之间的相关性,如: 正相关:两个变量具有相同的变化趋势(也称同方向),要么同时变大, ...
- 数据分析的统计方法选择小结(变量之间的关联性分析)
数据分析的统计方法选择小结(变量之间的关联性分析) 一.两个变量之间的关联性分析 1.两个变量均为连续型变量 1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析 2)大样本或两 ...
- 用pwcorr命令求变量之间的相关性如何加不同的星号?
用pwcorr命令求变量之间的相关性如何加不同的星号? pwcorr命令中的star只能加一个星号,在连玉君老师的https://gitee.com/arlionn/pwcorr_a博客连接中下载pw ...
- python有哪些软件包用来考察变量之间的相关性_Python计算数据相关系数(person、Kendall、spearman)...
pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数.Kendall Tau相关系数和spearman秩相 ...
- 【20210825】【数据分析】两个向量做相关性分析时,需不需要统一量纲?
对这个问题的思考源于机器学习中的特征工程,加工了 24 维特征,对此想要分析特征和特征之间.特征和标签之间的相关性,但不同维度的特征物理意义不尽相同,就在思考:需要先对特征归一化.标准化吗? 先放结论 ...
最新文章
- EXPLAIN PLAN获取SQL语句执行计划
- MySQL主从复制-双主结构
- 将一串随机数输入到二维坐标轴中,不断刷新JPanel,实现动态显示的效果微笑
- C# ?? 操作符示例
- FreeBSD之netgraph简要解析
- LNMP - nginx代理详解
- 将bean转换成键值列表
- 帮助睡眠最好的办法是什么?对睡眠好的东西分享
- 金纳米颗粒上装载DNA四面体|金核(75-100nm左右)sio2壳层(3-5nm)产品描述/信息/详情
- [转载]Emit学习之旅(1):Emit概览
- Mybatis中的_parameter
- 前端面试总结(转载请标明)
- 鸿蒙生态圈什么意思,鸿蒙是什么意思(鸿蒙的解释)
- spiral grid
- windows平台上的密码算法识别工具
- 全网首发19日苹果发布会
- (7-3)重要的话说三遍 (5分) 你只需要把这句很重要的话 —— “I'm gonna WIN!”——连续输出三遍就可以了。 注意每遍占一行,除了每行的回车不能有任何多余符
- 前端原生微信小程序实战经验总结
- 达梦DCA之SpringBoot集成达梦数据库
- 算法题:鸡蛋掉落(leetcode 887题)
热门文章
- xmemcached下载地址
- c++ 基本数据类型(int、float、double、long、long long)最大值,最小是表示方法
- C语言字符变量输出值,C语言,交换任意两个字符型变量的值并输出结果。要求:利用getchar和putchar函数。...
- 微信小程序-设置显示层级
- Systerm V消息队列
- MATLAB利用histeq函数进行直方图均衡化
- padStart应用
- 学习加密(四)spring boot 使用RSA+AES混合加密,前后端传递参数加解密
- 黄一老师告诉你信用卡背后的百万财富
- 天天象棋 残局闯关 第5关