非参数检验-Wilcoxon,Wilcoxon-Mann-Whitney符号秩检验以及Pearson,Spearman秩,Kendall τ相关检验(附带实例-R实现)
1 单一样本检验
1.1 符号检验
符号检验是非参数统计中最古老的检验方法之一,这种检验被称为符号检验的一个理由是它所关心的信息只与两类观测值有关,如果用符号“+”和“-”区分,符号检验就是通过符号“+”和“-”的个数进行统计推断。符号检验的推断过程(以双边检验为例):
1.2 Wilcoxon符号秩检验
从1.1符号检验的定义和推断过程可以看出,它只利用了样本差异方向上的信息,并没有考虑差别的大小,即就是在符号检验中,每个样本点的正负号只是代表了该点在中心位置的那一边,但没有表明该点距离中心位置的远近。因此,就有了Wilcoxon符号秩检验,它弥补了符号检验的不足也充分得应用了样本信息。使用Wilcoxon符号秩检验的前提是假设总体分布具有对称性。
2 两独立样本检验
Wilcoxon-Mann-Whitney秩和检验
假定两总体分布有类似形状,不假定对称,样本
3.多组数据位置推断
Kruskal-Wallis检验
Kruskal- Wallis检验是一个将两样本W-M-W检验推广到三组或更多检验的方法,如果数据取自完全随机设计,先把多个样本汇合起来求秩,再按样本组求秩和,考虑到各个处理的观测值可能不同,可以比较各个处理之间的平均秩差,从而达到比较的目的。
对检验问题,完全随机设计的的数据如下表所示
4 相关性检验
4.1 Pearson相关系数
4.2 Spearman秩相关检验
4.3 Kendall τ相关检验
5 实例
针对美国面板调查数据中的年轻男子组, 研究了工资与受教育年限的关系, 该数据集中包括以下变量:lw(工资对数),s(受教育年限),age (年龄),tenure (在现单位的工作年数),iq (智商),med(母亲的受教育年限),rns (美国南方虚拟变量,住在南方=1),kww (在"knowledge of the World of Work"测试中的成绩) , mrt(婚姻虚拟变量,已婚=1),year(有数据的最早年份,1966 -1973年中的某年),smsa (大城市虚拟变量,住在大城市=1)。
5.1 Wilcoxon符号秩检验与符号检验
在上述数据集中 运用Wilcoxon符号秩检验和符号检验两种方法检验 iq(智商)和 age(年龄)两个连续变量的中位数是否显著,并将两种方法的结果进行比较,分析在解决同样位置参数检验问题时各自的特点。
解:首先,先作出两组数据的直方图以及密度曲线,分别如图一和图二所示:
从图一的直方图中看出变量iq 的数据分布大致是对称分布的,但在图二中,没有明显的迹象表明变量age 的数据分布大致是对称分布的:
其次,由数据集计算可以得出 中位数 为104, 中位数 为22,最后进行双侧检验:检验所得样本中位数是否是总体的中心位置 。假设检验:
R程序在附录中,汇总结果如下表所示:
结果分析:在显著水平0.05下,可以看出
(1) 变量iq符号检验p值为0.5783,Wilcoxon符号秩检验p值为0.8672,两者都大于0.05,因此,接受原假设,认为变量iq的中位数104在两个检验中都不显著;
(2) 变量age符号检验p值为0.01844,Wilcoxon符号秩检验p值为0.0288,两者都小于0.05,因此,拒绝原假设,说明变量age的中位数22在两个检验中都显著。
在(1)中虽然两者都接受了原假设,但是Wilcoxon符号秩检验的p值大于符号检验的p值,这就表明了在对称性的假定下,Wilcoxon符号秩检验将样本的信息量利用的更充分一些。在(2)中虽然两者都拒绝了原假设,但是符号检验的p值小于Wilcoxon符号秩检验的p值,这就表明了当总体分布对称性不成立时,符号检验的结果更可靠
5.2两独立样本检验
在数据集中 smsa(大城市虚拟变量,住在大城市=1)是分类变量,用Wilcoxon-Mann-Whitney秩和检验可以检验在大城市的工资与不在大城市的工资是否有显著差异。
解:(1)假设:H0: 在大城市与不在大城市的工资没有显著差异
H1:在大城市与不在大城市的工资有显著差异
(2) 利用R程序在附录中,运行结果如下图所示:
图中 s0为不在大城市的工资数据,s1 为在大城市的工资数据。结果分析:从检验结果可以看出, p值小于0.05,因此,在显著水平0.05下,拒绝原假设 ,即在大城市与不在大城市的工资有显著差异。
5.3Kruskal-Wallis检验
运用Kruskal-Wallis检验方法研究不同学历的人的工资是否真的存在差异,即数据集中lw(工资对数)和 s(受教育年限)有多大关系?
(1)假设: H0:工资对数 lw和受教育年限s 之间无差异
H1 :工资对数lw 和受教育年限 s之间有显著差异
(2)数据处理:原始数据中的变量s (受教育年限)的取值时一些整数:8,12,15,17,18等,但本题关注的是学历,因此将这些整数转化为不同层次的学历。其中小于等于12的整数被赋值为“低学历”,大于等于13且小于16的整数赋值为“中等学历”,大于等于17的整数赋值为“高等学历”,这样变量 变为了分类型变量,观察三个层次的学历的工资箱线图,可以发现工资差别比较大.
(3)R程序在附录(程序3)中,汇总结果如下表所示:
(4)可以看出,在显著性水平0.05下,p值相当低,足以拒绝原假设,即认为不同层次学历的工资是有显著差别的,这与箱线图反映的情况也是一致的。
5.4相关性检验
运用Pearson、Spearman和Kendall检验统计量检验数据集中lw(工资对数)和 s(受教育年限)之间是否相关,是正相关还是负相关?
解:
(1)假设: h0:工资对数lw 和受教育年限 s之间不相关
h1: 工资对数lw 和受教育年限 s之间相关
(2)利用R软件画出工资对数和受教育年限各自的直方图和散点图(程序见附录程序4),运行图如下:
从图中可以看出变量s 的分布是不对称、不均匀的,变量lw 的分布较为对称。
从图中看,两个变量之间似乎存在相关关系,因此利用三种方法来检验。
(3) Pearson、Spearman和Kendall三种方法的检验汇总结果(见附录程序4)如下表所示:
(4)从上述表格可以看出,三种方法的检验结果P值都是小于0.01,因此,在显著水平0.05时,都拒绝原假设,认为工资对数lw 和受教育年限s 之间相关,再根据相关系数值可以看出,Pearson检验,Kendall检验和Spearman检验都认为二者之间正相关,即可以得出结论:一般来说受教育年限越长,工资越高。
附录
library(MASS)
library(Matrix)
NLSYM<-read.csv("C:/Users/ASUS/Desktop/NLSYM.csv")
程序1
#iq
iq.median=median(NLSYM$iq)#iq中位数
m1<-sum(NLSYM$iq>iq.median)#数据中iq大于iq中位数的个数
m2<-sum(NLSYM$iq<iq.median)#数据中iq小于iq中位数的个数
k1<-min(m1,m2)
n1<-m1+m2
binom.test(k1,n1,0.5)#符号检验
wilcox.test(NLSYM$iq-iq.median)#wilcoxon符号秩检验
par(mfrow=c(1,2))
hist(NLSYM$iq)
plot(density(NLSYM$iq))
#age
age.median=median(NLSYM$age)#age中位数
m3<-sum(NLSYM$age>age.median)#数据中age大于age中位数的个数
m4<-sum(NLSYM$age<age.median)#数据中age小于age中位数的个数
k2<-min(m3,m4)
n2<-m3+m4
binom.test(k2,n2,0.5)#符号检验
wilcox.test(NLSYM$age-age.median)#wilcoxon符号秩检验
hist(NLSYM$age)
plot(density(NLSYM$age))
程序2
smsa0<-subset(NLSYM,smsa==0)
smsa1<-subset(NLSYM,smsa==1)
w0<-smsa0$lw#不在大城市的工资数据
w1<-smsa1$lw#在大城市的工资数据
wilcox.test(w0,w1)
程序3
attach(NLSYM)
s=factor(s)
plot(lw~s)
detach(NLSYM)
rm(s)
attach(NLSYM)
v=s
low.index=(v<=12)
mid.index=(v>=13 & v<=16)
hig.index=(v>=17)
v[low.index]="A"
v[mid.index]="B"
v[hig.index]="C"
s=factor(v)
windows()
plot(lw~s,names=c("低学历","中学历","高学历"))
NLSYM$s=v
F=factor(NLSYM$s)
kruskal.test(lw,F)
程序4
lw<-NLSYM$lw
s<-NLSYM$s
par(mfrow=c(1,2))
hist(lw,border=F,col="red")
hist(s,border=F,col="red")
par(mfrow=c(1,1))
plot(lw,s,main="Scatter plot of TAX and MEDV")
cor.test(lw,s) #pearson相关系数检验
cor.test(lw,s,meth="spearman") #spearman秩相关系数检验
cor.test(lw,s,meth="kendall") #kendallτ相关系数检验
非参数检验-Wilcoxon,Wilcoxon-Mann-Whitney符号秩检验以及Pearson,Spearman秩,Kendall τ相关检验(附带实例-R实现)相关推荐
- AUC(一):AUC与Mann–Whitney U test
在算法面试中,常常会被一个问题AUC的物理含义是什么.本文参考论文1,介绍一下AUC的物理含义. 概念 在二分类模型中,预测值ppp表示事件发生的概率.对于分类任务,需要给出一个阈值(threshol ...
- R语言编写自定义函数使用Wilcoxon符号秩检验(Wilcoxon signed rank)实现多分组非参数成对检验(pairwise)、并使用p.adjust函数调整概率值
R语言编写自定义函数使用Wilcoxon符号秩检验(Wilcoxon signed rank)实现多分组非参数成对检验(Nonparametric pairwise multiple comparis ...
- 【杂纪】从ROC曲线到AUC值,再到Mann–Whitney U统计量
统计检验中的两类错误 在进行假设检验时,分别提出原假设(Null Hypothesis)和备择假设(Alternative Hypothesis),检验结果可能出现的两类错误: 原假设实际上是正确的, ...
- 曼-惠特尼U检验Mann–Whitney U Test
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&am ...
- 数据挖掘01-相关性分析及可视化【Pearson, Spearman, Kendall】
数据挖掘01-相关性分析及可视化[Pearson, Spearman, Kendall] 简介 一.什么是相关性分析 二.常见的相关性分析方法 三.Pearson相关系数 使用pandas对数据做Pe ...
- pandas计算特征与所有数值特征的相关性并排序可视化:包含pearson、spearman、kendall
pandas计算特征与所有数值特征的相关性并排序可视化:包含pearson.spearman.kendall 目录
- python求解典型相关系数_三大相关系数: pearson, spearman, kendall(python示例实现)...
三大相关系数:pearson, spearman, kendall 统计学中的三大相关性系数:pearson, spearman, kendall,他们反应的都是两个变量之间变化趋势的方向以及程度,其 ...
- 如何理解相关性系数(pearson、spearman、kendall)
转载: https://www.jianshu.com/p/7697eb89926a 三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度 ...
- 机器学习——统计学三大相关性系数(pearson、spearman、kendall)
应用场景 当想要比较变量间变化趋势时,可以先做出散点图从视觉上判断是否存在相关性(趋势一致).然后再采用相关性分析从统计角度衡量. 1. pearson correlation coefficient ...
最新文章
- Android Jetpack组件之 LiveData使用-源码
- vue代码上传服务器后背景图片404解决方法
- 2.3.2 Batch Norm介绍
- oracle激活锁定用户,oracle 锁用户,oracle解除用户锁定
- 通道设置_烟台240家住宅小区、346家重点单位完成消防车通道标识设置
- iconv android 编译,将iconv编译成lua接口
- android长截屏代码,android长截屏原理及实现代码
- client中周期性边界_「微评」增加艺术品在投资组合中的比例 推进国家艺术软实力...
- 程序员情人节送这些!
- 目标检测二十年间的那些事儿——从传统方法到深度学习
- Bzoj3262 陌上花开
- 【软件工程】-数据库设计说明书
- Day 9 2021.3.10多线程-Lambda表达式-File类
- css3学习手册思维导图
- 报数游戏c语言,报数游戏-实战简单设计
- 发改委印发《关于促进分享经济发展的指导性意见》
- 南华大学计算机学院软件工程双一流,南华大学计算机学院软件工程与网络工程两个专业喜获湖南省高校专业综合评价A级...
- 码支付如何对接网站_码支付,对接自己的网站教程,再也不怕某些支付平台跑路了...
- BigDecimal 保留小数位
- OPENGL ES 2.0 知识串讲 (10) ——OPENGL ES 详解IV(纹理优化)
热门文章
- 【翻译】Rosetta Large Scale System for Text Detection and Recognition in Images
- 电子商务网站购物车设计
- 日常工作,完全无需付费软件(Windows除外)
- 【HTML】制作一个简单的浮动广告页面
- hjr-MUD游戏(七):挂机功能的实现
- Spring+Spring Mvc+Mybatis+MySqlite(SSM框架整合Xml配置)
- java写的注册机源码_MyEclipse6.5注册机源码
- 计算机的显卡设置方法,怎么看电脑显卡配置 电脑显卡配置查看方法【详细介绍】...
- Arcgis for Js之加载wms服务
- js 解析json数据实现快递包裹的查询