统计检验最常见的领域之一是检验列联表中的独立性。在这篇文章中,我将展示如何计算列联表,我将在列联表中引入两个流行的检验:卡方检验Fisher精确检验

什么是列联表?

列联表提供关于两个分类变量的测量的整数计数。最简单的列联表是一个2 × 2 频率表,由两个变量产生,每个变量有两个级别:

组/观察 观察1 观察2
第1组 ñ1 ,1 ñ1 ,2
第2组 ñ2 ,1 ñ2 ,2

给定这样一个表格,问题是第1组是否表现出与第2组相比的观测频率。这些组代表因变量,因为它们依赖于自变量的观察。请注意,列联表必须是一种常见的误解2 × 2; 它们可以具有任意数量的维度,具体取决于变量显示的级别数。尽管如此,应避免对具有多个维度的列联表进行统计检验,因为除其他原因外,解释结果将具有挑战性。

 数据集

要研究列联表的检验,我们将使用warpbreaks数据集:

 data(warpbreaks)
head(warpbreaks) 
##   breaks wool tension
## 1     26    A       L
## 2     30    A       L
## 3     54    A       L
## 4     25    A       L
## 5     70    A       L
## 6     52    A       L

这是一个包含来自纺织行业的三个变量的数据集:描述了羊毛拉断的次数  描述了经过检验的羊毛类型 张力∈ { L ,M,H}给出了施加在螺纹上的张力(低,中或高)。数据集中的每一行表示单个织机的测量值。为了解释不同织机的可变性,对羊毛张力的每种组合进行了9次测量,数据集总共包含9 ⋅ 2 ⋅ 3 = 549⋅2⋅3=54 观察结果。

分析目标

我们想确定一种类型的羊毛在不同程度的拉紧情况下是否优于另一种羊毛。为了研究我们是否可以找到一些差异的证据,让我们来看看数据:

为了研究断裂数的差异,让我们可视化数据:

从图中我们可以看出,总体而言,羊毛B与较少的断裂相关联。羊毛A似乎特别低劣,因为低张力。

转换为列联表

为了获得列联表,我们首先需要总结两种类型的羊毛和三种类型的张力的不同织机的断裂。

##   wool tension breaks
## 1    A       L    401
## 2    A       M    216
## 3    A       H    221
## 4    B       L    254
## 5    B       M    259
## 6    B       H    169

然后我们使用xtabs交叉表函数来生成列联表:

##     tension
## wool   L   M   H
##    A 401 216 221
##    B 254 259 169

现在,df我们有了应用统计检验所需的结构。

统计检验

用于确定来自不同组的测量值是否独立的两种最常见的检验是卡方检验(χ2检验)和费舍尔的精确检验。请注意,如果测量结果配对,则应使用McNemar检验(例如,可以识别单个织机)。

皮尔逊的卡方检验

该 χ2test是一种非参数检验,可应用于具有各种维度的列联表。检验名称源自χ2分布,即独立标准正态变量的平方分布。这是检验统计的分布χ2检验

## [1] 7.900708e-07

由于p值小于0.05,我们可以在5%显着性水平上拒绝检验的零假设(断裂的频率独立于羊毛)。根据df,可以声称羊毛B比羊毛A明显更好(相对于断裂)。

Pearson残差

另一种方法是考虑检验的卡方值。该chisq.test函数提供卡方值的Pearson残差(根) 。与由平方差异产生的卡方值相反,残差不是平方的。因此,残差反映了观测值超过预期值(正值)或低于预期值(负值)的程度。在我们的数据集中,正值表示比预期更多的断裂,而负值表示更少的断点:

##     tension
## wool          L          M          H
##    A  2.0990516 -2.8348433  0.4082867
##    B -2.3267672  3.1423813 -0.4525797

残差表明,与羊毛A相比,羊毛B的低张力和高张力断裂比预期的要少。然而,对于中等张力,羊毛B比预期的断裂更多。再次,我们发现,整体羊毛B优于羊毛A.残差的值也表明羊毛B对于低张力(残差为2.1),高张力(0.41)和中等张力严重( - 2.8)。然而,残差有助于我们识别羊毛B的问题:它对中等张力的表现不佳。这将如何促进进一步发展?为了获得在所有张力水平下表现良好的羊毛,我们需要专注于改善羊毛B的中等张力。为此,我们可以考虑使羊毛A在中等张力下表现更好的特性。

费舍尔Fisher精确检验

Fisher的精确检验是用于检验独立性的非参数检验,通常仅用于检验2 × 2列联表。作为精确显着性检验,Fisher检验符合所有假设,在此基础上定义检验统计量的分布。实际上,这意味着错误拒绝率等于检验的显着性水平,对于近似检验,例如χ2检验。简而言之,Fisher的精确检验依赖于使用二项式系数根据超几何分布计算p值。

由于计算的因子可能变得非常大,Fisher精确检验可能不适用于大样本量。

请注意,无法指定检验的替代方法,df因为优势比(表示效果大小)仅定义为2 × 2 矩阵。

我们仍然可以执行Fisher精确检验以获得p值:

## [1] 8.162421e-07

得到的p值类似于从中获得的p值 χ2 检验并得出相同的结论:我们可以拒绝零假设,即羊毛的类型与不同应力水平下观察到的断裂次数无关。

转换为2乘2矩阵

为了指定备选假设并获得优势比,我们可以计算三者的检验 2 × 2可以构造的矩阵df

由于替代方案设置得更大,这意味着我们正在进行单尾检验,其中另一种假设是羊毛A与羊毛B的断裂次数相关(即我们预期O R > 1)。通过执行检验2 × 2表格,我们也获得了解释性:我们现在可以区分羊毛不同的具体条件。然而,在解释p值之前,我们需要纠正多个假设检验。在这种情况下,我们进行了三次检验。在这里,我们只需将0.05的初始显着性水平调整为0.053,根据Bonferroni方法。根据调整后的阈值,以下检验显着:

## [1] "L vs others"

这一发现表明,如果力较轻,羊毛B仅显着优于羊毛A. 请注意,我们也可以采用构建方法2 × 22 矩阵 χ2检验。随着χ2 然而,检验并不是必要的,因为我们的分析基于残差。

摘要:卡方对费舍尔的精确检验

以下是两个检验的属性摘要:

标准 卡方检验 费舍尔的精确检验
最小样本量
准确性 近似 精确
列联表 任意维度 通常为2x2
解释 皮尔逊残差 优势比

通常,Fisher精确检验优于卡方检验,因为它是一种精确检验。如果单个观察结果很少(例如小于10),则应特别避免卡方检验。由于Fisher的精确检验对于大样本量和精确度可能在计算上是不可行的,χ2 检验随着样本数量的增加而增加 χ2在这种情况下,检验是合适的替代。另一个优点了χ2 检验是它更适合维数超过的列联表 2 × 2。

R语言检验独立性:卡方检验(Chi-square test)和费舍尔Fisher精确检验分析案例报告相关推荐

  1. 7. R语言【独立性检验】:卡方独立性检验、Fisher精确检验 、Cochran-Mantel-Haenszel检验

    文章目录 1. 卡方检验 2. 费希尔精确检验(Fisher Exact Test) 3. Cochran-Mantel-Haenszel检验 独立性检验:用来判断变量之间相关性的方法,如果两个变量彼 ...

  2. R语言检验独立性:卡方检验(Chi-square test)和费舍尔精确检验分析案例报告

    统计测试最常见的领域之一是测试列联表中的独立性.在这篇文章中,我将展示如何计算列联表,我将在列联表中引入两个流行的测试:卡方检验和Fisher精确检验. 什么是列联表? 列联表提供关于两个分类变量的测 ...

  3. R语言可视化分面图、多变量分组多水平t检验、可视化多变量分组多水平分面条形图(faceting bar plot)并添加显著性水平、在标签和绘图上边框之间添加15%的空格、添加抖动数据点

    R语言可视化分面图.多变量分组多水平t检验.可视化多变量分组多水平分面条形图(faceting bar plot)并添加显著性水平.在标签和绘图上边框之间添加15%的空格.添加抖动数据点 目录

  4. R语言稀疏主成分分析、因子分析、KMO检验和Bartlett球度检验分析上市公司财务指标数据...

    全文链接:http://tecdat.cn/?p=31080 R中的主成分分析(PCA)和因子分析是统计分析技术,也称为多元分析技术(点击文末"阅读原文"获取完整代码数据). 当可 ...

  5. R 两组样本t检验 wilcoxon检验、卡方、fisher精确检验

    一般统计方法R实现 文章目录 一.读入数据 二.连续性变量 1.正态性和方差齐性检验 2.描述统计量 3.独立样本t检验和wilcoxon秩和检验 三.四格表卡方或fisher精确检验(OR[95%C ...

  6. R语言data.table进行滚动数据连接,滚动连接通常用于分析涉及时间的数据(例如商业销售活动和对应的广告投放的安排之之间的关系)实战:实战和动画说明滚动数据连接的形式及方法

    R语言data.table进行滚动数据连接,滚动连接通常用于分析涉及时间的数据(例如商业销售活动和对应的广告投放的安排之之间的关系)实战:实战和动画说明滚动数据连接的形式及方法 目录

  7. R语言data.table进行滚动数据连接,滚动联接通常用于分析涉及时间的数据实战(动画说明滚动数据连接的形式):rolling joins data.table in R

    R语言data.table进行滚动数据连接,滚动联接通常用于分析涉及时间的数据实战(动画说明滚动数据连接的形式):rolling joins data.table in R 目录

  8. R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据...

    原文链接:http://tecdat.cn/?p=24152 什么是PCR?(PCR = PCA + MLR)(点击文末"阅读原文"获取完整代码数据). • PCR是处理许多 x ...

  9. Fisher精确检验.医学统计实例详解-医学统计助手★卡方检验,t检验,F检验,秩和检验,方差分析

    Fisher精确检验是一种在统计分析中经常使用的方法,旨在评估两个分类变量之间是否存在显著关系.这种方法由罗纳德·A·费舍尔(Ronald A. Fisher)于20世纪20年代提出,并被广泛应用于小 ...

  10. 方差分析/卡方/fisher精确检验

    方差分析 前提条件: 1.各样本须是相互独立的随机样本; 2.各样本来自正态分布总体; 3.各总体方差相等,即方差齐.(方差不齐,用非参数检验) 适用数据情况: 分类变量的连续变量 例如: 卡方检验 ...

最新文章

  1. php变量类型怎么表示,PHP 数据类型_php
  2. 微软职位内部推荐-Senior Software Engineer II-Search
  3. 通信与信号处理杂文目录
  4. 时间序列预测之二:灰色模型
  5. 阿里宣布成立云原生技术委员会,释放哪些趋势信息?
  6. 回溯算法超详细讲解(附代码)
  7. 应用计算机基础1答案,2017年计算机应用基础习题及答案
  8. 剑指offer之题解目录(全)
  9. HashMap源码学习
  10. C#生成安装文件后自动附加数据库的思路跟算法
  11. web前端开发怎么样学习?看这份web前端学习路线
  12. Mac系统 python3.7安装
  13. 以敏捷的方式运作一所大学
  14. MySql BlackHole存储引擎
  15. 广州仙村中学2021高考成绩查询,仙村中学(增城区)
  16. 知识分享|日本面试常考问题+巧妙回答①
  17. 清空数据库里面所有表的数据的语句
  18. Android一行代码去掉百度导航的底部工具箱菜单
  19. 房贷新政刺激换房需求 北京楼市成交量反弹
  20. 吴伯凡-认知方法论-如何消除认知阑尾

热门文章

  1. quartz 每月一次_Quartz 每月1号,执行规则表达式怎么列?
  2. PHP海补知识(6)-- nl2br/ucfirst/ucwords
  3. 大数据Hadoop入门
  4. jav基础01 jdk jre jvm 与 配置环境变量
  5. 微信小程序操作数据库
  6. 2020年10款网盘大比拼,总有一款适合你
  7. 关于三维扫描仪,你需要知道这些
  8. Flutter应用在夜神模拟器启动白屏问题
  9. Mybatis提高查询效率的方式
  10. 2017 4 自考java_自考00831英语语法2017年4月真题及答案【解析版】