我最近在研究TCGA的RNAseq数据表达差异性的分析,常用的并且最简单的方法是统计量T检验。下面用一个例子来验证T检验的弊端问题所在。

两配对样本的T检验是利用来自两个总体的配对样本,推断总体的两个均值是否显著差异,从而推断两个总体是否存在差异。

前提,我们是假定总体是服从正态分布的,X∼N(u1,σ21)X \sim N(u_{1},\sigma_{1}^{2})
原假设:H0:u1−u2=0H_{0}: u_{1}-u_{2} = 0 ; 备择假设:H0:u1−u2≠0H_{0}: u_{1}-u_{2} \neq 0

统计量:

t=(X¯¯¯−Y¯¯¯)−(u1−u2)Sw1n1+1n2−−−−−−−√∼t(n1+n2−2)

t = \frac{ (\overline{X} -\overline{Y}) - (u_{1} - u_{2}) }{ S_{w} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}} \sim t(n_{1}+n_{2} - 2)

其中,

Sw=(n1−1)S21+(n2−1)S22n1+n2−2−−−−−−−−−−−−−−−−−−−−√

S_{w} = \sqrt{\frac{(n_{1}-1)S_{1}^{2} + (n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}}

通过对T检验的P值来判断是否存在差异,从而判断数据是否来自同一个样本。

下面以sin(x)sin(x)为例来说明:
代码:

x=seq(-pi,pi,0.0001)
y1=sin(x)
y2=-y1png("test.png")
plot(y1~x)
lines(y2~x)
dev.off()mean(y1)
[1] 9.974243e-11
mean(y2)
[1] -9.974243e-11
t.test(y1,y2)
#结果Welch Two Sample t-testdata:  y1 and y2
t = 5.0003e-08, df = 125660, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:-0.007819244  0.007819244
sample estimates:mean of x     mean of y 9.974243e-11 -9.974243e-11

图如下所示:

可以明显发现,两个数据来自不同分布,差异很明显,但是T检验的P值却为1,表明不存在差异,与图像的结果明显不符合。这就是T检验的不足。

关于T检验的改进方法介绍,在下一次分享中将会介绍。

T检验:两样本数据的差异性相关推荐

  1. R语言deLong‘s test:通过统计学的角度来比较两个ROC曲线、检验两个ROC曲线的差异是否具有统计显著性

    R语言deLong's test:通过统计学的角度来比较两个ROC曲线.检验两个ROC曲线的差异是否具有统计显著性 目录

  2. python语言deLong‘s test:通过统计学的角度来比较两个ROC曲线、检验两个ROC曲线的差异是否具有统计显著性

    python语言deLong's test:通过统计学的角度来比较两个ROC曲线.检验两个ROC曲线的差异是否具有统计显著性 目录

  3. R语言构建仿真列联表并进行卡方检验(chisq.test):检验两个分类变量是否独立、输出期望的列联表

    R语言构建仿真列联表并进行卡方检验(chisq.test):检验两个分类变量是否独立.输出期望的列联表 目录

  4. 检验两组数据是否显著差异_SPSS非参数两个相关样本检验

    01 原理与方法 两个相关样本检验的方法主要有:Wilcoxon检验.Sign(符号)检验.McNemar检验和Marginal Homogeneity(边际同质性)检验等. Sign(符号)检验 配 ...

  5. 【K-S检验】检验两个数据集的分布是否一致

    [K-S检验]检验两个数据集的分布是否一致 前言:在训练机器学习模型时,遇到了模型在数据集分割出来的test set上预测准确率高,但是在另一个test set数据集上预测准确率很低的情况.第一直觉是 ...

  6. R语言使用fisher.test函数进行精确概率检验、检验两个分类变量是否独立(自定义构建列联表仿真数据)

    R语言使用fisher.test函数进行精确概率检验.检验两个分类变量是否独立(自定义构建列联表仿真数据) 目录

  7. 两组回归系数差异检验_如何检验两个回归系数的差异性?我做调节分析。

    以下回答的两个公式为基础:女生组:y1=a1+b1x+c1z: 男生组:y2=a2+b2x+c2z. 1. 比较两个回归系数之间差别的公式为:(b1-b2)/se12,其中b1和b2是被比较的回归系, ...

  8. 四格表求卡方示例,独立四格表资料检验,统计学,差异性分析

    差异性分析原理:卡方检验是一种用途很广的计数资料的假设检验方法.它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析.其根本思想就是在于比较理论频数和实际频数 ...

  9. 两组回归系数差异检验_科学网-如何检验两组回归系数之间的差异显著性?-李国强的博文...

    在 Li Jingwen 的这篇文章中,图3中显示了两个生育时期的线性回归模型.随后作者比较了两个生育时期线性回归模型的回归系数(斜率)和截距,作者发现两个生育时期回归系 数(斜率)差异不显著,而截距 ...

最新文章

  1. Java实现均摊_Java均摊复杂度和防止复杂度的震荡原理分析
  2. docker 部署 nginx
  3. 数字图像处理吴娱课后答案_数字图像处理课后题答案
  4. echart 饼图每一块间隙_花10分钟做酱香饼,简单方便又美味,酥脆咸香比买的还要好吃...
  5. 100. 相同的树 golang
  6. 快递下单后取消订单_网约车定位地点不动,男子别的平台下单,没取消订单要付6.6元...
  7. 清华大学计算机系主任应明生,清华大学计算机科学与技术系导师简介:应明生...
  8. ADBB的完整形式是什么?
  9. Mybatis判断表是否存在
  10. jQuery学习笔记——筛选元素集合
  11. 前端工程师如何理解 TCP/IP 传输层协议?| 技术头条
  12. TextView内可以有多种样式吗?
  13. 遍历字段_以字段覆盖标准指导的高效测试生成技术
  14. 手机短信(SMS)工作原理(一)
  15. uniapp 苹果安全区配置
  16. leetcode【困难】460、LFU 缓存
  17. 520催泪感人表白心动文案怎么用免费的记笔记软件记录?
  18. RK系列(RK3568) 收音机tef6686芯片驱动,i2c驱动
  19. DELPHI常用函数集及简要范例 3
  20. 数据库优化之降龙十八掌

热门文章

  1. 挣值如何计算?(转载)
  2. Qt 使用 Matlab函数
  3. 如何成为一名优秀的程序员(五)
  4. 程序员自学编程,推荐一些高质量自学网站?
  5. 科目一考试重难点速考笔记
  6. html img设置形状,图片img直接设置样式
  7. 管道和FIFO概念以及相关函数(pipe、mkfifo)介绍
  8. python3.6和3.8_选择 Python3.6 还是 Python 3.7
  9. oracle创建编号函数,oracle函数初次尝试
  10. web前端学习(CSS篇)