生物学的现代统计方法与应用 第一讲 列联表1:验证Chargaff规则(碱基配对规则)

  • 问题描述:Chargaff规则
  • 验证Chargaff规则的统计量

问题描述:Chargaff规则

核苷酸(nucleotide)是核酸的基本组成单位,它以一个含氮碱基为核心,加上一个五碳糖和一个或者多个磷酸基团组成,下面的图是我从维基百科扒来的,感觉非常清晰。含氮碱基有五种,分别是腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)和尿嘧啶(U)。五碳糖为脱氧核糖的称为脱氧核糖核苷酸,是DNA的单体基本组成单位;五碳糖为核糖的称为核糖核苷酸,是RNA的基本组成单位。DNA中可以有的碱基是ATCG,RNA中可以有的碱基是AUCG。

核苷酸分布频率的规则是由Elson与Chargaff在1952年发现的(Elson, D, and E Chargaff. 1952. “On the Desoxyribonucleic Acid Content of Sea Urchin Gametes.” Experientia 8 (4). Springer: 143–45.)。下面是Chargaff的一些实验数据:

##                   A    T    C    G
## Human-Thymus   30.9 29.4 19.9 19.8
## Mycobac.Tuber  15.1 14.6 34.9 35.4
## Chicken-Eryth. 28.8 29.2 20.5 21.5
## Sheep-liver    29.3 29.3 20.5 20.7
## Sea Urchin     32.8 32.1 17.7 17.3
## Wheat          27.3 27.1 22.7 22.8
## Yeast          31.3 32.9 18.7 17.1
## E.coli         24.7 23.6 26.0 25.7

第一列表示某种生物的某个部位,每一行的四个数字表示这个部位的四种核苷酸的比例,下面是这些数据的柱状图:


Chargaff根据这些实验数据得到了一个结论:A的含量与T相同,C的含量与G相同,这个结论被称为Chargaff规则。这其实就是在高中生物中,我们学过的在DNA的结构中有一个碱基配对原则,因为DNA是双链结构,两条链上的碱基满足配对关系:A与T配对,C与G配对,于是 p A = p T , p C = p G p_A=p_T,p_C=p_G pA​=pT​,pC​=pG​。

验证Chargaff规则的统计量

一个值得讨论的问题是 p A = p T , p C = p G p_A=p_T,p_C=p_G pA​=pT​,pC​=pG​是否成立,用统计决策的方法建模,我们需要检验:
H 0 : C h a r g a f f 规 则 不 成 立 H a : p A = p T , p C = p G H_0:Chargaff规则不成立\\ H_a:p_A = p_T, p_C = p_G H0​:Chargaff规则不成立Ha​:pA​=pT​,pC​=pG​

我们可以回顾一下我们学过的假设检验工具:

总体 检验均值 检验比例
单总体 Z检验、T检验 proportional z检验
两总体 Z检验、T检验 proportional z检验
多总体 ANOVA F检验 列联表卡方检验

根据我们需要做的假设检验,显然这是一个四总体的比例检验问题,因此我们应该用列联表。

如果不了解列联表方法,我们也可以尝试定义一个简单的统计量来验证Chargaff规则。定义 χ 2 = ( p A − p T ) 2 + ( p C − p G ) 2 \chi^2=(p_A-p_T)^2+(p_C-p_G)^2 χ2=(pA​−pT​)2+(pC​−pG​)2

直观地理解一下这个统计量,在原假设下,这个统计量等于0,所以统计量的取值越小,我们越能信任原假设。

statChf = function(x){sum((x[, "C"] - x[, "G"])^2 + (x[, "A"] - x[, "T"])^2)
}
chfstat = statChf(ChargaffTable)
permstat = replicate(100000, {permuted = t(apply(ChargaffTable, 1, sample))colnames(permuted) = colnames(ChargaffTable)statChf(permuted)
})
pChf = mean(permstat <= chfstat)
pChf
## [1] 0.00014

说明
前三行定义的函数statChf作用是计算我们定义的统计量 χ 2 \chi^2 χ2,第四行是用这个函数代入Chargaff的实验数据计算统计量 χ 2 \chi^2 χ2的值;

第五到八行通过replicate函数对原数据做bootstrap,并用bootstrap样本计算 χ 2 \chi^2 χ2统计量,得到 χ 2 \chi^2 χ2的一个经验分布。第一个输入100000表示我们想得到100000组bootstrap样本,第二个输入表示我们希望用这些bootstrap样本执行{}中的语句,大概就是对每一行的比例做置换得到新的样本,然后用statChf函数计算 χ 2 \chi^2 χ2统计量。

第九行到第十行是在根据经验分布计算检验的p-值,结果是0.00014,也就是说我们可以显著拒绝原假设,因此Chargaff规则成立。下面的柱状图表示经验分布,红线表示实验数据的 χ 2 \chi^2 χ2统计量。

hist(permstat, breaks = 100, main = "", col = "lavender")
abline(v = chfstat, lwd = 2, col = "red")

生物学的现代统计方法与应用 第一讲 列联表1:验证Chargaff规则(碱基配对规则)相关推荐

  1. C#:Krypton控件使用方法详解(第一讲) —— kryptonButton

    今天介绍的Krypton控件中的kryptonButton,这个控件和VS中带的Button控件还是不一样的,下面介绍这个控件. 这个控件的属性如下图所示: 首先要介绍这个kryptonButton控 ...

  2. grads 相关系数_气象统计方法实习报告材料

    <气象统计方法实习报告材料>由会员分享,可在线阅读,更多相关<气象统计方法实习报告材料(56页珍藏版)>请在人人文库网上搜索. 1.实用标准文档目录实习一求500hPa高度场气 ...

  3. 常用计量统计方法(偏医学科研)

    常用计量统计方法(偏医学科研) 一.医学统计资料分类 1.1 计数资料 定义:计数资料是先将观察单位按某种属性或类别分成若干组,再清点各组观察单位个数所得到的资料. 特质:计数资料每个观察单位之间没有 ...

  4. 超简单、超实用的统计方法——因子分析

    大家好!今天给大家带来一个非常简单.实用的统计方法--因子分析,这个方法适用面非常广,无论商科.工科.理科都能用来研究分析.一起来看看吧! 因子分析目录 第一部分:安装factor_analyzer包 ...

  5. 机器学习的统计方法 贝叶斯决策理论入门

    引言 无论你是在建立机器学习模型还是在日常生活中做决定,我们总是选择风险最小的方案.作为人类,我们天生就采取任何有助于我们生存的行动:然而,机器学习模型最初并不是基于这种理解而建立的.这些算法需要经过 ...

  6. App渠道推广统计:安卓渠道分析和渠道效果统计方法

    随着移动互联网的飞速发展,移动端入口的碎片化时代已经到来,只有掌握用户的内容渠道,就有了移动端入口的能力.APP想要获取用户,就需要借助渠道的力量.下面介绍一些主流的推广渠道和统计方法. 常见的App ...

  7. 学习pandas全套代码【超详细】数据查看、输入输出、选取、集成、清洗、转换、重塑、数学和统计方法、排序

    大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师.欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我的数据分析专栏,里面有许多优质的文章跟大家分享哦. 本篇博客将会给 ...

  8. 气象统计方法短期气候预测代码汇总

    公布这些代码的目的之一肯定是解决大家实习课的困难,二是想让大家看到更简洁易懂的代码. 之前或多或少看过别人写的例如气象统计方法实习or短期气候预测实习的代码,那些代码大多冗余繁杂,不够简洁易懂,里面大 ...

  9. 气象统计方法期末知识点小结

    气象统计方法知识点小结 小知识点 气象统计诊断的基本步骤 资料收集 资料预处理 选取诊断方法 科学综合与诊断分析 气象统计预测的基本步骤 资料收集 选择合适的统计模型 统计检验 预测结论 一些概念 气 ...

最新文章

  1. 【原创】数据库中时间字段的值读取到DataSet中后,毫秒部分丢失。
  2. [Visual Studio] 未能完成操作 不支持此接口
  3. linux共享库及/etc/ld.so.conf文件的应用
  4. win10右键一直转圈_Win10电脑开机一直转圈无法进入系统的解决方法
  5. C语言实现用星号在屏幕上打印菱形
  6. Redis签到功能设计与实现
  7. Linux下的设计模式——委派模式(Delegate Pattern)深入浅出【建议新手收藏】
  8. 对于目前流行的量化投资与smart beta策略的一些看法
  9. 高速列车横向17自由度模型
  10. edgewin10无法安装_如何解决Win10 Edge浏览器无法下载文件?
  11. 对于拉格朗日乘数法的个人理解
  12. JavaScript判断手机号运营商是移动、联通、电信还是其他(代码简单
  13. EasyBCD and UEFI
  14. 重装战姬服务器维护,重装战姬更新维护公告(2020年3月26日)
  15. linux shell ifs,Shell 的 IFS 变量
  16. Software-Defined Networking:A comprehensive Survey
  17. oracle左关联+号表示方式
  18. 嵌入式硬件开发工程师涉及哪些工作内容?
  19. Environment Variables
  20. spring security(三)oauth2

热门文章

  1. Unity无人机仿真github项目
  2. 反向建图拓扑排序习题
  3. 我的第一个开源库-DialogLoading弹出加载框(Kotlin版)
  4. 一路对标顶级产品,奇遇XR为何仍不见起色?
  5. Linux 服务器中 PHP 版本从 5.x 升级到 7.x
  6. 三星电子将在中国建芯片工厂
  7. 人血清白蛋白修饰维生素E(VE) HSA-Tocopherol,人血清白蛋白修饰维生素B3 HSA-Vitamin B3
  8. 西门子S7-1200、1500 PLC远程上下载程序的方法
  9. 【android精品源码系列】安卓音乐播放器
  10. CorelDRAW VBA - 读取和操作部分文本内容 Text.Range