生物学的现代统计方法与应用 第一讲 列联表1:验证Chargaff规则(碱基配对规则)
生物学的现代统计方法与应用 第一讲 列联表1:验证Chargaff规则(碱基配对规则)
- 问题描述:Chargaff规则
- 验证Chargaff规则的统计量
问题描述:Chargaff规则
核苷酸(nucleotide)是核酸的基本组成单位,它以一个含氮碱基为核心,加上一个五碳糖和一个或者多个磷酸基团组成,下面的图是我从维基百科扒来的,感觉非常清晰。含氮碱基有五种,分别是腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)和尿嘧啶(U)。五碳糖为脱氧核糖的称为脱氧核糖核苷酸,是DNA的单体基本组成单位;五碳糖为核糖的称为核糖核苷酸,是RNA的基本组成单位。DNA中可以有的碱基是ATCG,RNA中可以有的碱基是AUCG。
核苷酸分布频率的规则是由Elson与Chargaff在1952年发现的(Elson, D, and E Chargaff. 1952. “On the Desoxyribonucleic Acid Content of Sea Urchin Gametes.” Experientia 8 (4). Springer: 143–45.)。下面是Chargaff的一些实验数据:
## A T C G
## Human-Thymus 30.9 29.4 19.9 19.8
## Mycobac.Tuber 15.1 14.6 34.9 35.4
## Chicken-Eryth. 28.8 29.2 20.5 21.5
## Sheep-liver 29.3 29.3 20.5 20.7
## Sea Urchin 32.8 32.1 17.7 17.3
## Wheat 27.3 27.1 22.7 22.8
## Yeast 31.3 32.9 18.7 17.1
## E.coli 24.7 23.6 26.0 25.7
第一列表示某种生物的某个部位,每一行的四个数字表示这个部位的四种核苷酸的比例,下面是这些数据的柱状图:
Chargaff根据这些实验数据得到了一个结论:A的含量与T相同,C的含量与G相同,这个结论被称为Chargaff规则。这其实就是在高中生物中,我们学过的在DNA的结构中有一个碱基配对原则,因为DNA是双链结构,两条链上的碱基满足配对关系:A与T配对,C与G配对,于是 p A = p T , p C = p G p_A=p_T,p_C=p_G pA=pT,pC=pG。
验证Chargaff规则的统计量
一个值得讨论的问题是 p A = p T , p C = p G p_A=p_T,p_C=p_G pA=pT,pC=pG是否成立,用统计决策的方法建模,我们需要检验:
H 0 : C h a r g a f f 规 则 不 成 立 H a : p A = p T , p C = p G H_0:Chargaff规则不成立\\ H_a:p_A = p_T, p_C = p_G H0:Chargaff规则不成立Ha:pA=pT,pC=pG
我们可以回顾一下我们学过的假设检验工具:
总体 | 检验均值 | 检验比例 |
---|---|---|
单总体 | Z检验、T检验 | proportional z检验 |
两总体 | Z检验、T检验 | proportional z检验 |
多总体 | ANOVA F检验 | 列联表卡方检验 |
根据我们需要做的假设检验,显然这是一个四总体的比例检验问题,因此我们应该用列联表。
如果不了解列联表方法,我们也可以尝试定义一个简单的统计量来验证Chargaff规则。定义 χ 2 = ( p A − p T ) 2 + ( p C − p G ) 2 \chi^2=(p_A-p_T)^2+(p_C-p_G)^2 χ2=(pA−pT)2+(pC−pG)2
直观地理解一下这个统计量,在原假设下,这个统计量等于0,所以统计量的取值越小,我们越能信任原假设。
statChf = function(x){sum((x[, "C"] - x[, "G"])^2 + (x[, "A"] - x[, "T"])^2)
}
chfstat = statChf(ChargaffTable)
permstat = replicate(100000, {permuted = t(apply(ChargaffTable, 1, sample))colnames(permuted) = colnames(ChargaffTable)statChf(permuted)
})
pChf = mean(permstat <= chfstat)
pChf
## [1] 0.00014
说明
前三行定义的函数statChf作用是计算我们定义的统计量 χ 2 \chi^2 χ2,第四行是用这个函数代入Chargaff的实验数据计算统计量 χ 2 \chi^2 χ2的值;
第五到八行通过replicate函数对原数据做bootstrap,并用bootstrap样本计算 χ 2 \chi^2 χ2统计量,得到 χ 2 \chi^2 χ2的一个经验分布。第一个输入100000表示我们想得到100000组bootstrap样本,第二个输入表示我们希望用这些bootstrap样本执行{}中的语句,大概就是对每一行的比例做置换得到新的样本,然后用statChf函数计算 χ 2 \chi^2 χ2统计量。
第九行到第十行是在根据经验分布计算检验的p-值,结果是0.00014,也就是说我们可以显著拒绝原假设,因此Chargaff规则成立。下面的柱状图表示经验分布,红线表示实验数据的 χ 2 \chi^2 χ2统计量。
hist(permstat, breaks = 100, main = "", col = "lavender")
abline(v = chfstat, lwd = 2, col = "red")
生物学的现代统计方法与应用 第一讲 列联表1:验证Chargaff规则(碱基配对规则)相关推荐
- C#:Krypton控件使用方法详解(第一讲) —— kryptonButton
今天介绍的Krypton控件中的kryptonButton,这个控件和VS中带的Button控件还是不一样的,下面介绍这个控件. 这个控件的属性如下图所示: 首先要介绍这个kryptonButton控 ...
- grads 相关系数_气象统计方法实习报告材料
<气象统计方法实习报告材料>由会员分享,可在线阅读,更多相关<气象统计方法实习报告材料(56页珍藏版)>请在人人文库网上搜索. 1.实用标准文档目录实习一求500hPa高度场气 ...
- 常用计量统计方法(偏医学科研)
常用计量统计方法(偏医学科研) 一.医学统计资料分类 1.1 计数资料 定义:计数资料是先将观察单位按某种属性或类别分成若干组,再清点各组观察单位个数所得到的资料. 特质:计数资料每个观察单位之间没有 ...
- 超简单、超实用的统计方法——因子分析
大家好!今天给大家带来一个非常简单.实用的统计方法--因子分析,这个方法适用面非常广,无论商科.工科.理科都能用来研究分析.一起来看看吧! 因子分析目录 第一部分:安装factor_analyzer包 ...
- 机器学习的统计方法 贝叶斯决策理论入门
引言 无论你是在建立机器学习模型还是在日常生活中做决定,我们总是选择风险最小的方案.作为人类,我们天生就采取任何有助于我们生存的行动:然而,机器学习模型最初并不是基于这种理解而建立的.这些算法需要经过 ...
- App渠道推广统计:安卓渠道分析和渠道效果统计方法
随着移动互联网的飞速发展,移动端入口的碎片化时代已经到来,只有掌握用户的内容渠道,就有了移动端入口的能力.APP想要获取用户,就需要借助渠道的力量.下面介绍一些主流的推广渠道和统计方法. 常见的App ...
- 学习pandas全套代码【超详细】数据查看、输入输出、选取、集成、清洗、转换、重塑、数学和统计方法、排序
大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师.欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我的数据分析专栏,里面有许多优质的文章跟大家分享哦. 本篇博客将会给 ...
- 气象统计方法短期气候预测代码汇总
公布这些代码的目的之一肯定是解决大家实习课的困难,二是想让大家看到更简洁易懂的代码. 之前或多或少看过别人写的例如气象统计方法实习or短期气候预测实习的代码,那些代码大多冗余繁杂,不够简洁易懂,里面大 ...
- 气象统计方法期末知识点小结
气象统计方法知识点小结 小知识点 气象统计诊断的基本步骤 资料收集 资料预处理 选取诊断方法 科学综合与诊断分析 气象统计预测的基本步骤 资料收集 选择合适的统计模型 统计检验 预测结论 一些概念 气 ...
最新文章
- 【原创】数据库中时间字段的值读取到DataSet中后,毫秒部分丢失。
- [Visual Studio] 未能完成操作 不支持此接口
- linux共享库及/etc/ld.so.conf文件的应用
- win10右键一直转圈_Win10电脑开机一直转圈无法进入系统的解决方法
- C语言实现用星号在屏幕上打印菱形
- Redis签到功能设计与实现
- Linux下的设计模式——委派模式(Delegate Pattern)深入浅出【建议新手收藏】
- 对于目前流行的量化投资与smart beta策略的一些看法
- 高速列车横向17自由度模型
- edgewin10无法安装_如何解决Win10 Edge浏览器无法下载文件?
- 对于拉格朗日乘数法的个人理解
- JavaScript判断手机号运营商是移动、联通、电信还是其他(代码简单
- EasyBCD and UEFI
- 重装战姬服务器维护,重装战姬更新维护公告(2020年3月26日)
- linux shell ifs,Shell 的 IFS 变量
- Software-Defined Networking:A comprehensive Survey
- oracle左关联+号表示方式
- 嵌入式硬件开发工程师涉及哪些工作内容?
- Environment Variables
- spring security(三)oauth2
热门文章
- Unity无人机仿真github项目
- 反向建图拓扑排序习题
- 我的第一个开源库-DialogLoading弹出加载框(Kotlin版)
- 一路对标顶级产品,奇遇XR为何仍不见起色?
- Linux 服务器中 PHP 版本从 5.x 升级到 7.x
- 三星电子将在中国建芯片工厂
- 人血清白蛋白修饰维生素E(VE) HSA-Tocopherol,人血清白蛋白修饰维生素B3 HSA-Vitamin B3
- 西门子S7-1200、1500 PLC远程上下载程序的方法
- 【android精品源码系列】安卓音乐播放器
- CorelDRAW VBA - 读取和操作部分文本内容 Text.Range