衡量样本亲缘关系,除了IBD你还知道哪些方法?
欢迎关注”生信修炼手册”!
GCTA全称如下
Genome-wide Complex Trait Analysis
是一款针对复杂性状的SNP分型数据进行分析的软件,开发的初衷是用于评估表型变异中遗传变异所占的比例,即评估遗传力的大小, 后来逐渐扩展到更多的功能,官网如下
https://cnsgenomics.com/software/gcta
本文主要介绍使用该软件分析样本间亲缘关系的方法。GWAS分析要求样本间是相互独立的,所以在质控阶段,会根据样本间的亲缘关系,剔除亲缘关系较近的样本。样本的亲缘关系有多种定义和求解方式, 其中通过plink计算IBD距离是最经典的一种,而在GCTA中,则采用了另外一套思路。
GCTA中定义的样本亲缘关系计算公式如下
A表示样本j
和k
之间的亲缘关系,N
表示SNP位点总数,i
表示某个SNP位点,xij
表示样本j
中SNP位点i
的分型结果,用0,1,2表示,代表ref allele的个数, 假设位点突变情况为A
突变到G
, 则AA
对应2,AG
对应1,GG
对应0,xik
同理,表示样本k
中SNP位点i
的分型结果;pi
表示ref allele在所有样本中的频率。
不同的取值表示不同的亲缘关系
1 for MZ twins / duplicated samples
0.5 for 1st degree relatives (e.g. full-sibs or parent-offspring)
0.25 for 2nd degree relatives (e.g. grandparent-grandchild)
0.125 for 3rd degree relatives (e.g. cousins)
对于两两样本间的亲缘关系,可以用一个矩阵表示,即genetic relationship matrix, 简称GRM。使用GCTA计算GRM的代码如下
gcta64 --bfile test --autosome --make-grm --out test
输入数据为plink二进制格式的文件,--autosome
表示只使用常染色体上的SNP位点,--make-grm
表示计算GRM矩阵,--out
指定输出结果前缀。该方法输出的结果为二进制格式,更适合用于下游分析。如果想查看样本间对应的亲缘关系,可以用以下方式
gcta64 --bfile test --autosome --make-grm-gz --out test
此时样本间亲缘关系会输出在一个压缩文件中,其内容示意如下
前两列表示样本的编号,第三列表示两个样本中都分型成功的SNP位点个数,第四列表示两个样本间的亲缘关系值。其排列方式示意如下
GRM矩阵是一个方阵,是对称矩阵,所以用下三角矩阵表示。对应到上述文件中,从第一行开始记录对应的值。样本编号对应的样本名可以在后缀为id
的文件中找到,其内容示意如下
第一列为family id, 第二列为individual Id, 样本所在的行数就是对应的编号。计算出样本间的亲缘关系之后,我们可以绘制如下所示的密度分布图,来查看其分布
针对亲缘关系大的情况, 我们进行过滤,比如设定阈值为0.125, 亲缘关系大于该阈值的样本间就需要剔除其中一个样本。GCTA采用迭代的方式进行剔除,保证剩余样本的个数最大化。代码如下
gcta64 --grm test --grm-cutoff 0.025 --make-grm --out test_rm025
可以看到GRM矩阵是GCTA数据分析的核心,后续的分析都需要依赖这个矩阵,所以删除样本也是在针对GRM矩阵进行操作,删除对应样本后,生成一个新的矩阵。
质控之后,就可以进行下游分析了,具体的用法在后续文章中再详细介绍。
·end·
—如果喜欢,快分享给你的朋友们吧—
往期精彩
自己动手进行逻辑回归,你也可以!
GWAS大家都知道,Gene-Based GWAS你了解吗?
3步搞定GWAS中的Gene Set Analysis
你听说过Epistasis吗?
GWAS中的Gene-Gene Interactions如何分析?看这里
终于搞清楚了Lasso回归和Ridge回归的区别
odd ratio置信区间的计算,你学会了吗?
多元回归分析存在多重共线性了怎么办?
基因型与表型的交互作用如何分析,多元回归来搞定
曼哈顿图就够了吗?你还需要LocusZoom
GWAS做完了,下一步做什么?
GWAS meta分析
GWAS样本量不够怎么办,meta分析了解一下
你没看错,搞定GWAS meta分析只需一行代码!
meta分析的森林图不会画?看这里
GWAMA:GWAS meta-analysis的又一利器
点击鼠标即可完成GWAS meta分析,任何人都可以!
用R进行gwas meta分析,原来如此简单
基因型填充
GWAS中的genotype imputation简介
基因型填充中的phasing究竟是什么
基因型填充前的质控条件简介
使用shapeit进行单倍型分析
gtool:操作genotype data的利器
使用IMPUTE2进行基因型填充
使用Beagle进行基因型填充
使用Minimac进行基因型填充
使用Eagle2进行单倍型分析
X染色体的基因型填充
文献解读|不同基因型填充软件性能的比较
Haplotype Reference Consortium:最大规模的单倍型数据库
Michigan Imputation Server:基因型填充的在线工具
CNV分析
aCGH芯片简介
aCGH芯片分析简介
基于SNP芯片进行CNV分析中的基本知识点
PennCNV:利用SNP芯片检测CNV
DGV:人类基因组结构变异数据库
dbvar:染色体结构变异数据库
DGVa:染色体结构变异数据库
CNVD:疾病相关的CNV数据库
DECIPHER:疾病相关的CNV数据库
全基因组数据CNV分析简介
使用CNVnator进行CNV检测
使用lumpy进行CNV检测
CNVnator原理简介
WES的CNV分析简介
XHMM分析原理简介
使用conifer进行WES的CNV分析
使用EXCAVATOR2检测WES的CNV
靶向测序的CNV分析简介
使用CNVkit进行CNV分析
DECoN:最高分辨率的CNV检测工具
TCGA
TCGA数据库简介
使用GDC在线查看TCGA数据
使用gdc-client批量下载TCGA数据
一文搞懂TCGA中的分析结果如何来
通过GDC Legacy Archive下载TCGA原始数据
使用GDC API查看和下载TCGA的数据
使用GDC下载TCGA肿瘤患者的临床信息
使用TCGAbiolinks下载TCGA的数据
使用TCGAbiolinks进行生存分析
使用TCGAbiolinks分析TCGA中的表达谱数据
使用TCGAbiolinks进行甲基化和转录组数据的联合分析
Broad GDAC:TCGA数据分析中心
使用cBioPortal查看TCGA肿瘤数据
UCSC Xena:癌症基因组学数据分析平台
GEPIA:TCGA和GTEx表达谱数据分析平台
TANRIC:肿瘤相关lncRNA数据库
SurvNet:基于网络的肿瘤biomarker基因查找算法
TCPA:肿瘤RPPA蛋白芯片数据中心
TCGA Copy Number Portal:肿瘤拷贝数变异数据中心
生存分析
生存分析详细解读
用R语言进行KM生存分析
使用OncoLnc进行TCGA生存分析
用R语言进行Cox回归生存分析
使用kmplot在线进行生存分析
肿瘤数据库
ICGC:国际肿瘤基因组协会简介
HPA:人类蛋白图谱数据库
Oncomine:肿瘤芯片数据库
ONGene:基于文献检索的肿瘤基因数据库
oncomirdb:肿瘤相关的miRNA数据库
TSGene:肿瘤抑癌基因数据库
NCG:肿瘤驱动基因数据库
mutagene:肿瘤突变频谱数据库
CCLE:肿瘤细胞系百科全书
mSignatureDB:肿瘤突变特征数据库
GTEx:基因型和基因表达量关联数据库
肿瘤免疫和新抗原
Cancer-Immunity Cycle:肿瘤免疫循环简介
TMB:肿瘤突变负荷简介
肿瘤微环境:Tumor microenvironment (TME)简介
肿瘤浸润免疫细胞量化分析简介
使用EPIC预测肿瘤微环境中免疫细胞构成
TIMER:肿瘤浸润免疫细胞分析的综合网站
quanTIseq:肿瘤浸润免疫细胞定量分析
The Cancer Immunome Atlas:肿瘤免疫图谱数据库
肿瘤新抗原简介
TSNAdb:肿瘤新抗原数据库
使用NetMHCpan进行肿瘤新抗原预测分析
Hi-C数据分析
chromosome-territories:染色质疆域简介
chromosome conformation capture:染色质构象捕获技术
3C的衍生技术简介
解密Hi-C数据分析中的分辨率
A/B compartment:染色质区室简介
TAD:拓扑关联结构域简介
chromatin loops:染色质环简介
Promoter Capture Hi-C:研究启动子区染色质互作的利器
使用HiCUP进行Hi-C数据预处理
Juicer:Hi-C数据处理分析的利器
Juicer软件的安装详解
Juicebox:Hi-C数据可视化利器
Juicer实战详解
HiC-Pro:灵活的Hi-C数据处理软件
HiC-Pro实战详解
3D Genome Browser:Hi-C数据可视化工具
HiCPlotter:Hi-C数据可视化工具
3CDB:基于3C技术的染色质互作信息数据库
3DIV:染色质空间互作数据库
4DGenome:染色质相互作用数据库
4D nucleome project:染色质三维结构研究必不可少的参考项目
3dsnp:SNP在染色质环介导的调控网络中的分布数据库
iRegNet3D:疾病相关SNP位点在三维调控网络中的作用
使用WashU Epigenome Browser可视化hi-c数据
HiGlass:高度定制的Hi-C数据可视化应用
Hi-C Data Browser:Hi-C数据浏览器
使用FitHiC评估染色质交互作用的显著性
使用TADbit识别拓扑关联结构域
使用pyGenomeTracks可视化hi-c数据
hi-c辅助基因组组装简介
文献解读|使用hi-C数据辅助埃及伊蚊基因组的组装
chip_seq数据分析
Chip-seq简介
chip_seq质量评估之计算样本间的相关性
chip_seq质量评估之查看抗体富集效果
chip_seq质量评估之PCA分析
chip_seq质量评估之coverage分析
chip_seq质量评估之FRiP Score
chip_seq质量评估之cross correlation
chip_seq质量评估之文库复杂度
depth, bedgraph, bigwig之间的联系与区别
bigwig归一化方式详解
使用igvtools可视化测序深度分布
使用UCSC基因组浏览器可视化测序深度分布数据
使用deeptools查看reads分布特征
使用phantompeakqualtools进行cross correlation分析
blacklist regions:NGS测序数据中的黑名单
MACS:使用最广泛的peak calling软件之一
MACS2 peak calling实战
使用SICER进行peak calling
使用HOMER进行peak calling
peak注释信息揭秘
PAVIS:对peak区域进行基因注释的在线工具
使用UPORA对peak进行注释
使用GREAT对peak进行功能注释
annoPeakR:一个peak注释的在线工具
使用ChIPpeakAnno进行peak注释
使用ChIPseeker进行peak注释
使用PeakAnalyzer进行peak注释
使用homer进行peak注释
利用bedtools预测chip_seq数据的靶基因
motif
关于motif你需要知道的事
详解motif的PFM矩阵
详解motif的PWM矩阵
使用WebLogo可视化motif
使用seqLogo可视化motif
使用ggseqlogo可视化motif
MEME:motif分析的综合性工具
使用MEME挖掘序列中的de novo motif
使用DREME挖掘序列中的de novo motif
使用MEME-ChIP挖掘序列中的de novo motif
chip_seq数据库
ENCODE project项目简介
FactorBook:人和小鼠转录因子chip_seq数据库
ReMap:人类Chip-seq数据大全
IHEC:国际人类表观基因组学联盟
Epifactors:表观因子数据库
GTRD:最全面的人和小鼠转录因子chip_seq数据库
ChIP-Atlas:基于公共chip_seq数据进行分析挖掘
Cistrome DB:人和小鼠的chip_seq数据库
chipBase:转录因子调控网络数据
unibind:human转录因子结合位点数据库
chip_seq在增强子研究中的应用
DENdb:human增强子数据库
VISTA:人和小鼠的增强子数据库
EnhancerAtlas:人和小鼠的增强子数据库
FANTOM5:人类增强子数据库
TiED:人类组织特异性增强子数据库
HEDD:增强子疾病相关数据库
HACER:human增强子数据库
SEdb:超级增强子数据库简介
dbSUPER:人和小鼠中的超级增强子数据库
dbCoRC:核心转录因子数据库
使用ROSE鉴定超级增强子
18年文章目录
2018年推文合集
扫描下方二维码,关注我们,解锁更多精彩内容!
生物信息入门
只差这一个
公众号
衡量样本亲缘关系,除了IBD你还知道哪些方法?相关推荐
- python统计单词平均长度_统计学的Python实现-014:几何平均数(衡量样本集中趋势)...
统计学解释 几何平均数:几何平均数(geometric mean)是衡量样本集中趋势的统计量,其值为该组数据所有n个变量值的乘积的n次方根.其计算公式如下: 在一些情况下,我们还会使用加权几何平均数, ...
- XE3随笔6:SuperObject 的 JSON 对象中还可以包含 方法
SuperObject 的 JSON 对象中还可以包含 "方法", 这太有意思了; 其方法的格式是: procedure Method(const This, Params: IS ...
- 【ajax】readyState=4并且status=200时,还进error方法
转载自 [ajax]readyState=4并且status=200时,还进error方法 今天在使用jquery.ajax方法去调用后台方法时,ajax中得参数data类型是"JSON& ...
- Win11的两个实用技巧系列之设置系统还原点的方法、安全启动状态开启方法
Win11如何设置系统还原点?Win11设置系统还原点的方法 很多用户下载安装win11后应该如何创建还原点呢?现在我通过这篇文章给大家介绍一下 Win11如何设置系统还原点?在Windows系统中有 ...
- Win11的两个实用技巧系列清理磁盘碎片、设置系统还原点的方法
Win11如何清理磁盘碎片?Win11清理磁盘碎片的方法 磁盘碎片过多,会影响电脑的运行速度,所以需要定期清理,这篇文章将以Win11为例,给大家分享的整理磁盘碎片方法 相信很多用户都会发现,随着电脑 ...
- win10还原点怎么设置,win10还原点设置方法
win10还原点怎么设置,win10还原点设置方法 https://jingyan.baidu.com/article/0964eca2a263788285f536e3.html?qq-pf-to=p ...
- 老板让我用少量样本 finetune 模型,我还有救吗?急急急,在线等!
文 | ???????????????? 编 | 王苏 今天介绍的是一篇 NAACL'21 新鲜出炉的工作!NAACL 上周四出的结果,这篇工作本周一上传 arxiv,周二被王苏小哥哥发现,周三拜读了 ...
- 样本间的距离或者相似度度量方法
距离度量 距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大. 一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则: 1) d(x,x) = 0 ...
- Tomcat关闭后,重新启动,session中保存的对象为什么还存在解决方法
Tomcat关闭后,重新启动,session中保存的对象为什么还存在 各们朋友大家好: 当我关闭Tomcat,重新启动后,session中保存的对象还依然存在,仍然可以使用,不知这是什么原因? 谢谢! ...
最新文章
- dubbo consumer 端口_初识Dubbo
- 存储过程中执行DDL
- TypeScript 定义函数的几种写法
- php教程哪个软件好,写php用哪款软件好?解决方法
- CIKONSS-纯CSS实现的响应式Icon
- php本地文件包含漏洞,php文件包含漏洞利用小结
- (035) Linux之其他命令
- linux中node跨服务执行文件,linux部署node.js服务并启动服务
- checked exception和runtime exception and error
- 三电平igbt死区时间计算_IGBT的三电平控制原理
- 【转】翟永超大牛的 博客,SpringBoot SpringCloud应有尽有,转发请备注
- 管家婆财贸双全ⅡTOP 期间202012的损益类科目本币(外币或者数量)余额不为零,不能年结存。
- 安卓真机如何连接本地服务器_Android真机连接本地服务器安装部署方法
- 微信小程序--优购商城项目(6)
- 32位oracle10,Oracle10g32位升级到64位方法
- 主程的晋升攻略(2):技术篇概要
- Not All Points Are Equal: Learning Highly Efficient Point-based Detectors for 3D LiDAR Point Clouds
- 这个落泪的男人叫王坚
- [DBNETLIB][ConnectionOpen (Connect()).]SQL Server 不存在或拒绝访问
- 疑似流氓软件? 价值4000万的过滤软件绿坝分析报告
热门文章
- fhb网友“做一个健康的程序员”读感
- 深爬知乎100K高赞问答,我汇总了 30 个领域最圣经级的书籍!
- vue-awesome-swiper插件
- android wifi驱动流程,高通Android wifi驱动移植-SDIO
- AppLocale使用后安装程序乱码问题的解决
- 钱多、事少但没进步,这工作有干下去的价值吗?
- 设计数据密集型应用——事务(7)
- 奇思幻想-广告过滤器
- 科学计算机 次方用法,2020年中级经济师考试专用计算器使用技巧
- python 可以做网站吗_关于python做网站好用吗的阿里云论坛用户知识和技术交流...