欢迎关注”生信修炼手册”!

GCTA全称如下

Genome-wide Complex Trait Analysis

是一款针对复杂性状的SNP分型数据进行分析的软件,开发的初衷是用于评估表型变异中遗传变异所占的比例,即评估遗传力的大小, 后来逐渐扩展到更多的功能,官网如下

https://cnsgenomics.com/software/gcta

本文主要介绍使用该软件分析样本间亲缘关系的方法。GWAS分析要求样本间是相互独立的,所以在质控阶段,会根据样本间的亲缘关系,剔除亲缘关系较近的样本。样本的亲缘关系有多种定义和求解方式, 其中通过plink计算IBD距离是最经典的一种,而在GCTA中,则采用了另外一套思路。

GCTA中定义的样本亲缘关系计算公式如下

A表示样本jk之间的亲缘关系,N表示SNP位点总数,i表示某个SNP位点,xij表示样本j中SNP位点i的分型结果,用0,1,2表示,代表ref allele的个数, 假设位点突变情况为A突变到G, 则AA对应2,AG对应1,GG对应0,xik同理,表示样本k中SNP位点i的分型结果;pi表示ref allele在所有样本中的频率。

不同的取值表示不同的亲缘关系

  • 1 for MZ twins / duplicated samples

  • 0.5 for 1st degree relatives (e.g. full-sibs or parent-offspring)

  • 0.25 for 2nd degree relatives (e.g. grandparent-grandchild)

  • 0.125 for 3rd degree relatives (e.g. cousins)

对于两两样本间的亲缘关系,可以用一个矩阵表示,即genetic relationship matrix, 简称GRM。使用GCTA计算GRM的代码如下

gcta64 --bfile test --autosome --make-grm --out test

输入数据为plink二进制格式的文件,--autosome表示只使用常染色体上的SNP位点,--make-grm表示计算GRM矩阵,--out指定输出结果前缀。该方法输出的结果为二进制格式,更适合用于下游分析。如果想查看样本间对应的亲缘关系,可以用以下方式

gcta64 --bfile test --autosome --make-grm-gz  --out test

此时样本间亲缘关系会输出在一个压缩文件中,其内容示意如下

前两列表示样本的编号,第三列表示两个样本中都分型成功的SNP位点个数,第四列表示两个样本间的亲缘关系值。其排列方式示意如下

GRM矩阵是一个方阵,是对称矩阵,所以用下三角矩阵表示。对应到上述文件中,从第一行开始记录对应的值。样本编号对应的样本名可以在后缀为id的文件中找到,其内容示意如下

第一列为family id, 第二列为individual Id,  样本所在的行数就是对应的编号。计算出样本间的亲缘关系之后,我们可以绘制如下所示的密度分布图,来查看其分布

针对亲缘关系大的情况, 我们进行过滤,比如设定阈值为0.125,  亲缘关系大于该阈值的样本间就需要剔除其中一个样本。GCTA采用迭代的方式进行剔除,保证剩余样本的个数最大化。代码如下

gcta64 --grm test --grm-cutoff 0.025 --make-grm --out test_rm025

可以看到GRM矩阵是GCTA数据分析的核心,后续的分析都需要依赖这个矩阵,所以删除样本也是在针对GRM矩阵进行操作,删除对应样本后,生成一个新的矩阵。

质控之后,就可以进行下游分析了,具体的用法在后续文章中再详细介绍。

·end·

—如果喜欢,快分享给你的朋友们吧—

往期精彩

  • 自己动手进行逻辑回归,你也可以!

  • GWAS大家都知道,Gene-Based GWAS你了解吗?

  • 3步搞定GWAS中的Gene Set Analysis

  • 你听说过Epistasis吗?

  • GWAS中的Gene-Gene Interactions如何分析?看这里

  • 终于搞清楚了Lasso回归和Ridge回归的区别

  • odd ratio置信区间的计算,你学会了吗?

  • 多元回归分析存在多重共线性了怎么办?

  • 基因型与表型的交互作用如何分析,多元回归来搞定

  • 曼哈顿图就够了吗?你还需要LocusZoom

  • GWAS做完了,下一步做什么?

GWAS meta分析

  • GWAS样本量不够怎么办,meta分析了解一下

  • 你没看错,搞定GWAS meta分析只需一行代码!

  • meta分析的森林图不会画?看这里

  • GWAMA:GWAS meta-analysis的又一利器

  • 点击鼠标即可完成GWAS meta分析,任何人都可以!

  • 用R进行gwas meta分析,原来如此简单

基因型填充

  • GWAS中的genotype imputation简介

  • 基因型填充中的phasing究竟是什么

  • 基因型填充前的质控条件简介

  • 使用shapeit进行单倍型分析

  • gtool:操作genotype data的利器

  • 使用IMPUTE2进行基因型填充

  • 使用Beagle进行基因型填充

  • 使用Minimac进行基因型填充

  • 使用Eagle2进行单倍型分析

  • X染色体的基因型填充

  • 文献解读|不同基因型填充软件性能的比较

  • Haplotype Reference Consortium:最大规模的单倍型数据库

  • Michigan Imputation Server:基因型填充的在线工具

CNV分析

  • aCGH芯片简介

  • aCGH芯片分析简介

  • 基于SNP芯片进行CNV分析中的基本知识点

  • PennCNV:利用SNP芯片检测CNV

  • DGV:人类基因组结构变异数据库

  • dbvar:染色体结构变异数据库

  • DGVa:染色体结构变异数据库

  • CNVD:疾病相关的CNV数据库

  • DECIPHER:疾病相关的CNV数据库

  • 全基因组数据CNV分析简介

  • 使用CNVnator进行CNV检测

  • 使用lumpy进行CNV检测

  • CNVnator原理简介

  • WES的CNV分析简介

  • XHMM分析原理简介

  • 使用conifer进行WES的CNV分析

  • 使用EXCAVATOR2检测WES的CNV

  • 靶向测序的CNV分析简介

  • 使用CNVkit进行CNV分析

  • DECoN:最高分辨率的CNV检测工具

TCGA

  • TCGA数据库简介

  • 使用GDC在线查看TCGA数据

  • 使用gdc-client批量下载TCGA数据

  • 一文搞懂TCGA中的分析结果如何来

  • 通过GDC Legacy Archive下载TCGA原始数据

  • 使用GDC API查看和下载TCGA的数据

  • 使用GDC下载TCGA肿瘤患者的临床信息

  • 使用TCGAbiolinks下载TCGA的数据

  • 使用TCGAbiolinks进行生存分析

  • 使用TCGAbiolinks分析TCGA中的表达谱数据

  • 使用TCGAbiolinks进行甲基化和转录组数据的联合分析

  • Broad GDAC:TCGA数据分析中心

  • 使用cBioPortal查看TCGA肿瘤数据

  • UCSC  Xena:癌症基因组学数据分析平台

  • GEPIA:TCGA和GTEx表达谱数据分析平台

  • TANRIC:肿瘤相关lncRNA数据库

  • SurvNet:基于网络的肿瘤biomarker基因查找算法

  • TCPA:肿瘤RPPA蛋白芯片数据中心

  • TCGA Copy Number Portal:肿瘤拷贝数变异数据中心

生存分析

  • 生存分析详细解读

  • 用R语言进行KM生存分析

  • 使用OncoLnc进行TCGA生存分析

  • 用R语言进行Cox回归生存分析

  • 使用kmplot在线进行生存分析

肿瘤数据库

  • ICGC:国际肿瘤基因组协会简介

  • HPA:人类蛋白图谱数据库

  • Oncomine:肿瘤芯片数据库

  • ONGene:基于文献检索的肿瘤基因数据库

  • oncomirdb:肿瘤相关的miRNA数据库

  • TSGene:肿瘤抑癌基因数据库

  • NCG:肿瘤驱动基因数据库

  • mutagene:肿瘤突变频谱数据库

  • CCLE:肿瘤细胞系百科全书

  • mSignatureDB:肿瘤突变特征数据库

  • GTEx:基因型和基因表达量关联数据库

肿瘤免疫和新抗原

  • Cancer-Immunity Cycle:肿瘤免疫循环简介

  • TMB:肿瘤突变负荷简介

  • 肿瘤微环境:Tumor microenvironment (TME)简介

  • 肿瘤浸润免疫细胞量化分析简介

  • 使用EPIC预测肿瘤微环境中免疫细胞构成

  • TIMER:肿瘤浸润免疫细胞分析的综合网站

  • quanTIseq:肿瘤浸润免疫细胞定量分析

  • The Cancer Immunome Atlas:肿瘤免疫图谱数据库

  • 肿瘤新抗原简介

  • TSNAdb:肿瘤新抗原数据库

  • 使用NetMHCpan进行肿瘤新抗原预测分析

Hi-C数据分析

  • chromosome-territories:染色质疆域简介

  • chromosome conformation capture:染色质构象捕获技术

  • 3C的衍生技术简介

  • 解密Hi-C数据分析中的分辨率

  • A/B compartment:染色质区室简介

  • TAD:拓扑关联结构域简介

  • chromatin loops:染色质环简介

  • Promoter Capture Hi-C:研究启动子区染色质互作的利器

  • 使用HiCUP进行Hi-C数据预处理

  • Juicer:Hi-C数据处理分析的利器

  • Juicer软件的安装详解

  • Juicebox:Hi-C数据可视化利器

  • Juicer实战详解

  • HiC-Pro:灵活的Hi-C数据处理软件

  • HiC-Pro实战详解

  • 3D Genome Browser:Hi-C数据可视化工具

  • HiCPlotter:Hi-C数据可视化工具

  • 3CDB:基于3C技术的染色质互作信息数据库

  • 3DIV:染色质空间互作数据库

  • 4DGenome:染色质相互作用数据库

  • 4D nucleome project:染色质三维结构研究必不可少的参考项目

  • 3dsnp:SNP在染色质环介导的调控网络中的分布数据库

  • iRegNet3D:疾病相关SNP位点在三维调控网络中的作用

  • 使用WashU Epigenome Browser可视化hi-c数据

  • HiGlass:高度定制的Hi-C数据可视化应用

  • Hi-C Data Browser:Hi-C数据浏览器

  • 使用FitHiC评估染色质交互作用的显著性

  • 使用TADbit识别拓扑关联结构域

  • 使用pyGenomeTracks可视化hi-c数据

  • hi-c辅助基因组组装简介

  • 文献解读|使用hi-C数据辅助埃及伊蚊基因组的组装

chip_seq数据分析

  • Chip-seq简介

  • chip_seq质量评估之计算样本间的相关性

  • chip_seq质量评估之查看抗体富集效果

  • chip_seq质量评估之PCA分析

  • chip_seq质量评估之coverage分析

  • chip_seq质量评估之FRiP Score

  • chip_seq质量评估之cross correlation

  • chip_seq质量评估之文库复杂度

  • depth, bedgraph, bigwig之间的联系与区别

  • bigwig归一化方式详解

  • 使用igvtools可视化测序深度分布

  • 使用UCSC基因组浏览器可视化测序深度分布数据

  • 使用deeptools查看reads分布特征

  • 使用phantompeakqualtools进行cross correlation分析

  • blacklist regions:NGS测序数据中的黑名单

  • MACS:使用最广泛的peak calling软件之一

  • MACS2 peak calling实战

  • 使用SICER进行peak calling

  • 使用HOMER进行peak calling

  • peak注释信息揭秘

  • PAVIS:对peak区域进行基因注释的在线工具

  • 使用UPORA对peak进行注释

  • 使用GREAT对peak进行功能注释

  • annoPeakR:一个peak注释的在线工具

  • 使用ChIPpeakAnno进行peak注释

  • 使用ChIPseeker进行peak注释

  • 使用PeakAnalyzer进行peak注释

  • 使用homer进行peak注释

  • 利用bedtools预测chip_seq数据的靶基因

motif

  • 关于motif你需要知道的事

  • 详解motif的PFM矩阵

  • 详解motif的PWM矩阵

  • 使用WebLogo可视化motif

  • 使用seqLogo可视化motif

  • 使用ggseqlogo可视化motif

  • MEME:motif分析的综合性工具

  • 使用MEME挖掘序列中的de novo motif

  • 使用DREME挖掘序列中的de novo motif

  • 使用MEME-ChIP挖掘序列中的de novo motif

chip_seq数据库

  • ENCODE project项目简介

  • FactorBook:人和小鼠转录因子chip_seq数据库

  • ReMap:人类Chip-seq数据大全

  • IHEC:国际人类表观基因组学联盟

  • Epifactors:表观因子数据库

  • GTRD:最全面的人和小鼠转录因子chip_seq数据库

  • ChIP-Atlas:基于公共chip_seq数据进行分析挖掘

  • Cistrome DB:人和小鼠的chip_seq数据库

  • chipBase:转录因子调控网络数据

  • unibind:human转录因子结合位点数据库

  • chip_seq在增强子研究中的应用

  • DENdb:human增强子数据库

  • VISTA:人和小鼠的增强子数据库

  • EnhancerAtlas:人和小鼠的增强子数据库

  • FANTOM5:人类增强子数据库

  • TiED:人类组织特异性增强子数据库

  • HEDD:增强子疾病相关数据库

  • HACER:human增强子数据库

  • SEdb:超级增强子数据库简介

  • dbSUPER:人和小鼠中的超级增强子数据库

  • dbCoRC:核心转录因子数据库

  • 使用ROSE鉴定超级增强子

18年文章目录

  • 2018年推文合集

扫描下方二维码,关注我们,解锁更多精彩内容!

生物信息入门

只差这一个

公众号

衡量样本亲缘关系,除了IBD你还知道哪些方法?相关推荐

  1. python统计单词平均长度_统计学的Python实现-014:几何平均数(衡量样本集中趋势)...

    统计学解释 几何平均数:几何平均数(geometric mean)是衡量样本集中趋势的统计量,其值为该组数据所有n个变量值的乘积的n次方根.其计算公式如下: 在一些情况下,我们还会使用加权几何平均数, ...

  2. XE3随笔6:SuperObject 的 JSON 对象中还可以包含 方法

    SuperObject 的 JSON 对象中还可以包含 "方法", 这太有意思了; 其方法的格式是: procedure Method(const This, Params: IS ...

  3. 【ajax】readyState=4并且status=200时,还进error方法

    转载自  [ajax]readyState=4并且status=200时,还进error方法 今天在使用jquery.ajax方法去调用后台方法时,ajax中得参数data类型是"JSON& ...

  4. Win11的两个实用技巧系列之设置系统还原点的方法、安全启动状态开启方法

    Win11如何设置系统还原点?Win11设置系统还原点的方法 很多用户下载安装win11后应该如何创建还原点呢?现在我通过这篇文章给大家介绍一下 Win11如何设置系统还原点?在Windows系统中有 ...

  5. Win11的两个实用技巧系列清理磁盘碎片、设置系统还原点的方法

    Win11如何清理磁盘碎片?Win11清理磁盘碎片的方法 磁盘碎片过多,会影响电脑的运行速度,所以需要定期清理,这篇文章将以Win11为例,给大家分享的整理磁盘碎片方法 相信很多用户都会发现,随着电脑 ...

  6. win10还原点怎么设置,win10还原点设置方法

    win10还原点怎么设置,win10还原点设置方法 https://jingyan.baidu.com/article/0964eca2a263788285f536e3.html?qq-pf-to=p ...

  7. 老板让我用少量样本 finetune 模型,我还有救吗?急急急,在线等!

    文 | ???????????????? 编 | 王苏 今天介绍的是一篇 NAACL'21 新鲜出炉的工作!NAACL 上周四出的结果,这篇工作本周一上传 arxiv,周二被王苏小哥哥发现,周三拜读了 ...

  8. 样本间的距离或者相似度度量方法

    距离度量 距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大. 一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则: 1) d(x,x) = 0  ...

  9. Tomcat关闭后,重新启动,session中保存的对象为什么还存在解决方法

    Tomcat关闭后,重新启动,session中保存的对象为什么还存在 各们朋友大家好: 当我关闭Tomcat,重新启动后,session中保存的对象还依然存在,仍然可以使用,不知这是什么原因? 谢谢! ...

最新文章

  1. dubbo consumer 端口_初识Dubbo
  2. 存储过程中执行DDL
  3. TypeScript 定义函数的几种写法
  4. php教程哪个软件好,写php用哪款软件好?解决方法
  5. CIKONSS-纯CSS实现的响应式Icon
  6. php本地文件包含漏洞,php文件包含漏洞利用小结
  7. (035) Linux之其他命令
  8. linux中node跨服务执行文件,linux部署node.js服务并启动服务
  9. checked exception和runtime exception and error
  10. 三电平igbt死区时间计算_IGBT的三电平控制原理
  11. 【转】翟永超大牛的 博客,SpringBoot SpringCloud应有尽有,转发请备注
  12. 管家婆财贸双全ⅡTOP 期间202012的损益类科目本币(外币或者数量)余额不为零,不能年结存。
  13. 安卓真机如何连接本地服务器_Android真机连接本地服务器安装部署方法
  14. 微信小程序--优购商城项目(6)
  15. 32位oracle10,Oracle10g32位升级到64位方法
  16. 主程的晋升攻略(2):技术篇概要
  17. Not All Points Are Equal: Learning Highly Efficient Point-based Detectors for 3D LiDAR Point Clouds
  18. 这个落泪的男人叫王坚
  19. [DBNETLIB][ConnectionOpen (Connect()).]SQL Server 不存在或拒绝访问
  20. 疑似流氓软件? 价值4000万的过滤软件绿坝分析报告

热门文章

  1. fhb网友“做一个健康的程序员”读感
  2. 深爬知乎100K高赞问答,我汇总了 30 个领域最圣经级的书籍!
  3. vue-awesome-swiper插件
  4. android wifi驱动流程,高通Android wifi驱动移植-SDIO
  5. AppLocale使用后安装程序乱码问题的解决
  6. 钱多、事少但没进步,这工作有干下去的价值吗?
  7. 设计数据密集型应用——事务(7)
  8. 奇思幻想-广告过滤器
  9. 科学计算机 次方用法,2020年中级经济师考试专用计算器使用技巧
  10. python 可以做网站吗_关于python做网站好用吗的阿里云论坛用户知识和技术交流...