亲缘关系分析实操

前期准备

给标记加上ID

SNP data通常都是以VCF格式文件呈现,拿到VCF文件的第一件事情就是添加各个SNP位点的ID。

先看一下最开始生成的VCF文件:

原始VCF文件

可以看到,ID列都是".",需要我们自己加上去。我用的是某不知名大神写好的perl脚本,可以去我的github上下载,用法:

perl path2file/VCF_add_id.pl YourDataName.vcf YourDataName-id.vcf`

当然也可以用excel手工添加。添加后的文件如下图所示(格式:CHROMID__POS):

添加ID后VCF文件

SNP位点过滤(Missing rate and maf filtering)

SNP位点过滤前需要问自己一个问题,我的数据需要过滤吗?

一般要看后期是否做关联分析(GWAS);如果只是单纯研究群体结构建议不过滤,因为过滤掉低频位点可能会改变某些样本之间的关系;如果需要和表型联系其来做关联分析,那么建议过滤,因为在后期分析中低频位点是不在考虑范围内的,需要保持前后一致。

如果过滤,此处用到强大的plink软件,用法:

plink --vcf YourDataName-id.vcf --maf 0.05 --geno 0.2 --recode vcf-iid -out YourDataName-id-maf0.05 --allow-extra-chr

参数解释:--maf 0.05:过滤掉次等位基因频率低于0.05的位点;--geno 0.2:过滤掉有2%的样品缺失的SNP位点;--allow-extra-chr:我的参考数据是Contig级别的,个数比常见分析所用的染色体多太多,所以需要加上此参数。

格式转换

将vcf文件转换为bed格式文件。

这里注意一点!!!!:应该是软件的问题,需要把染色体/contig名称变成连续的数字(1 to n),不然会报错无法算出结果!(坑)

plink --vcf YourDataName-id-maf0.05.vcf --make-bed --out snp --chr-set 29 no-xy

参数解释:--chr-set 给出染色体/contig的数目;no-xy 没有xy染色体。

用gcta做亲缘关系分析

gcta输出grm阵列(genetic relationship matrix)

gcta64 --make-grm-gz --out snp.gcta --bfile snp --autosome-num 29

参数解释:--autosome-num常染色体数目。

snp.gcta结果文件:

snp.gcta结果文件

解读:第一,第二列为样品编号;第三列为两样品间有多少个有效位点;第四列为两样品间的亲缘关系的值。

将上述阵列转化为矩阵形式

snp.gcta结果文件列举了两个样品间的关系,我们需要把它变成常见的矩阵形式,这里用R可以轻松完成,写好的R包我放在了Github中:GRM2normal_format.R,大家自行下载使用。

如果不想下载,可以复制如下代码:

library(reshape2)

tmp

ids

tmp

result_matrix

makeSymm

m[upper.tri(m)]

return(m)

}

result_full

result_df

row.names(result_df)

colnames(result_df)

write.table(result_df, file = "ldak.weight.kinship.txt", row.names = T, col.names = NA, sep = "\t", quote = F)

需要用到上诉步骤生成的2个结果文件:snp.gcta.grm.gz和snp.gcta.grm.id。

转换后的结果文件:

gcta.kinship.txt

解读:第一列和第一行都是对应的样品名称。

用LDAK做亲缘关系分析

相比gcta,能用LD对结果进行校正,具体来说,就是先用LD计算每个SNP位点的权重,根据权重再计算Kinship,这样的结果更接近真实情况。

LDAK输出grm阵列(genetic relationship matrix)

在不考虑权重的情况下,方法如下:

ldak5.linux --calc-kins-direct snp.ldak --bfile snp --ignore-weights YES --kinship-gz YES --power -0.25

用LD计算每个SNP位点的权重,根据权重再计算Kinship

#切割

ldak5.linux --cut-weights snp.sections --bfile snp

#查看有多少个section

cat snp.sections/section.number

#根据自己的section个数分别计算权重(我这里是31个)

for section in {1..31}; do ldak5.linux --calc-weights snp.sections --bfile snp --section $section; done

#weight文件整合,给SNP赋权重值

ldak5.linux --join-weights snp.sections --bfile snp

#输出grm阵列

ldak5.linux --calc-kins-direct snp.ldak.weight --bfile snp --weights snp.sections/weights.all --kinship-gz YES --power -0.25

结果文件和gcta类似,包含两个文件:snp.ldak.weight.grm.gz和snp.ldak.weight.grm.id,用上述同一个R包,同样的方法转化为矩阵形式。

同样的,如果不想下载,直接复制如下代码:

library(reshape2)

tmp

ids

tmp

result_matrix

makeSymm

m[upper.tri(m)]

return(m)

}

result_full

result_df

row.names(result_df)

colnames(result_df)

write.table(result_df, file = "ldak.weight.kinship.txt", row.names = T, col.names = NA, sep = "\t", quote = F)

数据可视化

用R画热图即可,各种热图的画法,我另外找个时间再详细说明,先直接分享一下我作图的代码:

library(pheatmap)

kinship

colnames(kinship)

diag(kinship)

hist_data

pheatmap(kinship, fontsize_row = 0.3, fontsize_col = 0.3)

color = colorRampPalette(c("white", "red","red4"),bias=0.5)(500)

#调整cell大小

par(mar=c(10,10,10,10))

pheatmap(kinship,color=color,border_color = F,fontsize_row = 0.3, fontsize_col = 0.3,cellwidth = 2,cellheight = 2)

#调整聚类树高度

pheatmap(kinship,color=color,border_color = F,fontsize_row = 0.3, fontsize_col = 0.3,cellwidth = 2,cellheight = 2,treeheight_col= 40,treeheight_row = 40)

亲缘关系 linux,群体遗传学亲缘关系分析相关推荐

  1. linux系统 gwas分析,GWAS真的只有关联分析这么简单?

    原标题:GWAS真的只有关联分析这么简单? 近年来,全基因组关联分析(Genome wide associationstudy,GWAS)在筛查和鉴定动植物重要经济性状的主效基因方面得到了广泛应用.G ...

  2. Linux内存技术分析(下)

    Linux内存技术分析(下) 五. 内存使用场景 out of memory 的时代过去了吗?no,内存再充足也不可任性使用. 1.内存的使用场景 · page管理 · slab(kmalloc.内存 ...

  3. Linux内存技术分析(上)

    Linux内存技术分析(上) 一.Linux存储器 限于存储介质的存取速率和成本,现代计算机的存储结构呈现为金字塔型.越往塔顶,存取效率越高.但成本也越高,所以容量也就越小.得益于程序访问的局部性原理 ...

  4. linux串口驱动分析

    linux串口驱动分析 硬件资源及描写叙述 s3c2440A 通用异步接收器和发送器(UART)提供了三个独立的异步串行 I/O(SIO)port,每一个port都能够在中断模式或 DMA 模式下操作 ...

  5. Linux cgroup机制分析之cpuset subsystem

    ------------------------------------------ 本文系本站原创,欢迎转载! 转载请注明出处:http://ericxiao.cublog.cn/ -------- ...

  6. Linux系统IO分析工具之iotop常用参数介绍

      Linux系统IO分析工具之iotop常用参数介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在一般运维工作中经常会遇到这么一个场景,服务器的IO负载很高(iostat中的 ...

  7. 转]Window, Linux动态链接库的分析对比

    转]Window, Linux动态链接库的分析对比 摘 要:动态链接库技术实现和设计程序常用的技术,在Windows和Linux系统中都有动态库的概念,采用动态库可以有效的减少程序大小,节省空间,提高 ...

  8. linux内核源代码分析----内核基础设施之klist

    概述 klist是list的线程安全版本,他提供了整个链表的自旋锁,查找链表节点,对链表节点的插入和删除操作都要获得这个自旋锁.klist的节点数据结构是klist_node,klist_node引入 ...

  9. 业界重磅新书《UNIX/Linux网络日志分析与流量监控》首发

    <UNIX/Linux网络日志分析与流量监控> 出版社官网: http://www.cmpbook.com/stackroom.php?id=39384 每本图书附赠51CTO学院的价值1 ...

最新文章

  1. 【资源分享】639页《深度学习:Deep Learning》硬核课程PPT
  2. ViewPage 一次滑动多页
  3. 20180716:开博宣言
  4. 为什么说在KMP算法中文本串中的每个字符都是需要进行比较操作的?
  5. CSS3运算 calc()函数是怎么实现计算
  6. JAVA——RSA加密与解密
  7. linux 7修改yum源,CentOS 7修改yum源为阿里源
  8. 沉浸式ui设计_有助于沉浸的视频游戏UI —武器轮
  9. 选择、插入、冒泡排序
  10. 北林oj-算法设计与分析-A dice game(思路+代码)
  11. win10 mbr下装linux,(MBR模式)Win10下安装Ubuntu18.04双系统
  12. Visual Studio 编写纯C语言程序
  13. 每期一词:catastrophe
  14. 【Unity3D日常开发】Unity3D中数字网格类游戏Demo实现
  15. 今天是冰桶算法大揭秘!!
  16. SpringCloudAlibaba之Nacos
  17. 为什么选择嵌入式方向
  18. 打造完美写作系统:Gitbook+Github Pages+Github Actions
  19. 刷步数作弊成了朋友圈必备技能
  20. 电话用户部分(TUP)

热门文章

  1. 逍遥公式验证公式软件_软件质量公式
  2. 手游工作室怎么防封?
  3. 您的 CAD 软件中有什么?
  4. 13届蓝桥杯B组-修建灌木
  5. 阵列卡u盘安装系统步骤_如何为U盘装系统添加RAID卡的驱动
  6. 记北京7月21日大雨日
  7. 如何进行网页背景音乐的设置
  8. 零跑推出全新系列车型,助推零跑汽车股价发展
  9. Android6.0电池图标外显示电量百分比
  10. Python 对象编程