NGS基础---Plink文件格式ped/map和bed/bim/fam

  • 1. map/ped文件
    • (1)map文件
    • (2)ped文件( 文件效率低,不建议下游分析使用)
  • 2. Binary文件(prefix.bed 、prefix.bim 、 prefix.fam)
    • (1)prefix.fam
    • (2)prefix.bim
    • (3)prefix.bed
  • 3. 文件生成

Plink软件被广泛应用,在遗传学,全基因组关联分析中占据重要位置。通常基因型文件存储为VCF格式、Hapmap格式,Plink软件也有自己的文件格式,下面是学习笔记。

Plink中常用的文件输入是map文件ped文件,这两个文件可以从VCF文件(Plink,VCFtools, tassel)或者Hapmap文件(tassel)转换生成,或者自己写软件完成,有个问题,在VCF转换Hapmap文件时,Hapmap文件Ref allele 和Alt allele的顺序并非VCF中顺序,需要注意。
此外,Plink中也可以将上面的基因型文件转换为二进制格式的bed、bim、fam文件格式。下面进行几种常用文件的介绍。

1. map/ped文件

map/ped文件在Plink中通常输出的文件存在,tped和tfam为二者的转置文件。

(1)map文件

Map文件(variant information text file)主要记录变异位置信息,由四列构成(map文件没有列名,无Header信息):

## 官网描述
Chromosome code. (PLINK 1.9 and 2.0 also permit contig names here, but most older programs do not.)
Variant ID (SNPs)
Position in centimorgans (optional; safe to use dummy value of '0')
Base-pair coordinate (1-based; limited to 231-2)其实就是:染色体号,标记名,遗传距离cM, 物理位置
Chromosome
Marker ID
Genetic distance
Physical position

遗传距离通常没有,可以使用0代替,也可以使用-9,-9在Plink中代表缺失。例如下面玉米的基因型数据默认生成即为 -9。

## 人类数据
21  rs11511647  0   26765
X   rs3883674   0   32380
X   rs12218882  0   48172
9   rs10904045  0   48426
9   rs10751931  0   49949
8   rs11252127  0   52087
10  rs12775203  0   52277
8   rs12255619  0   52481## 玉米数据
1       chr1.s_7111     -9      7111
1       chr1.s_7140     -9      7140
1       chr1.s_7141     -9      7141
1       chr1.s_21184    -9      21184
1       chr1.s_21632    -9      21632
1       chr1.s_23154    -9      23154
1       chr1.s_23578    -9      23578
(2)ped文件( 文件效率低,不建议下游分析使用)

Ped文件(Pedigree information + genotype call text file)主要记录系谱和基因型信息。
Ped文件没有表头,每行包含6+2V个数据(空格或tab分割),前6列为系谱信息列,其中2V为基因型列。第7列开始为基因型列。
其中第7列和第8列为第一个材料的基因型,第9列和第10列为第二个材料的基因型,以此类推,因此,V个材料有2V列表示其基因型。

前6列信息如下:

Family ID ('FID')
Individual ID ('IID'; cannot be '0')
Individual ID of father ('0' if father isn't in dataset)
Individual ID of mother ('0' if mother isn't in dataset)
Sex code ('1' = male, '2' = female, '0' = unknown)
Phenotype value ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)

举例:

FAM1 NA06985 0   0   1   1   A   T   T   T   G   G   C   C   A   T   T   T   G   G   C   C
FAM1    NA06991 0   0   1   1   C   T   T   T   G   G   C   C   C   T   T   T   G   G   C   C
0   NA06993 0   0   1   1   C   T   T   T   G   G   C   T   C   T   T   T   G   G   C   T
0   NA06994 0   0   1   1   C   T   T   T   G   G   C   C   C   T   T   T   G   G   C   C
0   NA07000 0   0   2   1   C   T   T   T   G   G   C   T   C   T   T   T   G   G   C   T
0   NA07019 0   0   1   1   C   T   T   T   G   G   C   C   C   T   T   T   G   G   C   C
0   NA07022 0   0   2   1   C   T   T   T   G   G   0   0   C   T   T   T   G   G   0   0
0   NA07029 0   0   1   1   C   T   T   T   G   G   C   C   C   T   T   T   G   G   C   C
FAM2    NA07056 0   0   0   2   C   T   T   T   A   G   C   T   C   T   T   T   A   G   C   T
FAM2    NA07345 0   0   1   1   C   T   T   T   G   G   C   C   C   T   T   T   G   G   C   C

2. Binary文件(prefix.bed 、prefix.bim 、 prefix.fam)

为了节省存储和时间,而已使用Plink binary格式数据(3个文件):prefix.bed 、prefix.bim 、 prefix.fam
分别介绍三个文件的格式,由此课件bed为binary格式,另外两个仍为文本格式。

生成命令为:

## mydata为map/ped前缀
plink --file mydata --out mydata --make-bed
mydata.bed
mydata.fam
mydata.bim

默认输出的前缀是plink

 plink.bed      ( binary file, genotype information )plink.fam      ( first six columns of mydata.ped ) plink.bim      ( extended MAP file: two extra cols = allele names)
(1)prefix.fam

prefix.fam文件内容如下:

Family ID ('FID')
Individual ID ('IID'; cannot be '0')
Individual ID of father ('0' if father isn't in dataset)
Individual ID of mother ('0' if mother isn't in dataset)
Sex code ('1' = male, '2' = female, '0' = unknown)
Phenotype value ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)

例子:

-9 MG_1086_X_MG_1542 -9 -9 0 -9
-9 MG_682_X_MG_1542 -9 -9 0 -9
-9 MG_442_X_MG_1542 -9 -9 0 -9
-9 MG_930_X_MG_1542 -9 -9 0 -9
(2)prefix.bim

prefix.bim文件内容如下:

Chromosome
Marker ID
Genetic distance
Physical position
Minor Allele
Major Allele

例子:

1       chr1.s_7111     -9      7111    T       C
1       chr1.s_7140     -9      7140    T       C
1       chr1.s_7141     -9      7141    T       C
1       chr1.s_21184    -9      21184   C       A
(3)prefix.bed

二进制文件:

详细基因型编码规则参看:http://www.cog-genomics.org/plink/1.9/formats#bed

3. 文件生成

Hapmap文件转为二进制格式

#!/usr/bin/bash
for i in M1404.hmp
doecho start processing $iecho `date`# convert hmp to plink(map/ped)run_pipeline.pl  -Xms51200m -Xmx500600m -fork1 -h $i\-export  ${i/.hmp} -exportType Plinkecho ${i/hmp}plkplink --file ${i/hmp}plk --make-bed --out ${i/.hmp}  &
done

参考:
https://www.animalgenome.org/bioinfo/resources/manuals/plink_files
https://www.cog-genomics.org/plink/2.0/formats#ped (软件说明)
https://zzz.bwh.harvard.edu/plink/data.shtml#map (软件说明)
https://www.jianshu.com/p/f7bbd57ccafd (plink简单使用)

NGS基础---Plink文件格式ped/map和bed/bim/fam相关推荐

  1. NGS基础 - GTF/GFF文件格式解读和转换

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...

  2. linux基因组文件,科学网-NGS基础 - 参考基因组和基因注释文件-陈同的博文

    NGS基础 - 参考基因组和基因注释文件 同步滚动:关 参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参 ...

  3. NGS基础:测序原始数据下载

    生物或医学中涉及高通量测序的论文,一般会将原始测序数据上传到公开的数据库,上传方式见测序文章数据上传找哪里:并在文章末尾标明数据存储位置和登录号,如 The data from this study ...

  4. 生信小白学习日记Day2-2——NGS基础 NGS分析

    2019年5月26日下午,无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学 ...

  5. 生信小白学习日记Day4Day5——NGS基础 NGS分析注释(BWA软件)

    2019年5月30日,晚上,心情变好,好几天没更新了,看到男朋友在学一款软件,我也近朱者赤,来继续注释Day2-2中NGS分析流程中的一个重要软件--BWA NGS基础 NGS分析注释 BWA 对应于 ...

  6. NGS基础 - 高通量测序原理

    NGS基础 - 高通量测序原理 原创: 赑屃 生信宝典 2017-07-23 NGS系列文章包括NGS基础.转录组分析.ChIP-seq分析.DNA甲基化分析.重测序分析五部分内容. NGS基础系列文 ...

  7. Java基础之Java8中Map的compute的使用

    Java基础之Java8中Map的compute的使用 一.介绍 Java8更新后,Map接口中提供了compute方法.下面我们先看看官方文档的对它的使用说明. 如果看完上面的还是不太明白的话,看下 ...

  8. 生信小白学习日记Day2——NGS基础 illumina高通量测序原理

    2019年5月26日,周日,小雨 说明:阅读生信宝典和查阅文章的总结,原文请关注公众号生信宝典,参考的博文都附有链接,仅供参考. 生信宝典 NGS基础--高通量测序原理 本文介绍了测序文库构建原理.链 ...

  9. 生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)

    2019年5月27日,天气舒适,忙碌一天之后开始今天的生信学习.今天就昨天Day2-2的一些标记加以查询说明,仅供参考. NGS基础 NGS分析注解 1. 质量分析软件 昨天提到,拿到数据后可以通过一 ...

最新文章

  1. 【PAT (Basic Level) 】1015 德才论 (25 分)
  2. 搜狗分身技术再进化,让AI合成主播“动”起来
  3. 使用文件给swap增加空间
  4. 工程化专题之Maven(下)
  5. mysql 删除线程_mysql删除阻塞线程
  6. 图像分类数据库_图像分类器-使用僧侣库对房屋房间类型进行分类
  7. win7电脑浏览器证书过期的解决方法
  8. Codeforces Round #192 (Div. 1) A. Purification 贪心
  9. 【Codeforces】894E.Ralph and Mushrooms Tarjan缩点+DP
  10. 如何验证远程服务器上文件是否存在
  11. tan和cot的梗_sin对cos说,今晚我们是tan呢?还是cot呢?是什么意思?
  12. ZZULIOJ 1188: 选票统计(一)(结构体专题)
  13. Win2003域之组策略应用
  14. 51驱动AD9850/AD9851—DDS信号发生器
  15. Java设计模式——状态模式【State Pattern】
  16. 刷PAT啦1008~1010
  17. 超详细,Python库 Bokeh 数据可视化实用指南
  18. Python VTK numpy数据3D可视化
  19. resilience4j-ratelimiter:限流器
  20. python渗透编程之道

热门文章

  1. 机械专业中计算机的应用情况,CAD技术在机械工程设计中的应用
  2. 大型分布式网站相关概念及优化
  3. 公务员考试(计算机专业知识),公务员考试计算机专业知识
  4. gpcj-07.为什么是连锁零售类公司
  5. Python自动下载论文
  6. c语言连连看算法,C++实现连连看消除算法
  7. 日志门面和日志框架(日志实现框架log4j2)
  8. 开源系统-ERP企业资源管理系统
  9. 群晖安装docker utorrent简明教程-傻子看了都会
  10. java就是这个世界上最牛逼的语音,不接受任何反驳