NGS基础---Plink文件格式ped/map和bed/bim/fam
NGS基础---Plink文件格式ped/map和bed/bim/fam
- 1. map/ped文件
- (1)map文件
- (2)ped文件( 文件效率低,不建议下游分析使用)
- 2. Binary文件(prefix.bed 、prefix.bim 、 prefix.fam)
- (1)prefix.fam
- (2)prefix.bim
- (3)prefix.bed
- 3. 文件生成
Plink软件被广泛应用,在遗传学,全基因组关联分析中占据重要位置。通常基因型文件存储为VCF格式、Hapmap格式,Plink软件也有自己的文件格式,下面是学习笔记。
Plink中常用的文件输入是map文件
和ped文件
,这两个文件可以从VCF文件(Plink,VCFtools, tassel)或者Hapmap文件(tassel)转换生成,或者自己写软件完成,有个问题,在VCF转换Hapmap文件时,Hapmap文件Ref allele 和Alt allele的顺序并非VCF中顺序,需要注意。
此外,Plink中也可以将上面的基因型文件转换为二进制格式的bed、bim、fam文件
格式。下面进行几种常用文件的介绍。
1. map/ped文件
map/ped文件在Plink中通常输出的文件存在,tped和tfam为二者的转置文件。
(1)map文件
Map文件(variant information text file)主要记录变异位置信息,由四列构成(map文件没有列名,无Header信息):
## 官网描述
Chromosome code. (PLINK 1.9 and 2.0 also permit contig names here, but most older programs do not.)
Variant ID (SNPs)
Position in centimorgans (optional; safe to use dummy value of '0')
Base-pair coordinate (1-based; limited to 231-2)其实就是:染色体号,标记名,遗传距离cM, 物理位置
Chromosome
Marker ID
Genetic distance
Physical position
遗传距离通常没有,可以使用0代替,也可以使用-9,-9在Plink中代表缺失。例如下面玉米的基因型数据默认生成即为 -9。
## 人类数据
21 rs11511647 0 26765
X rs3883674 0 32380
X rs12218882 0 48172
9 rs10904045 0 48426
9 rs10751931 0 49949
8 rs11252127 0 52087
10 rs12775203 0 52277
8 rs12255619 0 52481## 玉米数据
1 chr1.s_7111 -9 7111
1 chr1.s_7140 -9 7140
1 chr1.s_7141 -9 7141
1 chr1.s_21184 -9 21184
1 chr1.s_21632 -9 21632
1 chr1.s_23154 -9 23154
1 chr1.s_23578 -9 23578
(2)ped文件( 文件效率低,不建议下游分析使用)
Ped文件(Pedigree information + genotype call text file)主要记录系谱和基因型信息。
Ped文件没有表头,每行包含6+2V个数据(空格或tab分割),前6列为系谱信息列,其中2V为基因型列。第7列开始为基因型列。
其中第7列和第8列为第一个材料的基因型,第9列和第10列为第二个材料的基因型,以此类推,因此,V个材料有2V列表示其基因型。
前6列信息如下:
Family ID ('FID')
Individual ID ('IID'; cannot be '0')
Individual ID of father ('0' if father isn't in dataset)
Individual ID of mother ('0' if mother isn't in dataset)
Sex code ('1' = male, '2' = female, '0' = unknown)
Phenotype value ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)
举例:
FAM1 NA06985 0 0 1 1 A T T T G G C C A T T T G G C C
FAM1 NA06991 0 0 1 1 C T T T G G C C C T T T G G C C
0 NA06993 0 0 1 1 C T T T G G C T C T T T G G C T
0 NA06994 0 0 1 1 C T T T G G C C C T T T G G C C
0 NA07000 0 0 2 1 C T T T G G C T C T T T G G C T
0 NA07019 0 0 1 1 C T T T G G C C C T T T G G C C
0 NA07022 0 0 2 1 C T T T G G 0 0 C T T T G G 0 0
0 NA07029 0 0 1 1 C T T T G G C C C T T T G G C C
FAM2 NA07056 0 0 0 2 C T T T A G C T C T T T A G C T
FAM2 NA07345 0 0 1 1 C T T T G G C C C T T T G G C C
2. Binary文件(prefix.bed 、prefix.bim 、 prefix.fam)
为了节省存储和时间,而已使用Plink binary格式数据(3个文件):prefix.bed 、prefix.bim 、 prefix.fam
。
分别介绍三个文件的格式,由此课件bed为binary格式,另外两个仍为文本格式。
生成命令为:
## mydata为map/ped前缀
plink --file mydata --out mydata --make-bed
mydata.bed
mydata.fam
mydata.bim
默认输出的前缀是plink
:
plink.bed ( binary file, genotype information )plink.fam ( first six columns of mydata.ped ) plink.bim ( extended MAP file: two extra cols = allele names)
(1)prefix.fam
prefix.fam文件内容如下:
Family ID ('FID')
Individual ID ('IID'; cannot be '0')
Individual ID of father ('0' if father isn't in dataset)
Individual ID of mother ('0' if mother isn't in dataset)
Sex code ('1' = male, '2' = female, '0' = unknown)
Phenotype value ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)
例子:
-9 MG_1086_X_MG_1542 -9 -9 0 -9
-9 MG_682_X_MG_1542 -9 -9 0 -9
-9 MG_442_X_MG_1542 -9 -9 0 -9
-9 MG_930_X_MG_1542 -9 -9 0 -9
(2)prefix.bim
prefix.bim文件内容如下:
Chromosome
Marker ID
Genetic distance
Physical position
Minor Allele
Major Allele
例子:
1 chr1.s_7111 -9 7111 T C
1 chr1.s_7140 -9 7140 T C
1 chr1.s_7141 -9 7141 T C
1 chr1.s_21184 -9 21184 C A
(3)prefix.bed
二进制文件:
详细基因型编码规则参看:http://www.cog-genomics.org/plink/1.9/formats#bed
3. 文件生成
Hapmap文件转为二进制格式
#!/usr/bin/bash
for i in M1404.hmp
doecho start processing $iecho `date`# convert hmp to plink(map/ped)run_pipeline.pl -Xms51200m -Xmx500600m -fork1 -h $i\-export ${i/.hmp} -exportType Plinkecho ${i/hmp}plkplink --file ${i/hmp}plk --make-bed --out ${i/.hmp} &
done
参考:
https://www.animalgenome.org/bioinfo/resources/manuals/plink_files
https://www.cog-genomics.org/plink/2.0/formats#ped (软件说明)
https://zzz.bwh.harvard.edu/plink/data.shtml#map (软件说明)
https://www.jianshu.com/p/f7bbd57ccafd (plink简单使用)
NGS基础---Plink文件格式ped/map和bed/bim/fam相关推荐
- NGS基础 - GTF/GFF文件格式解读和转换
生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...
- linux基因组文件,科学网-NGS基础 - 参考基因组和基因注释文件-陈同的博文
NGS基础 - 参考基因组和基因注释文件 同步滚动:关 参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参 ...
- NGS基础:测序原始数据下载
生物或医学中涉及高通量测序的论文,一般会将原始测序数据上传到公开的数据库,上传方式见测序文章数据上传找哪里:并在文章末尾标明数据存储位置和登录号,如 The data from this study ...
- 生信小白学习日记Day2-2——NGS基础 NGS分析
2019年5月26日下午,无意中看到hanli0902的关于NGS分析的博文https://blog.csdn.net/hanli1992/article/details/82790386有很多需要学 ...
- 生信小白学习日记Day4Day5——NGS基础 NGS分析注释(BWA软件)
2019年5月30日,晚上,心情变好,好几天没更新了,看到男朋友在学一款软件,我也近朱者赤,来继续注释Day2-2中NGS分析流程中的一个重要软件--BWA NGS基础 NGS分析注释 BWA 对应于 ...
- NGS基础 - 高通量测序原理
NGS基础 - 高通量测序原理 原创: 赑屃 生信宝典 2017-07-23 NGS系列文章包括NGS基础.转录组分析.ChIP-seq分析.DNA甲基化分析.重测序分析五部分内容. NGS基础系列文 ...
- Java基础之Java8中Map的compute的使用
Java基础之Java8中Map的compute的使用 一.介绍 Java8更新后,Map接口中提供了compute方法.下面我们先看看官方文档的对它的使用说明. 如果看完上面的还是不太明白的话,看下 ...
- 生信小白学习日记Day2——NGS基础 illumina高通量测序原理
2019年5月26日,周日,小雨 说明:阅读生信宝典和查阅文章的总结,原文请关注公众号生信宝典,参考的博文都附有链接,仅供参考. 生信宝典 NGS基础--高通量测序原理 本文介绍了测序文库构建原理.链 ...
- 生信小白学习日记Day3——NGS基础 NGS分析注解(质量分析软件)
2019年5月27日,天气舒适,忙碌一天之后开始今天的生信学习.今天就昨天Day2-2的一些标记加以查询说明,仅供参考. NGS基础 NGS分析注解 1. 质量分析软件 昨天提到,拿到数据后可以通过一 ...
最新文章
- 【PAT (Basic Level) 】1015 德才论 (25 分)
- 搜狗分身技术再进化,让AI合成主播“动”起来
- 使用文件给swap增加空间
- 工程化专题之Maven(下)
- mysql 删除线程_mysql删除阻塞线程
- 图像分类数据库_图像分类器-使用僧侣库对房屋房间类型进行分类
- win7电脑浏览器证书过期的解决方法
- Codeforces Round #192 (Div. 1) A. Purification 贪心
- 【Codeforces】894E.Ralph and Mushrooms Tarjan缩点+DP
- 如何验证远程服务器上文件是否存在
- tan和cot的梗_sin对cos说,今晚我们是tan呢?还是cot呢?是什么意思?
- ZZULIOJ 1188: 选票统计(一)(结构体专题)
- Win2003域之组策略应用
- 51驱动AD9850/AD9851—DDS信号发生器
- Java设计模式——状态模式【State Pattern】
- 刷PAT啦1008~1010
- 超详细,Python库 Bokeh 数据可视化实用指南
- Python VTK numpy数据3D可视化
- resilience4j-ratelimiter:限流器
- python渗透编程之道