欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!
基因学苑Q群:32798724
当前做人相关的基因组分析,包括全基因组WGS,全外显子WES以及目标区域测序TRS,基本上都采用GATK标准的Best Practise最佳实践指导。人的基因组分析与其他物种稍微有一些不同,处理下载参考序列,还需要下载已有信息,例如各种人类基因组计划累积的变异信息,这些信息可以用于先验的学习集,提高变异检测的准确性。因此,如果想使用GATK软件,首先就需要下载GATK使用的数据集。

基因组版本选择
由于人的染色体存在多个数据中心,并且有多次更新,因此,当前有多个命名以及多个版本,搞不清这些版本和命名,有时候会产生很严重的后果。因为不同的命名之间序列的ID不同,比如1号染色体,有些是chr1,有些直接就是数字1,不同版本之间存在坐标这件的不同,因为很多注释数据库对染色体有版本要求,不同版本之间需要坐标转换之后才能使用。

UCSC命名最简单,就是hg加数字,比如hg18,hg19和hg38这些版本比较常用;
NCBI的命名更复杂一些,是GRCH开头,然后数字,36,37,38等。
而ENSEMBL命名就更复杂了,只给出版本比如52,59,61,80,81,82等。
这三种命名方式有一个对应关系。如图所示。

hg18 = GRCh36 = ENSEMBL release_52

hg19 = GRCh37 = ENSEMBL release_59/61/64/68/69/75

hg38 = GRCh38 = ENSEMBL release_76/77/78/80/81/82
这里面使用最多的就是hg19和hg38的版本,不同版本基因组之间主要有哪些差别呢,理论上来说越大版本基因组,序列的准确性越高。但是这里面有一个坐标位置的问题。就是我们无法保证坐标完全一致,基因组上坐标修改一个位置,与之相关联的所有内容要发生变化,例如这个坐标已经与dbSNP的rs号相对应了,这也就是为什么虽然现在已经有了hg38,但是hg19这个版本使用依然非常广泛,就是因为大量的注释信息都是基于hg19的版本来做的,如果要切换到hg38,所有的内容都需要改,工作量很大。此外,同一个版本还有很多子版本,例如37.1,37.2,37.3等。这种版本主要是基因组注释信息在更新,基因组序列没有发生变化。

GATK bundle
GATK在官网提供了一个resource bundle,里面包含了所需要的很多数据,如果使用gatk软件,最好把这些数据下载下来。

这些数据提供 FTP 和 Google Cloud bucket两种下载方式。但是因为你知道的原因,我们使用不了google,所以只能使用ftp的方式来进行下载。

https://software.broadinstitute.org/gatk/
https://software.broadinstitute.org/gatk/download/bundle
lftp数据下载
GATK官网推荐使用lftp工具进行访问ftp和下载数据,如果服务器中没有lftp命令,可以提前下载安装,最好使用管理员安装。

yum -y install lftp #Redhat 系列
apt -y install ftp #Debian系列
接下来直接在命令行中通过命令访问ftp服务器进行下载。这些数据都放置在broad的服务器上,没有镜像站点,离我们很远,并且网站限制并发链接,也就是如果全球有多人同时下载,你可能访问不上去。
首先lftp,后面跟用户名,然后at符号,ftp服务器地址。

lftp ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/
这里密码是空的,我们直接敲回车即可。

这样就访问就来了。接下来可以使用cd ls等命令来查看数据。里面包含很多数据目录,你可以选择不同版本的人基因组数据,cd到b37的目录看一下。里面包含了非常多的内容,包括各种数据库,千人基因组的snp和indel文件,dbsnp,瓶中基因组计划的结果。外显子联盟的,Mills_and_1000G_gold_standard.indels,这个是比较准确的人indel数据,这些都可以用在gatk vqsr的机器学习中。此外还包括人基因组序列,各种建好的索引文件等。

1000G_omni2.5.b37.vcf.gz
1000G_omni2.5.b37.vcf.gz.md5
1000G_omni2.5.b37.vcf.idx.gz
1000G_omni2.5.b37.vcf.idx.gz.md5
1000G_phase1.indels.b37.vcf.gz
1000G_phase1.indels.b37.vcf.gz.md5
1000G_phase1.indels.b37.vcf.idx.gz
1000G_phase1.indels.b37.vcf.idx.gz.md5
1000G_phase1.snps.high_confidence.b37.vcf.gz
1000G_phase1.snps.high_confidence.b37.vcf.gz.md5
1000G_phase1.snps.high_confidence.b37.vcf.idx.gz
1000G_phase1.snps.high_confidence.b37.vcf.idx.gz.md5
1000G_phase3_v4_20130502.sites.vcf.gz
1000G_phase3_v4_20130502.sites.vcf.gz.tbi
Broad.human.exome.b37.interval_list.gz
Broad.human.exome.b37.interval_list.gz.md5
CEUTrio.HiSeq.WGS.b37.NA12878.bam
CEUTrio.HiSeq.WGS.b37.NA12878.bam.bai.gz
CEUTrio.HiSeq.WGS.b37.NA12878.bam.bai.gz.md5
CEUTrio.HiSeq.WGS.b37.NA12878.bam.md5
CEUTrio.HiSeq.WGS.b37.NA12878.vcf.gz
CEUTrio.HiSeq.WGS.b37.NA12878.vcf.gz.md5
CEUTrio.HiSeq.WGS.b37.NA12878.vcf.idx.gz
CEUTrio.HiSeq.WGS.b37.NA12878.vcf.idx.gz.md5
CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.gz
CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.gz.md5
CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.idx.gz
CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.idx.gz.md5
Mills_and_1000G_gold_standard.indels.b37.vcf.gz
Mills_and_1000G_gold_standard.indels.b37.vcf.gz.md5
Mills_and_1000G_gold_standard.indels.b37.vcf.idx.gz
Mills_and_1000G_gold_standard.indels.b37.vcf.idx.gz.md5
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.gz
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.gz.md5
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.idx.gz
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.idx.gz.md5
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.gz
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.gz.md5
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.idx.gz
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.idx.gz.md5
NA12878.knowledgebase.snapshot.20131119.b37.vcf.gz
NA12878.knowledgebase.snapshot.20131119.b37.vcf.gz.md5
NA12878.knowledgebase.snapshot.20131119.b37.vcf.idx.gz
NA12878.knowledgebase.snapshot.20131119.b37.vcf.idx.gz.md5
dbsnp_138.b37.excluding_sites_after_129.vcf.gz
dbsnp_138.b37.excluding_sites_after_129.vcf.gz.md5
dbsnp_138.b37.excluding_sites_after_129.vcf.idx.gz
dbsnp_138.b37.excluding_sites_after_129.vcf.idx.gz.md5
dbsnp_138.b37.vcf.gz
dbsnp_138.b37.vcf.gz.md5
dbsnp_138.b37.vcf.idx.gz
dbsnp_138.b37.vcf.idx.gz.md5
hapmap_3.3.b37.vcf.gz
hapmap_3.3.b37.vcf.gz.md5
hapmap_3.3.b37.vcf.idx.gz
hapmap_3.3.b37.vcf.idx.gz.md5
hapmap_3.3_b37_pop_stratified_af.vcf.gz
hapmap_3.3_b37_pop_stratified_af.vcf.gz.tbi
human_g1k_v37.dict.gz
human_g1k_v37.dict.gz.md5
human_g1k_v37.fasta.fai.gz
human_g1k_v37.fasta.fai.gz.md5
human_g1k_v37.fasta.gz
human_g1k_v37.fasta.gz.md5
human_g1k_v37_decoy.dict.gz
human_g1k_v37_decoy.dict.gz.md5
human_g1k_v37_decoy.fasta.fai.gz
human_g1k_v37_decoy.fasta.fai.gz.md5
human_g1k_v37_decoy.fasta.gz
human_g1k_v37_decoy.fasta.gz.md5
直接使用get命令,接要下载的文件,就可以下载数据了。
也可以使用mget命令,添加通配符,下载同一类型的文件。
这里面我们要下载整个目录数据。可以使用mirror命令。

返回上层目录,直接mirror b37,就可以下载全部数据了。

mirror b37
因为数据比较多,也比较大,下载还是需要很长时间的。
Tips:一般发现下载国外数据,选择白天下载速度较快,可能由于时差的原因,西方人正在睡觉吧,我猜的,没验证过。
这里我们将GATK的hg19,hg38以及b37的数据已经保存在百度网盘,微信后台回复“gatk”即可得到下载链接。

---------- END ----------

如何下载生物数据(三):GATK数据下载相关推荐

  1. python数据预处理—数据清洗、数据集成、数据变换、数据归约

    进行数据分析时,需要预先把进入模型算法的数据进行数据预处理.一般我们接收到的数据很多都是"脏数据",里面可能包含缺失值.异常值.重复值等:同时有效标签或者特征需要进一步筛选,得到有 ...

  2. 4、MySQL——向数据表中插入数据,修改数据表中的数据,数据表删除操作

    目录 一.数据表插入操作:INSERT 1. 给表中的所有字段插入数据 2.给表中的个别字段插入数据 3.向数据表中批量插入多条数据 二.数据表修改操作:UPDATE 1.修改所有字段的数据 2.修改 ...

  3. vue数据模板文件的下载三种方法

    用vue2针对后台返回数据的不同提供的下载模板文件三种办法(针对Excel) 一.当后台返回的数据是文件流时,以下代码可实现直接下载文件到本地 let ele = document.createEle ...

  4. MODIS数据的简介和下载(三)——MODIS数据下载方式(基于MODIS Web Service)

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/ESA_DSQ/article/details/70176214 这是MODIS数据的简介和下载的最后 ...

  5. 如何下载生物数据(四):SRA数据下载

    欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘! 基因学苑Q群:32798724 应用场景: 如果自己没有测序数据,比如Pacbio数据,nanopore数据等,想要测试一些软件,或者想重复文章的内 ...

  6. 从NCBI refseq 中下载特定物种的蛋白质数据

    前言 今天又和NCBI数据库干上了.由于NCBI奇奇怪怪的格式,导致我们下载特定物种(某个科.某个属)比较麻烦,手动一条条下载肯定是不现实的,而对于部分很少涉及干实验的生物研究人员来讲写代码也不容易. ...

  7. 用python批量下载modis数据的速度怎么样_MODIS数据的简介和下载(五)——应用密钥的Python脚本下载...

    接上文,由于NASA官方弃用了FTP改用HTTPS服务,所以关于MODIS数据的下载方式有所改变.完整系列博客可以参照以下链接.本篇主要接着上一篇没有讲完的应用密钥的脚本下载介绍. 1 官方教程与说明 ...

  8. Sentinel-2 哨兵二号数据(Level-1C)下载及预处理教程

    目录 1 哨兵数据的下载 1.1 欧空局官网下载 1.2 USGS网址下载 2 哨兵处理软件下载-链接已更新 2.1 下载Sen2cor软件 2.2 下载SNAP软件 3 哨兵数据产品介绍 3.1 产 ...

  9. 银行数据管理办法【附下载】

    清明小长假第二天,昨天单位加班,今天有时间和大家分享的这篇文章<银行数据管理办法>.是以DCMM评估体系8大领域为基础,对数据全生命周期制定的管理办法,本文可作为数据管理总纲参考,希望对大 ...

最新文章

  1. PHP中$_SERVER的详细参数与说明
  2. 携手Visa IBM Watson IoT加速互联设备转化为潜在销售点
  3. linux sed命令替换目标字符串所在行整行为给定值
  4. Django框架(12.Django中模型类高阶查询(Q对象以及F对象 和聚合函数查询))
  5. VTK:轮廓 Glow Pass用法实战
  6. Django(part48)--用户认证系统
  7. x-shell 通过堡垒机连接 ssh多个机器 自动化脚本
  8. Spring-AbstractRefreshableApplicationContext
  9. 编写安全的代码-程序员头顶的达摩克利斯之剑
  10. 学习过程,简单记录,不求详尽,看懂就行,格式随意,高效学习
  11. 最适合Java初学者练手的项目【JavaSE项目-图书管理系统】
  12. 项目答辩演讲稿(详细原文)
  13. 微信支付委托代扣的服务商模式和直连模式
  14. 中睿天下入选《2022年中国网络安全市场全景图》
  15. .NET Framework各个版本(1.0 - 2.0)
  16. iOS Xcode中UIButton文字换行
  17. 力扣每日一题(九——保持城市天际线)
  18. java在线答题系统,上岸蚂蚁金服!
  19. android 高德地图移动卡顿_高德地图4.8和百度地图3.1的抉择,如何发送地址到车机(下载失效本帖奉上百度云盘)...
  20. 图纸设计管理平台,彩虹图纸管理软件设计管理功能

热门文章

  1. js实现五星评分的效果
  2. 2022 | Sample Efficiency Matters: A Benchmark for Practical Molecular Optimization
  3. windows读取android手机内容,Win10 PC到Android手机共享内容的技巧
  4. iOS 静态库制作,Framework制作,Bundle制作
  5. 解密OEM Bios导出给Windows的接口----导出OEM内部使用的WMI接口
  6. Submitted credentials for token did not match the expected c
  7. 中国移动云电脑重磅发布,又一场革命到来!
  8. OpenCV AR之二维码叠加视频
  9. Git 本地分支与远程分支关联(git branch --set-upstream-to=origin/<branch> lcn )
  10. matlab实现悬臂梁非线性动力学分析