我们用来练手的文章发表在 Nature Communication ,”High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell”, 非常不要脸的说,这篇文章是我师爷实验室发的。

简单讲讲故事内容,就是他们实验室买了一台nanopore仪器,就是下面这台, 目前仪器价格国内是8K左右,当然测序的价格就另说了。如同买台PS4主机,还要买游戏,买个单反,你还得买镜头。仪器只是败家的开始!

他们认为三代测序目前有两大问题,测的还不够长以及不够准。nanopore解决了其中一个问题,不够长。Arabidopsis thaliana 当年用一代测序,虽然可以认为是组装的金标准了,但是还是有很多区域是BAC连BAC文库搞不定的,所以就用这台仪器把 Arabidopsis thaliana 测了一波。显然就测一个nanopore,还是已知序列的物种是不可能发文章的,于是他们又用Pacbio sequel测了一波。最后用bionano 光学图谱验证了一次(请大家自行计算要多少钱)。

光测序不行,还得组装对吧。传统的组装方法是想办法利用高深度和随机错误进行纠错,然后用纠错后的长序列进行组装,最后用二代进行纠错。对于一台不错的服务器(20W起步吧)大约花个十天半个月就行。作者或许认为买一台20多w的外设配合不到1w的测序仪可能是太蠢了,于是他用了比较Li Heng大神开发的工具,Minimap+miniasm进行组装,然后用racon+pillon进行纠错,用了一台Macbook Pro 15.6寸花了4天就搞定了,并且和常规工具比较,还算过得去哦。

下面就是正式的分析:

根据文章提供的项目编号”PRJEB21270”, 在European Nucleotide Archive上找到下载地址。

进入这个页面之后,就可以去下载作者用到的所有数据,我们下载Sequel和MinIon和Illuminia的数据就好了,数据量加起来差不多30G。

## Sequal
wget -c -q ftp://ftp.sra.ebi.ac.uk/vol1/ERA111/ERA1116568/bam/pb.bam
wget -c -q ftp://ftp.sra.ebi.ac.uk/vol1/ERA111/ERA1116568/bam/pb.bam.bai
## MinION
wget -c -q ftp://ftp.sra.ebi.ac.uk/vol1/ERA111/ERA1116595/fastq/ont.fq.gz
# Illuminia MiSeq
wget -c -q ftp://ftp.sra.ebi.ac.uk/vol1/ERA111/ERA1116569/fastq/il_1.fq.gz
wget -c -q ftp://ftp.sra.ebi.ac.uk/vol1/ERA111/ERA1116569/fastq/il_2.fq.gz

拿到数据之后,我们就可以用作者提供的分析流程进行重复了。地址为https://github.com/fbemm/onefc-oneasm/wiki/Assembly-Generation

这就是大神的自信,把代码都给你,反正你也看不懂。当然我在重复的时候用的都是最新的软件,所以会有所不同

第一步:拿着80%~90%正确率的原始数据相互比对, 找序列之间的Overlap。这一步,我花了30分钟

time ~/opt/biosoft/minimap2/minimap2 -t 10 -x ava-ont ont.fq ont.fq > gzip -1 ont.paf.gz &

第二步:找到Overlap,就能够进行组装了。这一步我花了2分钟

time ~/opt/biosoft/miniasm/miniasm -f ont.fq ont.paf > ONTmin.gfa &
awk '/^S/{print ">"$2"\n"$3}' ONTmin.gfa | seqkit seq > ONTmin_IT0.fasta &

第三步: 原始的组装结果充满了错误,所以需要进行纠错。纠错分为两种,一种是用三代自身数据,一种是用二代数据进行纠错。当然这两步都是需要的

首先使用三代数据进行纠错,古语有云“事不过三”一般迭代个三次就差不多。这三步,差不多用了1个小时。

# Iteration 1
~/opt/biosoft/minimap2/minimap2 ONTmin_IT0.fasta ont.fq > ONTmin_IT0.paf &
time ~/opt/biosoft/racon/build/bin/racon -t 10 ont.fq ONTmin_IT0.paf ONTmin_IT0.fasta > ONTmin_IT1.fasta &
# Iteration 2
~/opt/biosoft/minimap2/minimap2 ONTmin_IT1.fasta ont.fq > ONTmin_IT1.paf
time ~/opt/biosoft/racon/build/bin/racon -t 10 ont.fq ONTmin_IT1.paf ONTmin_IT1.fasta> ONTmin_IT2.fasta
# Iteration 3
~/opt/biosoft/minimap2/minimap2 ONTmin_IT2.fasta ont.fq > ONTmin_IT2.paf
time ~/opt/biosoft/racon/build/bin/racon -t 10 ont.fq ONTmin_IT2.paf ONTmin_IT2.fasta > ONTmin_IT3.fasta

之后使用二代数据进行纠错。二代数据虽然短,但是测序质量高,所以一般都要用它进行纠错。推荐用30X PCR free的illuminia 测序数据。

Step 1: 数据预处理,过滤低质量短读,去接头。工具很多,常用的是trimmomatic,cutadapter. 我安利一个国内海普洛斯搞的一个工具fastp。

# data clean
fastp -q 30 -5 -l 100 -i il_1.fq.gz -I il_2.fq.gz -o i1_clean_1.fq -O i1_clean_2.fq 

这里标准为:平均质量高于Q30,对5‘端进行低质量碱基删除,保留大于100bp的短读

Step2: 比对,这一步基本都只用了bwa了

# align
bwa index ONTmin_IT3.fasta
bwa mem -t 8 ONTmin_IT3.fasta il_clean_1.fastq il_clean_2.fastq | samtools sort -@ 8 > ONTmin_IT3.bam

step3: 使用比对后的BAM文件进行纠错

# short read consensus call
java -Xmx16G -jar pilon-1.22.jar --genome ONTmin_IT3.fasta --frags ONTmin_IT3.bam --fix snps --output ONTmin_IT4

二代纠错的时间明显比之前的久,需要一天时间。

大家拿出自己的笔记本实际感受下呗

参考文献

  • nanopore组装拟南芥: High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell
  • 不纠错组装: Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences
  • 三代组装软件评测: Comprehensive evaluation of non-hybrid genome assembly tools for third-generation PacBio long-read sequence data

使用minimap+miniasm对nanopore进行基因组组装相关推荐

  1. Nanopore测序的基因组组装策略

    最近拿到了nanopore的数据,尝试对其组装.目前用的是Canu,预计2个月内才能走完第一波分析,速度实在感人,所以翻了翻文献,找找组装方法. 目前Nanopore卖点主要是两个角度:第一是Nano ...

  2. 基因组组装---Nanopore数据评估(nanoqc和NanoPlot套件工具)

    基因组组装---Nanopore数据评估(拟南芥nanopore) 1. 下载软件 2. 软件使用 (1)nanoQC (2)NanoPlot 1. 下载软件 使用conda创建环境,下载nanoqc ...

  3. NBT:牛瘤胃微生物组的4941个宏基因组组装基因组(MAG)

    牛瘤胃微生物组的参考基因组集 用于瘤胃微生物组生物学和酶发现的4,941个瘤胃宏基因组组装基因组集 Compendium of 4,941 rumen metagenome-assembled gen ...

  4. Nature方法 | 三代长读长宏基因组组装软件metaFlye

                    简介                  标题:metaFlye:基于重复图的可拓展长序列宏基因组序列组装 metaFlye: scalable long-read me ...

  5. 中国科学家研发新的全基因组组装算法

    重磅!中国科学家研发新的全基因组组装算法 2019-12-10 00:01 北京时间12月10日0时,<自然-方法学>在线发表了第一个能够跟上基因组测序产生速度的组装算法. 这篇论文只有两 ...

  6. The impact of third generation genomic technologies on plant genome assembly 第三代基因组技术对植物基因组组装的影响

    题目:The impact of third generation genomic technologies on plant genome assembly 第三代基因组技术  对植物  基因组组装 ...

  7. 全基因组组装,注释与评估软件

    全基因组组装,注释与评估软件集锦(更新于2020.03.20) 1.Assembly 1.1质体基因组 1.1.1NOVOPlasty program language:Perl Reference: ...

  8. MPB:微生物所蔡磊组-​​基于二代测序的真菌基因组组装和注释

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  9. 使用 wtdbg2进行基因组组装,并使用 minimap2 和 bwa 进行纠错处理

    使用 wtdbg2 进行基因组的组装,软件安装这里就不介绍了,流程都一样.可以用conda安装,也可以自己去下载安装包,源码编译安装,安装完记得添加环境变量. 下面介绍一下 wtdbg2 对三代 基因 ...

最新文章

  1. ashx是什么文件,如何创建[转]
  2. Tesorflow源代码安装方式以及错误的解决方法
  3. 更好的对比样本选择,更好的对比效果
  4. 叶琰:AI压缩技术在追上传统编码技术
  5. windows之DNS7种资源记录和flushdns命令清除DNS缓存以及nslookup解析域名和ipconfig/all命令查看网络配置使用总结
  6. 新闻发布项目——接口类(BaseDao)
  7. linux更改cxxflags环境变量,在64位的ubuntu 14.04 上开展32位Qt 程序开发环境配置(pro文件中增加 QMAKE_CXXFLAGS += -m32 命令)...
  8. python爬虫和八爪鱼哪个快_【后端开发】python爬虫和八爪鱼哪个快
  9. C++再议构造函数及复制构造函数深度复制
  10. mysql的其中连接方式_MySQL选择连接中的位置,但不在其中
  11. web app 自适应方案总结 弹性布局之rem
  12. hdoj 1728 逃离迷宫
  13. php数组如何插入,PHP如何在数组指定位置插入单元
  14. MIDI文件基础及使用Python库mido操作MIDI文件
  15. MVS同时读取多个二维码
  16. 盗火:硅谷、海豹突击队和疯狂科学家如何变革我们的工作和生活
  17. 如何清理微信文件夹占用的巨大空间
  18. 十进制转换为32进制,并反转
  19. select函数的分析
  20. 军品研制过程评审活动-(一)论证阶段

热门文章

  1. linux禁止kdump服务,Centos7 腾讯云禁用kdump节省内存
  2. 使用 Amazon Neptune 通过数据仓库构建知识图谱,借此补充商务智能体系
  3. 腾讯优图厦大等发布:2021十大人工智能趋势
  4. Android IOS WebRTC 音视频开发总结(五一)-- 降噪基本原理
  5. STM32使用keil串口输出中文乱码问题
  6. SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation
  7. 云架构师进阶攻略(完整版)
  8. 关于python中的取反运算符
  9. 让你的Python输出更好看
  10. out of thin air 凭空;无中生有