点击上方关注我们获取更多

背景

三代组装常用的软件有canu、Falon、WGTBG及SmartDenovo等。canu软件的优点是组装的准确度高、连续度表现优秀的概率高,缺点是速度比较慢;而WTDBG软件运行速度快、但是对重复序列比较敏感,对简单基因组组装效果较好,Falon比较合适一定的杂合基因组组装。而最近发布出来的hifiasm,可以在一周内完成超大基因组的组装,极大的降低了整体的分析时间。

加州红杉的相关数据如下:

服务器配置:64核 512Gb RAM

生成HiFi数据:46,000 CUP hours

基因组组装:7,200 CUP hours, 总共分析时间6天

为了进一步的了解这个软件的使用,我们下载了相关ccs的数据进行组装的测试。

01

软件原理

Hifiasm使用的是Pacbio的Hifi序列,基于单倍性的快速组装工具。不同于目前大多数软件,hifiasm在组装中尽可能的保留了多的单体型信息。

对于非trio家系的组装,输入的是hifi的序列(fastq或者fasta格式),而对于trio家系的组装,除了需要hifi序列外,还需要父亲、母亲的index文件(可以使用yak来生成)。

02

软件安装

1# Install hifiasm (requiring g++ and zlib)2git clone https://github.com/chhylp123/hifiasm3cd hifiasm && make4# Assembly5./hifiasm -o NA12878.asm -t 32 NA12878.fq.gz

03

测试数据下载

从GIAB上下载pacbio的数据。GIAB是一个标准品的数据,里面包含了各种测序平台的数据,正好可以拿来作为测试数据。

路径为: ftp://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/NA12878/PacBio_SequelII_CCS_11kb/

由于下载下来的是bam格式,需要转换成fasta格式。

samtools view *.bam | awk '{print ">"$1"\n"$10}' > fasta

04

软件参数说明

 1 ./hifiasm  2Usage: hifiasm [options]   <...> 3Options: 4    -o FILE       prefix of output files [hifiasm.asm] 5    -t INT        number of threads [1] 6    -r INT        round of correction [2] 7    -a INT        round of assembly cleaning [4] 8    -k INT        k-mer length [40] (must be  9    -i            ignore saved overlaps in *.ovlp* files10    -z INT        length of adapters that should be removed [0]11    -m INT        size of popped large bubbles for contig graph [10000000]12    -p INT        size of popped small bubbles for haplotype-resolved unitig graph [100000]13    -n INT        small removed unitig threshold [3]14    -x FLOAT      max overlap drop ratio [0.8]15    -y FLOAT      min overlap drop ratio [0.2]16    -v            show version number17    -h            show help information18Example: ./hifiasm -o NA12878.asm -t 32 NA12878.fq.gz19See `man ./hifiasm.1' for detailed description of these command-line options.

其中常用的为:

-o :输出文件的前缀

-t:线程数

-k:kmer数

-z :adapter的长度

05

软件使用

hifiasm -t 32 -o hifi fasta

-t 线程数目

-o 结果前缀

06

结果说明

prefix.r_utg.gfa (Haplotype-resolved raw unitig【2】 graph in GFA【3】 format):该结果文件保留组装生成的所有单倍型信息包括体细胞突变,测序错误。

prefix.p_utg.gfa (Haplotype-resolved processed unitig graph without small bubbles ):对上面raw unitig 进行过滤,去掉由于体细胞突变和数据背景噪音引起的small bubbles(这个并不是真正的单体型信息),对于高度杂合基因组物种优先选择这个结果。

prefix.p_ctg.gfa (Primary assembly contig【4】 graph):this is the preferred output for inbred strains or human,对于低杂合度物种来说,优先选择该文件;对于高杂合度物种,该结果代表其中一个单倍型。

prefix.a_ctg.gfa (Alternate assembly contig graph):组装出来的另一套单体型基因组结果。

prefix.ec.fa :Haplotype-aware error corrected reads in fasta format

prefix.ovlp.paf :All-to-all overlaps in the PAF【5】 format

07

结果测评

  • 将hifiasm 组装 gfa 结果 转成 fasta

perl hifi2fa.pl ctg/utg.gfa outfile

  • hifiasm 组装结果 fa N50评估

组装结果大小3.2G,和已知人基因组结果一致 N50:19M。

注意事项

  • 投递内存设置 :数据量100G 时建议投递1.5倍大小 100 *1.5= 150G内存。如果遇到内存报错,可按照3倍数据量大小内存设置进行投递。

  • hifiasm 组装:通过比较发现,减小bubbles 的大小,会明显提升组装的速度,组装结果N50会降低。从准确度考虑,建议使用默认参数,增加线程数目。

END

reference

  • https://github.com/chhylp123/hifiasm

  • unitig(http://wgs-assembler.sourceforge.net/wiki/index.php/Celera_Assembler_Terminology)

  • GFA(https://github.com/pmelsted/GFA-spec/blob/master/GFA-spec.md)

  • contig(http://wgs-assembler.sourceforge.net/wiki/index.php/Celera_Assembler_Terminology)

  • PAF(https://github.com/lh3/miniasm/blob/master/PAF.md)

作者:童蒙

编辑:amethyst

◆ ARGO-工作流部署与管理工具◆ 全长转录本的鉴定◆ DNA-RNA互作检测技术◆ORF的前世今生◆植物泛基因组的染色体重排的量化研究

.net 怎么使用github_超快组装软件的使用hifiasm软件相关推荐

  1. 三代测序数据超快组装软件--大牛Li heng 力作

    三代测序数据超快组装软件--大牛Li heng 力作 (2017-06-19 16:53:46) 转载▼   分类: 三代 1:软件链接:https://github.com/lh3/miniasm ...

  2. 抖音推荐超快下载软件IDM

    抖音推荐超快下载软件IDM 绿色版 领福利 版本号:v6.31 下载链接

  3. STAR: ultrafast universal RNA-seq aligner STAR:超快的通用RNA-seq比对器

    STAR:超快的通用RNA-seq比对器 动机:因为不连续的转录本结构,相对短的片段长度,和测序技术持续增加的通量,高通量RNA-seq数据的准确比对是一个有挑战性且仍未解决的问题.当前可用的RNA- ...

  4. 超详细超快的免费图床设置教程

    [已失效:Gitee已禁止用户搭建图床]超详细超快的免费图床教程 新的图床设置方案:https://blog.csdn.net/qq_44430911/article/details/12514235 ...

  5. PWmat案例赏析:利用激光脉冲实现绝缘体-金属超快转变

    标题:Unifying the order and disorder dynamics in photoexcited 文章简介 为了解决二氧化钒中的光致相变的争议,中科院半导体所骆军委研究团队和汪林 ...

  6. STC用PCA测量脉宽_超快激光脉冲测量和诊断使用自相关仪

    近几年,随着激光技术飞速发展,超快激光因具备独特的超短脉冲.超强特性,成为了目前最为先进的激光技术.超快激光器以皮秒.飞秒激器为代表,主要应用于非线性光学.超快动力学.激光光谱.新型显示.生物医疗.3 ...

  7. 程序员必备下载器——IDM,下载速度超快!

    今天呢,给大家推荐一款办公软件,相信大家也都听说过,实在是程序员的必备! 下载神器idm: 关于这个我真的不用多说了,下载速度一般都是8M~12左右,超快方便!最主要是它的页面下载功能,你只需要点击页 ...

  8. 加速Eclipse使其成为超快的IDE

    按照下述步骤来加速Eclipse为超快的IDE,它适用于32和64位版本的Eclipse /JDK(OS为64位Windows 7). 1.禁用防病毒软件,或将JDK.Eclipse.workspac ...

  9. 通过QQ旋风离线下载Android SDK,速度超快

    通过QQ旋风离线下载Android SDK,速度超快 2011年06月16日 在国内通过 Android SDK AND AVD Manager 进行在线安装非常慢,在google中搜了搜,找到了用下 ...

  10. 【直达本质】超快 STM32 系统入门指南

    计算机类的教程多,框架和 API 用法讲的全面,成系统的教程很多,CSDN上.知乎上很多个人学习记录和全面的成书的教程,而且生动形象有甚至有动画讲解,回过头来看嵌入式的教程,又臭又长.本文 Githu ...

最新文章

  1. 因贡献Linux社区被Linus关注,受公司10万期权奖励!酷派重回大众视野...
  2. Asp.Net_Mvc_IgnoreRoute
  3. 杂七杂八(1)——如何查看本机的.NET Framework版本
  4. c++ array 模板类使用
  5. 20150928所学粗略整理
  6. android 解决错误:Intel HAXM is required to run this AVD
  7. ACL 2019 | 图表示解决长文本关系匹配问题:腾讯提出概念交互图算法
  8. Django输入日期返回第几天time
  9. MySQL数据存储目录查找
  10. open函数中O_CLOEXEC标志的开关
  11. 01迷宫(洛谷-P1141)
  12. C#LeetCode刷题之#709-转换成小写字母(To Lower Case)
  13. Python官方文档学习心得(第一章)
  14. JS - 数字金额转换中文汉字金额
  15. 交易系统的高盈亏比怎么实现?
  16. 随机梯度下降法、牛顿法、冲量法、AdaGrad、RMSprop以及Adam优化过程和理解
  17. 修改本地hosts文件,出现不能写只能读权限,近root账户,密码忘记怎么办?
  18. Mac电脑没有声音但是重启后恢复
  19. windows cmd命令配置ip
  20. 大话USB(一)2022-02-09

热门文章

  1. asp.net ajax客户端框架如何调用Page Method
  2. 致25岁一无是处的你
  3. 将ant Design本地化,可通过link以及script直接引入html中使用
  4. Oracle中connect by...start with...的使用
  5. Jquery简单幻灯片
  6. (原文)基于甘特图的深度强化学习方法求解端到端在线重调度
  7. 进化计算-遗传算法之史上最全选择策略
  8. linux下c语言 读取文件
  9. OpenCV学习资源
  10. NSGA2 算法Matlab实现