MECAT：PC组装人的基因组

MECAT 测序技术组装简史

今天给大家推荐一款牛叉的三代组装软件，号称资源浪费少，绿色又环保，而且在个人笔记本上毫无压力的软件——MECAT。

看到这个题目，大多数人的反应，肯定是小编忘吃药了。no no no 小编今天很正常，利用个人PC来组装人的基因组绝对不是痴人说梦。

首先，小编先给大家介绍一些关于组装的历史。大家肯定也知道，这个组装技术的发展是依赖于测序技术的。首先在一代测序的时候，测序数据量较少，成本较高，人们对于组装的结果预期也比较低，弄到contig水平就可以啦，还有就是这个组装的物种基因组都偏小。因此那个时候的组装软件都是基于overlap的。然后呢，二代测序技术来了，数据量超高，成本也便宜啦。科研工作者就想啊，现在都二代了，这个组装的预期得提高啊，得与时俱进啊。但是基于overlap的组装不了太长，而且超级慢，又加之，二代数据量太多，overlap扛不住啊。因此有人就开发出了基于图论的组装算法。然后呢，三代测序技术这两年出来了，科学家一看，我x，这么长的read，那还搞毛图论的算法，直接简单粗暴点，用overlap多简单，于是基于overlap的软件又火啦。

说到这，刚进入问题，简单粗暴的overlap难道就一统天下了吗？难道所谓的优化算法，就真的没有未来了吗？

当然

不是。

今天给大家推荐一款牛叉的三代组装软件，号称资源浪费少，绿色又环保，而且在个人笔记本上毫无压力的软件——MECAT。

赶紧膜拜，预发表文章：

MECAT: an ultra-fast mapping, error correction and de novo assembly tool for single-molecule sequencing reads（肖传乐）

接下来，小编跟大家简单的墨迹下这个文章中的内容。大家简单了解下。

这个三代测序啊，有一个问题，就是错误率有点高，15%。也就是说这个数据啊，不能直接用来组装，你得纠错，怎么纠错呢。做过纯三代组装的人，都知道。是用三代自身去纠最长的read。问题来了，这里如果用测得全部的reads都跟最长的read去比，这一步超级耗时。

这一步，怎么办啊。

有没有相应的算法可以优化下。

如果你能提出这样的问题，小编恭喜你，你这个小伙子还是很有前途的。

肖老师就是构建了一套打分矩阵，使得这里不需要全部都比一次，从而缩短了时间。

当然肖老师，是个工作狂，一看搞下去有前途，还返场优化了下其他部分。

现在比较常用的三代数据组装软件有Canu、Falcon和HGAP等，这些软件在组装之前都是通过两两比对确定overlap，之后再纠错的。这一步时间超级长，举例，PBcR-MHAP软件平均有84%的时间浪费在纠错部分。这一步不仅仅耗时，而且超级占用资源。这里是婶婶也不能忍受的地方。

这个软件牛叉在它的优化算法，算法示意图如下：

A Reads被分成多个Block；

B. 对所选Kmer pair相互打分；

C. 选取最高得分作为种子；

D. 将种子区域与其他区域进行比较；

E. 最终确定reads关系。

之后选取4个模式生物数据（E coli, Yeast, A.Thaliana and D. Melanogaster）进行测试得到两个结果：a）reads越长相对应得分越高；b）这种打分模式会快节省2～3倍的时间。

接下来利用真实数据，与其他方法进行对比，结果敏感性和准确性进一步说明MECAT在比对、纠错和组装的综合水平均要优于其他方法。如下面的两个表说明消耗资源、时间、准确行一结合，MECAT软件效果是最好的。

乡亲们，注意哈，MECAT比对，是用的4 Gb不到的内存哦。

貌似哥的手机也可以跑一套~~笑哭。

看完这个表，想起京东来了

多快好省

MECAT：PC组装人的基因组相关推荐

一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)
一种PacBio测序数据组装得到的基因组序列的纠错方法技术技术编号:17008244阅读:83留言:0更新日期:2018-01-11 04:20 本发明专利技术提供一种PacBio测序数据组装后序列 ...
Pacbio 纯三代组装复活草基因组
对于植物等真核生物基因组来说,重复序列, 多倍体,高杂合度等特征在利用二代数据进行组装的时候都会有很大的问题: 利用二代数据组装出来的基因组,大多达不到完成图的水准,通常只是覆盖到编码蛋白的基因区域, ...
一种PacBio测序数据组装得到的基因组序列的纠错方法
技术领域本发明涉及生物信息技术领域,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法. 背景技术 PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的 ...
一般计算机电源都在多少压力,PC组装问题。 HD6770的一般功耗是多少？
今天精心准备的营销树是" hd6770功耗",以下是详细说明! PC组装问题. HD6770的一般功耗是多少? 1.此数据在不知道的情况下被拦截: HD6770待机功耗为33.93 ...
线粒体和叶绿体的基因组特点_如何组装植物叶绿体基因组
可能出现的问题: *个人电脑上遇到不能collect memery的情况,是电脑内存较少,建议分成用2G左右的数据进行组装. * Seed.fasta #用于起始组装的种子序列,NOVOPlasty安 ...
人参考基因组不同版本区别 CRCH37 vs b37 vs hg19 vs hsd537 vs GRCH38
如果使用基于GRCH37的衍生参考基因组版本,建议使用hs37d5,这几个版本的基因组的主要区别介绍如下: 1)GRCH37,b37,hs37d5(b37+decoy)与hg19.GRCH38(hg3 ...
【PC组装】电脑硬件入门与选配
文章目录前言一.决定性能部件 1.1.主板 1.2. CPU 1.3.内存条 1.4.显卡 1.5.主板二.保证性能部件电源散热参考前言:马上进入研二了,向老板提出配备一台高配电脑的请求 ...
基因组组装程序linux,基因组组装软件SOAPdenovo安装使用
一．下载并安装这个软件下载地址进下面,但是下载源码安装总是很困难,我直接下载bin文件可执行程序. 解压进入目录首先make 然后make install即可安装总是失败,我也不知道怎么回事,懒 ...
使用Kaiju无组装计算宏基因组数据物种注释相对丰度
关于Kaiju Kaiju是一款直接通过宏基因组数据Read获得物种注释信息并计算读数与相对丰度的软件.它的主要方法是将Read核酸序列翻译为蛋白序列然后在相应的数据库中进行精确比对,确认物种分类信息 ...

MECAT：PC组装人的基因组

MECAT：PC组装人的基因组

MECAT：PC组装人的基因组相关推荐

最新文章

热门文章