MECAT:PC组装人的基因组

MECAT 测序技术 组装简史

今天给大家推荐一款牛叉的三代组装软件,号称资源浪费少,绿色又环保,而且在个人笔记本上毫无压力的软件——MECAT。

看到这个题目,大多数人的反应,肯定是小编忘吃药了。no no no 小编今天很正常,利用个人PC来组装人的基因组绝对不是痴人说梦。

首先,小编先给大家介绍一些关于组装的历史。大家肯定也知道,这个组装技术的发展是依赖于测序技术的。首先在一代测序的时候,测序数据量较少,成本较高,人们对于组装的结果预期也比较低,弄到contig水平就可以啦,还有就是这个组装的物种基因组都偏小。因此那个时候的组装软件都是基于overlap的。然后呢,二代测序技术来了,数据量超高,成本也便宜啦。科研工作者就想啊,现在都二代了,这个组装的预期得提高啊,得与时俱进啊。但是基于overlap的组装不了太长,而且超级慢,又加之,二代数据量太多,overlap扛不住啊。因此有人就开发出了基于图论的组装算法。然后呢,三代测序技术这两年出来了,科学家一看,我x,这么长的read,那还搞毛图论的算法,直接简单粗暴点,用overlap多简单,于是基于overlap的软件又火啦。

说到这,刚进入问题,简单粗暴的overlap难道就一统天下了吗?难道所谓的优化算法,就真的没有未来了吗?

当然

不是。

今天给大家推荐一款牛叉的三代组装软件,号称资源浪费少,绿色又环保,而且在个人笔记本上毫无压力的软件——MECAT。

赶紧膜拜,预发表文章:

MECAT: an ultra-fast mapping, error correction and de novo assembly tool for single-molecule sequencing reads(肖传乐)

接下来,小编跟大家简单的墨迹下这个文章中的内容。大家简单了解下。

这个三代测序啊,有一个问题,就是错误率有点高,15%。也就是说这个数据啊,不能直接用来组装,你得纠错,怎么纠错呢。做过纯三代组装的人,都知道。是用三代自身去纠最长的read。问题来了,这里如果用测得全部的reads都跟最长的read去比,这一步超级耗时。

这一步,怎么办啊。

有没有相应的算法可以优化下。

如果你能提出这样的问题,小编恭喜你,你这个小伙子还是很有前途的。

肖老师就是构建了一套打分矩阵,使得这里不需要全部都比一次,从而缩短了时间。

当然肖老师,是个工作狂,一看搞下去有前途,还返场优化了下其他部分。

现在比较常用的三代数据组装软件有Canu、Falcon和HGAP等,这些软件在组装之前都是通过两两比对确定overlap,之后再纠错的。这一步时间超级长,举例,PBcR-MHAP软件平均有84%的时间浪费在纠错部分。这一步不仅仅耗时,而且超级占用资源。这里是婶婶也不能忍受的地方。

这个软件牛叉在它的优化算法,算法示意图如下:

A  Reads被分成多个Block;

B. 对所选Kmer pair相互打分;

C. 选取最高得分作为种子;

D. 将种子区域与其他区域进行比较;

E. 最终确定reads关系。

之后选取4个模式生物数据(E coli, Yeast, A.Thaliana and D. Melanogaster)进行测试得到两个结果:a)reads越长相对应得分越高;b)这种打分模式会快节省2~3倍的时间。

接下来利用真实数据,与其他方法进行对比,结果敏感性和准确性进一步说明MECAT在比对、纠错和组装的综合水平均要优于其他方法。如下面的两个表说明消耗资源、时间、准确行一结合,MECAT软件效果是最好的。

乡亲们,注意哈,MECAT比对,是用的4 Gb不到的内存哦。

貌似哥的手机也可以跑一套~~笑哭。

看完这个表,想起京东来了

多快好省

MECAT:PC组装人的基因组相关推荐

  1. 一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)

    一种PacBio测序数据组装得到的基因组序列的纠错方法技术 技术编号:17008244阅读:83留言:0更新日期:2018-01-11 04:20 本发明专利技术提供一种PacBio测序数据组装后序列 ...

  2. Pacbio 纯三代组装复活草基因组

    对于植物等真核生物基因组来说,重复序列, 多倍体,高杂合度等特征在利用二代数据进行组装的时候都会有很大的问题: 利用二代数据组装出来的基因组,大多达不到完成图的水准,通常只是覆盖到编码蛋白的基因区域, ...

  3. 一种PacBio测序数据组装得到的基因组序列的纠错方法

    技术领域 本发明涉及生物信息技术领域,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法. 背景技术 PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的 ...

  4. 一般计算机电源都在多少压力,PC组装问题。 HD6770的一般功耗是多少?

    今天精心准备的营销树是" hd6770功耗",以下是详细说明! PC组装问题. HD6770的一般功耗是多少? 1.此数据在不知道的情况下被拦截: HD6770待机功耗为33.93 ...

  5. 线粒体和叶绿体的基因组特点_如何组装植物叶绿体基因组

    可能出现的问题: *个人电脑上遇到不能collect memery的情况,是电脑内存较少,建议分成用2G左右的数据进行组装. * Seed.fasta #用于起始组装的种子序列,NOVOPlasty安 ...

  6. 人参考基因组不同版本区别 CRCH37 vs b37 vs hg19 vs hsd537 vs GRCH38

    如果使用基于GRCH37的衍生参考基因组版本,建议使用hs37d5,这几个版本的基因组的主要区别介绍如下: 1)GRCH37,b37,hs37d5(b37+decoy)与hg19.GRCH38(hg3 ...

  7. 【PC组装】电脑硬件入门与选配

    文章目录 前言 一.决定性能部件 1.1.主板 1.2. CPU 1.3.内存条 1.4.显卡 1.5.主板 二.保证性能部件 电源 散热 参考 前言:马上进入研二了,向老板提出配备一台高配电脑的请求 ...

  8. 基因组组装程序linux,基因组组装软件SOAPdenovo安装使用

    一.下载并安装这个软件 下载地址进下面,但是下载源码安装总是很困难,我直接下载bin文件可执行程序. 解压进入目录 首先make 然后make install即可 安装总是失败,我也不知道怎么回事,懒 ...

  9. 使用Kaiju无组装计算宏基因组数据物种注释相对丰度

    关于Kaiju Kaiju是一款直接通过宏基因组数据Read获得物种注释信息并计算读数与相对丰度的软件.它的主要方法是将Read核酸序列翻译为蛋白序列然后在相应的数据库中进行精确比对,确认物种分类信息 ...

最新文章

  1. LeetCode - 25. Reverse Nodes in k-Group
  2. 该怎么写Angular JS
  3. Spring in Action 4 读书笔记之使用标签创建 AOP
  4. 机器学习(三):支持向量机SVM(含代码和注释)
  5. 搞懂函数调用前后堆栈恢复的过程
  6. NLP-Beginner:自然语言处理入门练习-任务一
  7. Collections.min()和Collections.max()的使用
  8. ASP.NET Core快速入门(第4章:ASP.NET Core HTTP介绍)--学习笔记
  9. 前端学习(3272):js中this的使用箭头函数
  10. [转贴]非技术:在广州天河北被抢全记录(入面D广州话真系厉害,不懂粤语者别看,会吐血)...
  11. linux maven安装
  12. 关于webservlet 请求异步处理,链接未关闭出现的bug
  13. 2017.9.14 仪仗队 思考记录
  14. 用python海龟制图画花瓣_Python竟能画这么漂亮的花,帅呆了(代码分享)
  15. python--pdb
  16. asp.net C#实现下载文件的六种方法实例
  17. 小米9008授权账号_小米AI音箱APP的秘密
  18. 鸟哥的Linux私房菜-基础篇(第九章)
  19. html中加入透明flash
  20. iOS开发iPhone竖屏icon尺寸与启动页尺寸汇总

热门文章

  1. 工具 | 四元数长什么样?这个小工具将旋转量可视化+相互转换,效果直观!
  2. 基于图割优化的多平面重建视觉 SLAM(ISMAR2021)
  3. 手把手教你使用YOLOV5训练自己的数据集并用TensorRT加速
  4. 结构光|一文详解相移步长的选择问题
  5. 一分钟详解点云配准ICP方法
  6. ‘vue-cli-service‘ 不是内部或外部命令,也不是可运行的程序
  7. SpringMVC 如何实现将消息的websocket
  8. int main(int argc,char *argv[]),主函数的参数问题
  9. html编写的过程中,为什么font设置属性的时候,第二个属性不起作用
  10. db2 某个字段排序_db2 中文排序 按拼音排序(utf-8编码)