本文来自“生信算法”公众号。

对于以Illumina为代表的二代测序技术,研究者们开发出了许多优秀的序列比对算法,如BLAST、Bowtie2 、BLAT等软件。随着测序技术的不断发展,尤其是近几年以单分子测序技术为代表的三代测序技术的出现,测得的序列长度长达十万碱基数,远远高于二代序列长度,且同时具有较高的测序误差(错误率~15%)。因此,绝大多数针对二代测序数据的序列比对工具不适合处理三代测序数据。所以,开发基于三代测序数居的序列比对算法尤为迫切。

不同序列比对算法

在上一篇文章中(三代测序序列比对利器-BLASR,更小更快更方便),算法哥介绍了BLASR三代测序比对算法,BLASR是2012年开发的首个三代序列比对算法,但其运行速度慢。最近又有好多新发表的三代测序比对算法。其中rHAT(rHAT: fast alignment of noisy long reads with regional hashing)作为国内第一篇三代序列比对算法,由哈尔滨工业大学的王亚东教授团队开发,16年发表在Bioinformatics期刊上。博哥作为一个算法开发者,自然需要仔细拜读。因此,本次简单介绍rHAT算法的主要思想,希望对大家有所启发,可以用rHAT来处理自己的序列。

rHAT(Regional Hashing-based Alignment Tool )算法主要是采用了区域哈希(regional hashing)策略。算法主要分为两部分,首先是定位(在整个基因组中找到与待比对序列相似的区域),通过区域哈希将待比对序列定位到基因组中与其相似的区域,如下图左图所示。然后根据区域内的种子构建有向无环图,找到比对路径进行详细比对,如下图右图所示。

rHAT算法框架(左图定位,右图详细比对)

哈希表定位

首先看一下如何通过区域哈希表在基因组序列中对序列进行定位。

在基因组中通过区域哈希表对序列定位
  1. 如上图a所示,首先将基因组分割成长度为L的窗口,其中相邻两个窗口重叠L/2部分,这就是区域哈希表中区域的意思,一个窗口就是一个区域。
  2. 然后构建区域哈希表,如图b所示,将基因组每个k-mer(长度为k的子片段,又称作种子)进行哈希编码,每个哈希表中存储的是出现这个k-mer的窗口的位置。
  3. 然后对于待比较序列,如图c所示,提取待比较序列的每个k-mer,通过图b中的哈希表就可以找到包含每个k-mer的窗口,然后对窗口中的种子个数,即匹配个数,进行排序,找出种子个数最大的窗口,即为与待比较序列相似性较高的区域,用于接下来的序列比对。

序列路径选择与比对

通过上面步骤在基因组中选取待比对区域后,利用种子扩展策略对非种子区域进行比对。

  1. 首先根据种子构建有向无环图,通过打分策略选取比对路径,如上图中a的红色圆圈所示。
  2. 找出比对路径中的种子,对种子间的间隙采用经典的动态规划算法进行详细比对
  3. 最后将种子间的比对结果与种子拼接,合并得到最终的长序列比对结果。

结果比较

rHAT算法与目前BLASR和BWA-MEM两种方法进行了比较,测试数据为人类基因组数据,如下图所示,可以看出rHAT方法在比对碱基数、比对序列条数以及运行时间均有改善。希望可以对序列分析者有所帮助。详细的比对结果大家可以参考其原文。

代码下载地址

https://github.com/HIT-Bioinformatics/rHAT

原文链接

https://academic.oup.com/bioinformatics/article/32/11/1625/1742681

参考文献:

Bo Liu, Dengfeng Guan, Mingxiang Teng, Yadong Wang; rHAT: fast alignment of noisy long reads with regional hashing, Bioinformatics, Volume 32, Issue 11, 1 June 2016, Pages 1625–1631

rHAT,国内首个三代序列比对算法相关推荐

  1. GraphMap:快速的三代序列比对算法

    本文来自"生信算法"公众号. 三代测序的简介及意义已经在之前的公众号里面介绍过了,之前本公众号已经介绍了五篇三代序列比对算法,分别为(点击下划线可打开相应的文章): BLASR(三 ...

  2. 每日新闻丨Facebook再曝数据泄露事故;国内首台晶圆自动翻转倒片机成功研发...

    ▼ 趋势洞察 马云:实体经济是先进智造业加现代服务业 近日,马云参加世界楚商大会并表示,,实体经济是先进智造业加现代服务业,线上和线下经济不能对立,发展实体经济和金融发展不能对立,制造业和服务业不能对 ...

  3. 蓝鹊生物国内首款新冠mRNA嵌合体疫苗获批临床

    近日,蓝鹊生物联合复旦大学.沃森生物联合研发的新型冠状病毒变异株mRNA疫苗(S蛋白嵌合体)(代号:RQ3013),正式获得国家药品监督管理局临床试验批准,即将于九月初开展临床一期试验. RQ3013 ...

  4. ​揭秘国内首个进入Apache的高校顶级项目——Apache IoTDB

    本文约4200字,建议阅读10+分钟 本文与你分享有关开源数据库项目成长.开源社区治理.加速赋能企业等方面的观点与见解. 近年来,随着人工智能.物联网的兴起,大数据成为重要的生产资料,而时序数据则是这 ...

  5. 揭秘国内首个进入Apache的高校顶级项目——Apache IoTDB | 51CTO 访谈实录

    近年来,随着人工智能.物联网的兴起,大数据成为重要的生产资料,而时序数据则是这个时代避无可避的热议话题.如何提升时序数据的利用率?如何为复杂场景提供一个可靠的数据库?这些都是业内必须解决的难题. Ap ...

  6. 国内首场高规格AIGC峰会盛况出圈!万字干货热聊GPT-4时代,浓缩21位大牛演讲

    智东西(公众号:zhidxcom) 作者 | 程茜.李水青 编辑 | 心缘 智东西3月24日报道,今日,GTIC 2023中国AIGC创新峰会在北京圆满举行! 正值GPT-4时代的大幕被一把拉开,本届 ...

  7. 国内首个零信任技术标准发布 腾讯安全牵头编制

    7月7日,中国电子工业标准化技术协会发布了国内首个零信任技术实现标准--T/CESA 1165-2021<零信任系统技术规范>团体标准,填补了国内零信任领域的技术标准空白. (<零信 ...

  8. 国内首个深度学习工程师认证标准发布

    10月10日,深度学习工程师认证发布会暨人工智能人才发展论坛在京召开.会上,基于中国软件行业协会发布的国内AI领域第一个专业技术人才培养标准--<深度学习工程师能力评估标准>(以下称< ...

  9. 【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景...

    在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测 ...

最新文章

  1. 论天空、太空、航空、航天
  2. JavaScript的类型、值和变量
  3. 机器学习算法精讲20篇(一)-k-means聚类算法应用案例(附示例代码)
  4. 自动驾驶前沿综述:基于深度强化学习的自动驾驶算法
  5. [转] 实战 SSH 端口转发
  6. 仔细研究Java Identity API
  7. 企业以太坊联盟发布了愿景文件
  8. QR code 二维码基础入门教程(二)
  9. 数据结构 顺序串笔记
  10. 【NLP基础】信息抽取(Information Extraction:NER(命名实体识别),关系抽取)
  11. 计算机科学与技术实践教学,计算机科学与技术实践教学方法_精编版.doc
  12. linux python3命令_linux安装python3
  13. 制作OpenStack xpsp3镜像
  14. 学习系列之天眼查爬虫
  15. Boost:shared_memory_object --- 共享内存
  16. 关于was应用正常,控制台无法连接(SRVE0255E)
  17. python 常微分方程 画向量场_用scipy-odein在python中求解向量常微分方程
  18. envi窗口滤波_ENVI软件操作【数据显示操作——Overlay菜单操作】
  19. Java背景颜色怎么设成随机的_java - 如何将按钮的背景设置为具有设置约束的随机颜色? - SO中文参考 - www.soinside.com...
  20. PHP代码审计DVWA-文件包含信息获取方法

热门文章

  1. 【渗透测试笔记】之【钓鱼姿势——exe伪装word文档(exe图标修改方法)】
  2. 02 求解旅行商问题的蚁群算法的python实现
  3. 手机计算机数据消失了怎么恢复,手机没有备份怎么恢复数据
  4. 代理服务器-CCProxy
  5. 白帽SEO与黑帽SEO
  6. python中[:],[:,],[::]分别代表什么意思
  7. 数据库事务隔离级别及脏读、不可重复读、幻读的理解
  8. 学好此文,国家赠送金手铐和职业套装,数年管吃管住-HTTP请求夹带(HTTP request smuggling)
  9. 我在北京和深圳的不同感受
  10. 关于诺基亚S60 3rd自签名的全面理解