随着宏病毒研究的日益火热,许多小伙伴都在想自己曾经测过的宏基因组数据能否再深挖一波?当然可以!前面几期小编给大家抛砖引玉介绍了组装软件以及病毒数据库的基本知识,这期我们就来聊一聊,如果不依赖于数据库的注释结果,我们可以把病毒序列从宏基因组数据中狙击出来吗?

美国南加州大学定量计算生物学中心孙丰珠教授课题组曾在2017年开发并报道了VirFinder[1],该软件可以基于细菌与病毒序列的k-mer差异有效的抽提病毒序列。时隔三年,孙教授课题组再次发力,这次给大家带来了新的基于深度学习识别病毒序列的方法-DeepVirFinder[2]。

简单一句概括,DeepVirFinder通过对大量已知的病毒序列和细菌DNA序列进行基于卷积神经网络模型的深度机器学习训练,获得最优的细菌病毒序列二分类器。该模型由卷积层、最大池化层、全连接层和几个dropout层组成,输出病毒与原核生物二分类的0到1的预测分值(图1)。与之前的VirFinder不同之处在于,DeepVirFinder不需要提前定义序列的特征(如k-mer等),模型可自主学习病毒预测所需的各类特征属性。


图1 DeepVirFinder的深度学习原理框架图

该模型使用一个精心挑选的包含数十万条病毒序列和原核生物序列的大数据集进行训练和评估。其中包括了2314个来自于NCBI的感染原核生物(细菌和古菌)的病毒参考基因组,这些基因组序列按照报道日期被分为三个部分,其中2014年1月之前报道的基因组序列为训练集,2014年1月至2015年5月之间报道的基因组序列为验证集,2015年5月之后报道的基因组序列为测试集。数据集的划分不仅避免了训练、验证和测试数据集之间的重叠,而且还有助于评估基于先前发现的病毒序列预测未来新病毒的方法能力。为了进一步扩大用于训练的数据集,还收集了大量的宏病毒样本,其中主要包含病毒序列(包括许多未培养的病毒),共计130万序列。

研究人员发现加入宏病毒样本序列进行训练获得的模型的AUROC指标显著优于仅仅使用refSeq数据库中病毒序列进行模型训练(图2A)。他们认为可能是因为大多数病毒RefSeq序列是通过实验室培养和筛选获得的,这样的病毒RefSeq数据库对于大多数未可培养的病毒就有较强的bias。因此,加入来自宏病毒组数据集的病毒序列,可有效地纠正采样偏差,提高病毒的预测精度。但同时研究者们也发现,在使用使用扩大数据集训练的模型进行预测时,感染Proteobacteria和Actinobacteria的病毒(这两种病毒在RefSeq中最多占63%)的AUROCs降低了。由于两大病毒组的AUROC降低,新模型的整体AUROC也略有下降。因此作者建议,对于未有先知经验的样本建议使用扩大数据集训练的模型来预测病毒序列,而对于已知研究群体中的病毒主要来自RefSeq中的常见成员,则使用原始训练模型为优。


图2 不同训练数据集之间的模型性能指标对比

为了测试DeepVirFinder在预测宏基因组数据中的病毒contigs方面的性能,研究者基于一个真实的人类肠道宏基因组样本的丰度谱模拟了几个宏基因组数据集,并评估了DeepVirFinder在识别模拟宏基因组样本中的病毒contigs方面的性能。考虑到不同的实验示例策略不同,我们模拟了三种宏基因组数据集,其中病毒比对分别为10%、50%和90%,同时保持病毒和宿主组内相对丰度一致。模拟的contig长度在数百bp到数千bp之间变化,大多长度在300- 1000 bp之间(图3A)。使用经过RefSeq数据集训练的模型来预测不同长度的contigs。

总的来说,AUROC评分随着contig长度的增加而增加,其趋势与图2相同。在预测多种间隔的contigs长度时,所有contigs的AUROCs为0.8829,大于300 bp的AUROCs为0.8952,大于500 bp的AUROCs为0.9129(图4B)。因此,在实际数据应用中,能够在contigs大于300 bp的范围内实现总AUROC在0.90左右。

由于真实阳性率和假阳性率是根据病毒组和宿主组的相对比例独立定义的,不同病毒比例对AUROC的影响并不明显。作为AUROC的一种补充方法,在评估病毒组分对预测精度的影响时,研究考虑了PR曲线下面积(AUPRC)的指标,该度量更加敏感。例如,对于病毒组分为90%的样本,长度为500 bp的contigs的AUPRC为0.9296,对于病毒组分为50%和10%的样本,AUPRC为0.8638和0.6437 (图4C)。与病毒组分为50%和90%的样本相比,病毒组分为10%的样本在不同contigs长度范围内的AUPRC有很大的差异。


图3 评估DeepVirFinder在模拟多种病毒感染的宏基因组样本数据(多种病毒contigs长度)中的性能表现

如果各位小伙伴对DeepVirFinder的环境部署及使用指南感兴趣,请给小编后台留言,安排!

Reference:
[1] Ren, J., et al., VirFinder: a novel k-mer based tool for identifying viral sequences from assembled metagenomic data. Microbiome, 2017. 5(1): p. 69-20.
[2] Ren, J., et al., Identifying viruses from metagenomic data using deep learning. Quantitative Biology, 2020. 8(1): p. 64-77.

了解详情:原文解读

基于深度学习的病毒序列识别相关推荐

  1. QB:基于深度学习的病毒序列识别

    全球COVID-19新型冠状病毒肺炎疫情使人们对病毒有了前所未有的关注.病毒不仅可以侵入人体等真核生物,还可以侵入细菌等原核生物.侵入细菌的病毒数量大约有1031,是地球上最丰富的生物体 [1].病毒 ...

  2. 基于深度学习的病毒检测技术无需沙箱环境,直接将样本文件转换为二维图片,进而应用改造后的卷积神经网络 Inception V4 进行训练和检测...

    话题 3: 基于深度学习的二进制恶意样本检测 分享主题:全球正在经历一场由科技驱动的数字化转型,传统技术已经不能适应病毒数量飞速增长的发展态势.而基于沙箱的检测方案无法满足 APT 攻击的检测需求,也 ...

  3. 检测、量化、追踪新冠病毒,基于深度学习的自动CT图像分析有多靠谱?

    作者 | Ophir Gozes, Maayan Frid-Adar等 译者 | 刘畅 出品 | AI科技大本营(ID:rgznai100) 背景:新冠病毒的传播非常迅速,并对数十亿人的生活产生了重大 ...

  4. 深度学习助力网络科学:基于深度学习的社区发现最新综述

    来源:AMiner科技 论文题目: A Comprehensive Survey on Community Detection with Deep Learning 论文网址: https://arx ...

  5. 腾讯 AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展

    来源:腾讯AI Lab 概要:过去几年里,自动语音识别(ASR)已经取得了重大的进步 .这些进步让 ASR 系统越过了许多真实场景应用所需的门槛,催生出了 Google Now.微软小娜和亚马逊 Al ...

  6. 为恶意文件“画像” 瀚思科技基于深度学习技术快速锁定未知威胁

    至顶网安全频道 07月26日 北京报道:"阿尔法狗"(AlphaGo)的一战成名让很多人记住了人工智能.深度学习.大数据分析等一系列新兴科技热词,而真正要把这些新技术应用到商业领域 ...

  7. 基于深度学习的命名实体识别研究综述——论文研读

    基于深度学习的命名实体识别研究综述 摘要: 0引言 1基于深度学习的命名实体识别方法 1.1基于卷积神经网络的命名实体识别方法 1.2基于循环神经网络的命名实体识别方法 1.3基于Transforme ...

  8. 基于深度学习的新冠疫情数据分析

    摘要:在全球抗击新型冠状病毒肺炎(COVID-19)疫情的过程中,合理的疫情传播预测对于疫情防控有重要参考意义.为了对病毒传播进行合理预测,针对传统疫情传播预测模型存在的不足,在BP神经网络提出一种组 ...

  9. 深度 | 腾讯 AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展

    感谢阅读腾讯AI Lab微信号第七篇文章,这是一篇深度研究的概述,论文全文可在页末下载.今年七月, IEEE/CAA Journal of Automatica Sinica发表了腾讯 AI Lab ...

最新文章

  1. python闭包、装饰器
  2. BugkuCTF-社工
  3. mysql高可用方案MHA介绍
  4. 2019年用于自动化的5个最佳Java测试框架
  5. maven导入模块后重新导入有两个一样的_Testng在Maven中配置Reportng中文乱码解决及笔记记录...
  6. matlab波纹噪声图像的平滑,matlab图像水波纹
  7. 《DSP using MATLAB》示例Example 8.5
  8. 保存命令行输出信息到log的方法(ubunut下和arm-linux下有效)
  9. dotween曲线运动 unity_Unity3D DOTween动画插件详解
  10. win10读取linux硬盘,win10怎么读取lxext4格式硬盘
  11. mysql退出安全模式_MySQL数据库之mysql 解除安全模式
  12. 记录mysql数据库被攻击
  13. QT报错:The inferior stopped because it received a signal from the Operating System.
  14. redis学习日志 【一、安装】
  15. C++基础-介绍·数据结构·排序·算法
  16. SM4分组密码算法介绍
  17. echarts 矩形填充占比图treemap
  18. 菜鸟小白初次下载Pr如何配置,以及普通文件、序列文件、psd文件的导入方法
  19. 家用3d室内装修设计软件一览
  20. chartjs 表格刷新

热门文章

  1. [695].岛屿的最大面积
  2. 抖音信息流广告是什么
  3. sqlmap常见提示
  4. FWT(Fast Walsh Transformation)快速沃尔什变换学习笔记
  5. sentry收集错误[Failed to fetch dynamically imported module]解决
  6. 大型系列课程之-七夕告白之旅vbs篇
  7. operator部署redis集群
  8. 基于ARM9的车载导航系统的技术分析
  9. Ubuntu下几种常用的文本编辑器
  10. HTML中,苹果手机长按图片或二维码会跳动