EvoAug: improving generalization and interpretability of genomic deep neural networks with evolution-inspired data augmentations

开源的 PyTorch 包:https://pypi.org/project/evoaug

https://github.com/p-koo/evoaug

论文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-023-02941-w

相关报道:https://techxplore.com/news/2023-05-ai-cat-pic.html


深度神经网络(DNN)有望应用于功能基因组学预测,但它们的泛化能力可能会受到可用数据量的限制。为了解决这个问题,冷泉港实验室的研究人员提出了 EvoAug,这是一套受进化启发的数据增强,通过增加遗传变异来增强基因组 DNN 的训练。

DNA 序列的随机转换可能会以未知方式改变其功能,因此研究人员使用原始未转换数据,并采用微调程序来保持功能完整性。结果表明,EvoAug 显著提高了已建立的 DNN 在突出的监管基因组学预测任务中的泛化和可解释性,为基因组 DNN 提供了强大的解决方案。

揭示顺式调控元件及其协调的相互作用,是调控基因组学的主要研究目标。深度神经网络(DNN)通过接受训练,将 DNA 序列作为输入,预测其调节功能输出,为从头学习这些基因组特征提供了一条有前途的途径。经过训练,这些 DNN 已被用于对疾病相关变异的功能影响进行评分。此外,事后模型可解释性方法表明,DNN 的决策基于转录因子 (TF) 结合位点的学习序列基序,以及与其他序列上下文的依赖性。

对于 DNN,泛化能力通常会随着训练数据的增加而提高。然而,高通量功能基因组学实验中生成的数据量,受到基础生物学的限制。例如,某些转录因子与 DNA 结合的程度,受到可及染色质中高亲和力结合位点可用性的限制。为了扩展有限数据集,数据扩充可以对现有训练数据提供额外的变体。数据扩充作为一种正则化形式,引导学习函数对数据转换创建的对称性不变。这种方法有助于防止 DNN 过度拟合虚假特征并提高泛化能力。基因组学中数据增强的主要挑战是量化给定转换的调节功能如何变化。

对于图像数据,基本的仿射变换可以在不更改其标签的情况下平移、放大或旋转图像。然而,在基因组学中,可用的中性增强是反向补码转换和输入序列的小随机翻译。由于实验数据的大小有限和增强方法的缺乏,促进基因组 DNN 泛化的策略是有限的。

冷泉港实验室的研究人员开发了 EvoAug,这是一个开源 PyTorch 包,它提供了一套受进化启发的数据增强。使用 EvoAug 训练 DNN 可以带来更好的泛化性能,并通过标准的事后解释方法提高效率,包括过滤器可解释性和归因分析,跨越成熟的 DNN 的重要监管基因组学预测任务。它极大地扩展了基因组 DNN 的可用数据扩充集。

该研究结果支持关于使用进化作为数据增强的自然来源的论点。有趣的是,合成进化扰动的影响并没有过度破坏,在大多数情况下,性能甚至在微调之前就有所提高。这种功能稳健性似乎是非编码基因组的一个特征。

数据增强是一种常用的技术来平衡机器学习模型中的偏差和方差。但是,随着数据集大小的增加,它们的有效性预计会降低。尽管如此,EvoAug 仍然提高了已经很大的 Basset 数据集的性能。其他可以增强泛化能力的方法包括多任务学习、对比学习和语言建模。

尽管 Basset 和 DeepSTARR 已经在多任务框架中接受过训练,但 EvoAug 提高了它们的性能。多任务处理可能会引入类不平衡,但 EvoAug 提供了带有伪正标签的额外示例,可以缓解此问题。EvoAug 还提供不同的数据视图,这对于对比学习很有用。重要的是,EvoAug 是一种轻量级且有效的策略,只需要原始数据。

增强的最佳组合及其超参数选择取决于模型和数据集。虽然研究人员在这里执行了超参数网格搜索,但更高级的搜索策略(例如使用 Ray Tune 的基于人口的训练)可以提高效率。未来,他们计划研究 EvoAug 在跨数据集泛化和变异效应预测方面的潜力,包括表达数量性状基因座。

EvoAug:通过进化启发的数据增强,提高基因组 DNN 的泛化和可解释性

【Genome Biology 2023】EvoAug:通过进化启发的数据增强,提高基因组 DNN 的泛化和可解释性相关推荐

  1. Genome Biology:赵方庆组揭示生命早期肠道菌群演变规律及决定因素

    肠道菌群在营养代谢.人体自身发育.免疫防御以及疾病的产生等方面都扮演着至关重要的作用.其中,新生儿发育早期肠道菌群的动态变化与儿童的成长过程息息相关,幼年时期肠道菌群的发育状况也在一定程度上影响成年后 ...

  2. 生物信息/微生物组期刊推荐: Genome Biology

    点击蓝字 关注我们 期刊简介  Genome Biology 创刊于2000年,是BMC的开放获取月刊.期刊发表的文章涵盖了从基因组和后基因组角度研究的生物学和生物医学的所有领域.内容包括研究.新方法 ...

  3. Genome Biology | 药物基因组学数据库

    近日来自Genome Biology的一项研究中提出了一个综合数据库:My Personal Mutanome (MPM),用于加速精准癌症医学方案的开发.MPM提供了基于网络的诊断和药物基因组学方法 ...

  4. Genome Biology | 基于RNA-seq的孟德尔疾病变异分析

    今天给大家介绍的是沙特阿卜杜拉国王科技大学(KAUST)高欣教授课题组(http://sfb.kaust.edu.sa)发表在Genome Biology的一篇文章,"Analysis of ...

  5. Genome Biology:人体各部位微生物组时间序列分析Moving Pictures

    人体各部位微生物组初探 Moving pictures of the human microbiome Genome Biology, [14.028] 2011-05-30  Articles DO ...

  6. Genome Biology:人体各部位微生物组时间序列分析

    文章目录 人体各部位微生物组初探 摘要 背景 结果 结论 点评 主要结果 图1. 基于无权重UniFrac距离的PCoA 图2. 时间上的核心微生物组 图3. 群落中的成员关联 猜你喜欢 写在后面 人 ...

  7. Genome Biology + 微生物组学研究,2022『热门研究与论文发表系列研讨会』 第六期即将开讲!...

    由深圳国家基因库联合Cell Press.GigaScience.Taylor & Francis.SAGE.Wiley.OUP.Elsevier七大出版集团以及Genome Biology ...

  8. Genome Biology | 建立预测疾病miRNA的benchmark

    今天给大家介绍2019年10月,北京大学基础医学院周源团队.崔庆华团队和河北工业大学李建伟团队合作在Genome Biology上在线发表的题为Benchmark of computational m ...

  9. 4月22日丨【云数据库技术沙龙】技术进化,让数据更智能

    4月22日,云数据库技术沙龙"MySQL x ClickHouse"专场 "MySQL x ClickHouse" 技术沙龙,本次沙龙以"技术进化,让 ...

最新文章

  1. mysql中正则表达式的用法_Mysql中正则表达式Regexp常见用法
  2. 单系统站内信数据库设计思路
  3. 查看tomcat启动文件都干点啥---server对象
  4. 计算机网络作业答案吴,中国大学《2020春季课程-计算机网络应用吴迪》答案全部2020高校邦《羽毛球》作业题库答案...
  5. 简单写一下选择排序算法
  6. 使用Python判断文件是否为PE文件
  7. 【Maven篇】---解决Maven线上部署java.lang.ClassNotFoundException和no main manifest attribute解决方法...
  8. 爬虫_抓取51job招聘数据
  9. 对Spring 容器管理事务支持的总结
  10. 【UVM源码】uvm_event
  11. 千钧一发之际赢得暂缓令,苹果App Store要反败为胜了?
  12. python安装第三方库超时
  13. 微信气泡主题设置_微信气泡主题华为手机要怎么弄 华为手机微信气泡主题设置方法介绍...
  14. 小地图标识和摄像机视角中心匹配
  15. 2012年国内薪资最高的IT公司排行
  16. 数据中心液冷方式优缺点对比及浸没式液冷表面强化处理
  17. CLOB、BLOB , CLOB与BLOB的区别
  18. Mangos模拟器综合资源贴
  19. 数据结构相关重点(个人总结)
  20. 透视变换完成目标跟踪物体速度测试

热门文章

  1. 你可以有多个性?使用Myqr制作彩色收款码、动态二维码!同理可以制作彩色加群码哦!!
  2. SSL 1579——泽泽在英国
  3. Linux 服务器配置 CEVA 的 License
  4. 麦肯锡五步法,结构化解决问题
  5. 《天池龙珠 - SQL训练营》02.SQL基础:查询与排序-select、运算符、聚合分组查询等
  6. The influence of preciseness of price information on the travel option choice文章阅读
  7. EMC经典问答85问(78-81问)
  8. 基于ASP.NET的楚雄圆通快递管理系统_WEB管理系统_SQLServer数据库应用
  9. Android WiFi(一)
  10. 对雨林青蛙打太极的动画制作小总结