今天给大家介绍拉什大学的Shinya Tasaki 等人在Nature Machine Intelligence上发表的文章“Deep learning decodes the principles of differential gene expression”。作者在文章中提出了一个系统生物学模型DEcode来预测差异表达,并挖掘影响预测基因表达的因素的生物学基础,以了解其如何产生。作者在模型中使用了深度卷积神经网络,根据RNA和启动子上的全基因组结合位点预测差异表达。此外,作者通过预测组织间的差异表达、差异转录的效用和衰老的驱动因素等实验,展示了DEcode在产生生物学见解方面的广泛潜在应用。

1

研究背景

尽管所有人类细胞都共享DNA序列,但是基因调控在细胞类型和发育阶段之间以及在对环境和刺激的响应方面有所不同。因此,当基因表达受到不适当的调节时,细胞稳态就会受到干扰,影响细胞功能并导致疾病。细胞状态之间的区别被观察为基因转录本的差异表达(DE),尽管DE十分重要而且普遍存在,但将这些观察转变为对本质上解码DE的潜在生成过程的一致理解仍然困难,这对于基础生物学和疾病生物学的发展至关重要。作者通过利用新颖的计算和系统生物学方法来开发基于全基因组调控相互作用数据的DE预测模型来解决这问题。

为了根据分子调控相互作用对DE进行解码,作者首先使用 DEcode模型DE对其进行高精度预测。该模型结合了多种类型的基因调控相互作用,能够优先考虑在组织特异性的基础上影响DE的主要系统和分子,进一步建立这种基因调控的可能的分子机制,并验证预测的最强调控因子的影响。同时,作者预测不同个体之间DE的起源,这是实验和临床研究的主要组成部分。通过在每个实验中确定DE的来源,可以将DEcode应用于当前和将来的大多数基因表达数据,从而加速基础生物学和疾病生物学的发展。

2

实验

2.1预测人体组织间的差异表达

该实验通过将基因表达作为分子相互作用的结果对其进行预测,以理解差异表达信号的主要调控原理。在DEcode系统中使用深度卷积神经网络,根据启动子和mRNA特征预测基因表达的组织间差异和个体差异,模型如图1所示。

图1 构建和评估解码转录组预测模型

作者将DEcode框架应用于27,428个基因和79,647个转录本的具有组织特异性的人类转录组中,利用多任务学习架构,预测53个组织的相对于所有组织的中值表达的对数差异倍数以及所有组织的中值表达值。实验结果如图2所示,作者使用斯皮尔曼系数计算预测值和实际值的一致性,从图中可以看出,预测的中值表达水平在基因水平和转录本水平上均与实际观察结果高度一致。

图2 对整个组织中基因表达水平中位数的预测表现

2.2不同组织间的差异表达调控

除了DEcode的预测性能外,作者还利用该模型来帮助定义调节差异表达的生物过程。为了了解RNA特征在多大程度上影响基因表达水平,作者重新训练了DEcode模型,随机化了RNA特征和启动子特征。实验表明,仅通过RNA特征预测基因水平的对数差异倍数时,其准确性不及使用所有特征的模型,与只使用启动子特征的模型表现相近。基于RNA的模型在预测转录表达和差异转录使用方面比基于启动子的模型表现更好,实验结果如图3所示。

图3 使用不同特征集训练的模型的预测性能

为了进一步量化DEcode模型中加权调节的重要性,作者针对每个预测差异倍数任务通过计算DeepLIFT得分衡量了结合位点对预测的累计贡献,实验结果表明DEcode模型是可解释的,反映了控制RNA丰度的生物学机制。此外,作者假设,如果DEcode模型中的关键预测因子确实是有效的转录组调节因子,则此类调节因子中的缺陷将对细胞表型产生重大影响,从而导致疾病。通过实验验证,转录组的关键预测因子确实在维持重要的细胞和身体功能中起着至关重要的作用。因此,DEcode模型可用于确定致病基因的优先级,并且这种能力指向了预测的关键调控因子的更广泛的有效性。

2.3预测个体间的差异表达

为了解输入相同特征的情况下是否可以预测同一组织内个体之间的相对表达差异,作者扩展了DEcode框架,对14个代表性组织中的个体的差异表达进行建模,个体差异模型成功预测了个体之间的差异倍数,平均斯皮尔曼相关系数约为0.28,实验结果如图4所示。

图4 特定于个体的模型的预测性能

为了检查模型是否捕获了跨组织共享的特定于人的表达,作者还比较了同一个体内不同组织之间以及不同个体之间的基因表达。与实际表达数据一样,预测的表达在相同个体的组织之间显示出更好的一致性,这表明该模型已经捕获了特定于人的调节机制。

2.4相关性状表达变化的生成过程

为了解由DEcode模型预测的特定于个体的表达谱是否也保留了与性状相关的差异表达变化,作者使用预测的基因表达数据对供体的年龄和性别进行了差异表达分析。实验结果表明,对于两种性状,预测数据的测试统计数据均与所有组织中的实际数据具有显着正相关。

2.5基因共表达关系的调控基础

作者检查了DEcode模型是否可以检测到已知的基因共表达关系,在预测的基因表达谱中的基因共表达关系在每个组织的实际基因表达数据中分离了具有正相关和负相关的基因对。此外,预测的基因表达谱还检测到组织间共表达关系。这些结果的准确性促使作者通过DEcode预测研究驱动共表达的关键因素。在大多数组织中,RNA特征可以比启动子特征更好地解释共表达关系,这再次表明RNA特征对人特异性转录组的重要贡献。

3

总结

作者引入了DEcode框架,该框架将大量的基因组数据集成到转录组调控的统一计算模型中,以预测特定于组织和个体的转录组中的多种转录作用。这些实验结果的系统生物学分析提供了有关转录组调控机制的生物学见解。

作者将DEcode框架设计为多任务学习,可以通过共享特征提取层同时预测多个样本的转录组,不仅减少了学习时间,还提高了特定于组织的表达和特定于个体的表达的预测准确性。转录组分析通常会鉴定差异表达基因,然后评估功能基因的富集。特定于个人的DEcode模型与这种传统方法相比具有几个比较优势:(1)DEcode可以同时考虑多个调节器的影响,而不是一次考虑一个。(2)DEcode可以估算特定于个体的调节活动,这些活动可用于识别与感兴趣的表型相关的调节因子。(3)DEcode可以模拟每个基因的KO扰动的结果。

DEcode可以从转录组数据中提取更多可操作的信息,这将有益于各种转录组研究。针对更广泛的应用,DEcode框架可以灵活地合并其他类型的基因组信息,例如原始序列,DNA甲基化,组蛋白标记和RNA修饰,也可以扩展到其他生物。因此,DEcode框架在积累基因组大数据与单个转录组研究之间建立了直接的桥梁,使研究人员能够预测控制与任何状况或疾病相关的差异表达的分子。

代码

https://github.com/stasaki/DEcode

参考资料

Tasaki, S., Gaiteri, C., Mostafavi, S. et al. Deep learning decodes the principles of differential gene expression. Nat Mach Intell 2, 376–386 (2020).

https://doi.org/10.1038/s42256-020-0201-6

Nat.Mach.Intell.| DEcode:深度学习解读差异基因表达原理相关推荐

  1. Nat. Mach. Intell. | 集成深度学习在生物信息学中的发展与展望

    本期给大家介绍悉尼大学Jean Yang教授课题组发表在Nature machine intelligence的文章"Ensemble deep learning in bioinforma ...

  2. Nat. Mach. Intell. | 基于深度学习预测DNA甲基化位点

    研究人员开发了一种预测DNA甲基化位点的机器学习算法可以帮助识别致病机制.该论文2020年8月3日发表在"Nature Machine Intelligence"上. 研究人员通过 ...

  3. Nat. Mach. Intell. | 基于深度强化学习寻找网络中的关键节点

    今天给大家介绍哈佛大学Yang-Yu Liu课题组和加利福尼亚大学洛杉矶分校Yizhou Sun课题组发表在nature machine intelligence上的一篇文章"Finding ...

  4. Nat. Mach. Intell. | 深度神经网络中的捷径学习

    今天给大家介绍来自德国蒂宾根大学的Robert Geirhos和加拿大多伦多大学的Claudio Michaelis等人发表在Nature Machine Intelligence的文章"S ...

  5. Nat. Mach. Intell. | 基于神经网络的迁移学习用于单细胞RNA-seq分析中的聚类和细胞类型分类...

    今天给大家介绍由美国宾夕法尼亚大学佩雷尔曼医学院生物统计学,流行病学和信息学系Jian Hu等人在<Nature Machine Intelligence>上发表了一篇名为"It ...

  6. Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略

    今天给大家介绍来自不列颠哥伦比亚大学和阿尔伯塔大学联合发表的一篇文章.该文章系统地评估并优化了基于循环神经网络在低数据环境中的分子生成模型.发现该模型可以从更少的例子中学习到健壮的模型.同时,本文还确 ...

  7. Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现

    今天给大家介绍瑞士苏黎世联邦理工学院化学与应用生物科学系 Gisbert Schneider等人在Nature Machine Intelligence上发表的文章"Drug discove ...

  8. Nat. Mach. Intell.|从局部解释到全局理解的树模型

    今天介绍美国华盛顿大学保罗·艾伦计算机科学与工程学院的Su-In Lee团队在nature mechine intelligence 2020的论文,该论文提出了一种基于博弈论沙普利值的TreeExp ...

  9. Nat. Mach. Intell. | 快速的蛋白质结构从头预测

    今天给大家介绍一篇Nature Machine Intelligence期刊的论文"AmoebaContact and GDFold as a pipeline for rapid de n ...

最新文章

  1. Spring Cloud 2020: Hystrix不生效怪我咯
  2. 机器学习陷入困境,谷歌大脑专家发文吐槽 AI 工程现状
  3. 基于ArcGIS JS API封装dojo微件(以工具条为例)
  4. Android --- 按钮控件设置与不设置背景都会有一个小小的灰色阴影怎么去掉?
  5. Python学习笔记: Python 标准库概览
  6. android 解决Error:This Gradle plugin requires Studio 3.0 minimum
  7. android 中ImageView的scaletype属性
  8. 引用和可触及性的强度
  9. Tensorflow 2.1 迁移学习 基于VGG
  10. sci写作sci写作模板_2020年写作主题
  11. Dijstra--讲解
  12. java制作扫雷游戏中埋雷的难点_java 扫雷游戏源码案例项目
  13. 有监督学习-逻辑回归sklearn应用举例
  14. mysql relay_log删除_mysql 删除 relay log 方法
  15. 怀旧服私聊显示服务器后缀,聊天窗口相关设置:有爱怀旧服聊天增强插件简易指南...
  16. 思科交换机备份文件到服务器,CISCO交换机备份和恢复配置文件的方法
  17. 《长尾理论1.0》读书笔记
  18. Axure 点图片外区域即隐藏_免费彻底隐藏任意文件目录工具(真正的底层隐藏)...
  19. 东北大学软件学院计算机组成,东北大学软件学院计算机组成原理题库.doc
  20. Cosplay美图爬取

热门文章

  1. Java Web开发API Boy如何进阶?
  2. Java之父接受Evrone专访:您需要的软件可靠性越高,静态类型语言的帮助就越大...
  3. 图解:消息传输的架构模式
  4. 千万别说做过高并发!
  5. 滴滴业务研发的精益实践
  6. 亿级流量压力来袭,你的网站会被击垮吗?(下篇)
  7. 百亿级日志系统架构设计及优化
  8. 你的企业OKR实施的准备程度怎么样?快看北极星TCM团队OKR教练用的“4S检查法”
  9. Wordpress 加入html等文件
  10. 程序员福音-定时提醒bat