今天介绍一篇由耶鲁大学Egbert Castro等人于2022年9月26日发表在nature machine intelligence上的文章。本文引入了正则化潜在空间优化(ReLSO),这是一种基于深度Transformer的自动编码器,它具有高度结构化的潜在空间,经过训练可以联合生成序列并预测适应度。作者团队在几个公开可用的蛋白质数据集上评估了这种方法,观察到ReLSO的序列优化效率更高。

介绍

基于序列的蛋白质设计的主要挑战是潜在序列的巨大空间。上位性(序列中较远残基的氨基酸之间的高阶相互作用)进一步加剧了这一障碍,使得很难预测序列中微小变化对性质的影响。总之,这激发了对更好序列-功能关系的方法的需求,通常使用适应度景观来描述,来生成具有所需特性的蛋白质。蛋白质的适应度(通常指的是氨基酸序列所具有的某种可量化的功能水平:比如结合亲和力、荧光、催化和稳定性)更直接地是其折叠的三维结构的结果,但是结构信息不总是可用的,因此通常将适应度直接与序列联系起来。

为了在序列空间中导航,通常应用定向进化的迭代搜索过程,其中生成多批随机序列并对感兴趣的功能或属性进行筛选。然后,最好的序列被带到下一轮文库生成和选择。有效地,使用爬山方法搜索序列空间,因此容易受到局部极大值的影响,这可能会掩盖更好的序列发现。在序列空间工作的另一种选择是学习多肽和蛋白质的低维、语义丰富的表示。使用这种方法,可以称为在潜在空间优化的过程中,使用其潜在表示来优化候选治疗。

作者团队提出了ReLSO,一种基于深层转换器的蛋白质设计方法,它将模型的强大编码能力与产生信息丰富的低维潜在表示的瓶颈相结合。ReLSO的主要贡献如下:

  • 基于的编码器的新用途,具有自动编码器类型的瓶颈,用于蛋白质序列的丰富和可解释性编码;

  • 由序列-功能关系组织的潜在空间,这减轻了由于组合爆炸造成的优化困难;

  • 使用基于范数的负采样重塑的凸潜在空间,从而为基于梯度的优化引入边界和停止标准;

  • 一种基于插值的正则化,当遍历潜在空间时,该正则化强制解码序列空间中的渐变。这允许对训练数据所在的基础序列流行进行更密集的采样;

  • 从潜在空间生成新序列的梯度上升算法。

实验

ReLSO架构和正则化

ReLSO架构旨在共同生成蛋白质序列,以及从潜在的表现预测适合度。使用多任务损失公式来训练该模型,该公式同时通过结构和功能来组织潜在空间,从而将从高维离散空间中的搜索问题中寻找高适应性序列的任务简化为低维连续空间中的更易处理的优化问题。ReLSO创新性地使用了插值正则化,该正则化增强了序列的平滑性,由此对潜在表示的小扰动对应于重构序列中的微小变化。

基于降维的编码器

图1. RelSO将序列映射到一个正则化的模型适应度景观

ReLSO采用基于变换器的编码器来学习从序列x到其潜在表示z的映射(如图1所示)。编码器网络中的 将输入蛋白质转换为令牌级表示,其中序列中的每个氨基酸都由固定长度的位置编码替换。然后,使用基于注意力的池化机制将该表示压缩为粗略的序列级表示,该机制计算位置编码的凸和。与其他变换器编码器相比,使用全连接网络(图1a)进一步降低了序列级表示的维数。这相当于通过信息瓶颈传递序列信息,产生信息丰富的低维z。

联合训练自动编码器(JT-AE)

ReLSO在蛋白质设计中结合了两个重要因素:(1)序列,(2)适合度信息。通过用预测网络联合训练自动编码器,由编码器和解码器组成的原始自动编码器架构补充了网络,网络的任务是从z预测适应性。最终目标函数采取以下形式:

这包括重建损失和适应性预测损失。作者团队将利用重建和适应性预测损失训练的模型架构称为JT-AE。

潜在空间伪凸性的负采样

在潜在空间中执行优化的基本挑战是优化轨迹可能偏离训练数据很远,进入模型预测精度恶化的区域,产生不可信的结果。JT-AE的适应度预测头为潜在空间优化提供方向信息。然而,它没有强加任何停止标准或任何强有力的边界或适应度最优的概念。

为了充分利用由适应度预测头提供的梯度信号,作者团队在学习适应度函数中引入偏向训练数据附近的潜在空间中的区域的偏差。这是通过一种叫做基于范数的负采样的数据扩充技术来实现的。从训练数据获得的每个z用一组负样本来补充。这些负样本是通过对真实潜在点周围的潜在空间的高范数区域进行采样而产生的(图1d)。通过给这些人工点分配低适合度,并将它们包括在适合度预测损失中,以这样一种方式被重新成形。使用这种正则化,隐式信赖域形成,从而为潜在空间优化提供自然停止准则。作者团队将把用这种正则化方法扩充的JT-AE模型称为ReLSO。

潜在空间连续性的插值采样惩罚

图2. 基于最大似然法的蛋白质序列优化效率比较

其中,x1和x2是潜在空间中最近的邻居,是内插潜在点的解码序列。最后,具有负采样和插值采样正则化的完整模型被称为ReLSO。

基于ReLSO的潜在空间优化和序列生成

作者团队利用ReLSO高度结构化的潜在空间对几个公开可用的数据集进行蛋白质序列优化。首先,潜在空间不仅对适应度(图2a)而且对序列信息(图2c)保持全局组织。接下来,负采样和插值采样正则化引入了具有若干属性的潜在空间,这些属性简化了蛋白质序列优化任务,例如伪cave适应度函数。最后,在ReLSO的潜在空间中的遍历导致顺序和适合度的逐渐变化。

为了优化蛋白质序列,我们使用梯度上升,这允许对适应度进行系统和有效的调节。首先,序列x由编码以产生潜在编码z。该过程将输入蛋白质序列映射到其在模型潜在适应度景观中的点。接下来,计算相对于潜在点的预测适应度的梯度。所确定的梯度提供了朝向潜在适应度最大值的方向信息,并用于更新潜在点。

这个迭代过程需要两个超参数,步长和步数k。在优化循环结束时,产生最终潜在点。总的来说,这个过程被称为潜在空间优化,由此蛋白质序列在模型的潜在空间中而不是直接被优化。这个点相应的使用解码为相应的序列。总的来说,这个过程被称为潜在空间优化,由此蛋白质序列在模型的潜在空间中被优化而不是直接被优化。

与其他蛋白质序列优化策略的比较

图3. 基于最大似然法的蛋白质序列优化效率比较

近年来,出现了许多依赖于使用深度学习模型的蛋白质序列优化方法。其中一些方法使用该模型对由迭代或随机搜索产生的候选序列进行计算机筛选。在这项研究中,作者团队寻求利用中存在的梯度信息来搜索更合适的蛋白质序列。由于优化的序列可能具有在下游分析中出现的隐藏缺陷(例如,抗体的免疫原性),因此通常希望在优化阶段结束时产生几个有希望的候选者。作者团队通过在集合Φ中收集高适应度序列来复制这种情况,其中包含仅限于预测具有高于某个阈值的适应度值的序列。作者团队通过每种方法的Φ的基数(图 3a)和结束的适应度值(图 3b)来评估所考虑的优化方法,最终发现ReLSO能够以更少的优化步骤在数据集上产生更大的高适应度序列集。

讨论

作者团队采取了一种结合两种学习目标的替代方法,即采用多任务学习方法。通过同时优化蛋白质序列生成和适应度水平预测,显式地加强了富含关于序列和适合度信息的潜在空间。然后,添加反映蛋白质工程原理的规则,重塑过程中的潜在空间。利用这些正则化和模型的架构,作者团队展示了梯度上升优化如何在蛋白质序列空间中搜索时提供蛋白质优化的改进。此外,作者团队提出的方法仅依赖于与适合度值配对的序列信息,这表明ReLSO-like结构可以应用于其他生物分子,如DNA和RNA。

参考资料

Castro, E., Godavarthi, A., Rubinfien, J. et al. Transformer-based protein generation with regularized latent space optimization. Nat Mach Intell (2022).

https://doi.org/10.1038/s42256-022-00532-1

源码

https://github.com/dhbrookes/CbAS

Nat. Mach. Intel. | ReLSO: 具有正则化潜在空间优化的基于Transformer的蛋白生成相关推荐

  1. Nat. Mach. Intel. | IBM RXN: 深度学习在化学反应分类上大放异彩

    最近IBM和伯尔尼大学的研究人员利用基于自注意力机制的深度神经网络实现了对化学反应的分类,该项成果发布于Nature Machine Intelligence杂志上. 化学反应的分类对化学家们有很高的 ...

  2. Nat. Mach. Intel. | 突变后蛋白蛋白结合力的拓扑网络树预测模型

    今天给大家介绍密歇根州立大学数学系Guowei Wei教授团队2020年2月14日发表在Nature Machine Intelligence上的文章:A topology-based network ...

  3. (Latent Space)理解机器学习中的潜在空间

    原文链接:https://zhuanlan.zhihu.com/p/369946876 搬运自 https://towardsdatascience.com/understanding-latent- ...

  4. Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略

    今天给大家介绍来自不列颠哥伦比亚大学和阿尔伯塔大学联合发表的一篇文章.该文章系统地评估并优化了基于循环神经网络在低数据环境中的分子生成模型.发现该模型可以从更少的例子中学习到健壮的模型.同时,本文还确 ...

  5. Nat. Mach. Intell. | 华科同济医学院剑桥联手推出新冠预测模型!

    今天给大家介绍华中科技大学同济医学院及剑桥大学联合发表在Nature Machine Intelligence的一篇文章.文章中作者提出了一个基于XGBoost机器学习的模型,可以提前10天以上预测患 ...

  6. Nat. Mach. Intell.|从局部解释到全局理解的树模型

    今天介绍美国华盛顿大学保罗·艾伦计算机科学与工程学院的Su-In Lee团队在nature mechine intelligence 2020的论文,该论文提出了一种基于博弈论沙普利值的TreeExp ...

  7. Nat. Mach. Intell.| 机器学习显著降低药物组合筛选成本

    今天给大家介绍2019年12月发表在Nature Machine Intelligence的论文"Prediction of drug combination effects with a ...

  8. Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现

    今天给大家介绍瑞士苏黎世联邦理工学院化学与应用生物科学系 Gisbert Schneider等人在Nature Machine Intelligence上发表的文章"Drug discove ...

  9. Nat.Mach.Intell.| DEcode:深度学习解读差异基因表达原理

    今天给大家介绍拉什大学的Shinya Tasaki 等人在Nature Machine Intelligence上发表的文章"Deep learning decodes the princi ...

最新文章

  1. R 生信数据可视化(聚类热图)
  2. UVA11825 黑客的攻击 Hackers' Crackdown 状压DP,二进制,子集枚举
  3. linux和哪些主机配了互信,linux主机互信
  4. C++_异常6-其他异常特性
  5. python谱聚类算法_谱聚类Spectral clustering(SC)
  6. python time localtimeq获取准确时间_python的内置模块time和datetime的方法详解以及使用(python内的time和datetime时间格式)...
  7. maya界面字体大小修改方法
  8. mysql grant 用户权限总结
  9. hdu6287(分解质因数+二分)
  10. gitee 企业 git clone You hasn‘t joined this enterprise! 问题
  11. Rapid Tampere加速联合产业创新
  12. 1024程序员节200G资料大放送
  13. 关闭苹果无线服务器,苹果iOS11 WiFi、蓝牙无法关闭怎么回事?附彻底关闭方法...
  14. 5G/NR PRACH、PUSCH功率控制
  15. 资源分享:嵌入式stm32项目开发 心率检测仪的设计与实现
  16. 汇总一下Intellij IDEA炫酷的插件
  17. html 的smap标签,Struts 常用标签
  18. 23种设计模式----模板方法模式----行为模式
  19. c语言文件怎么重命名文件,c语言中 如何删除文件和重命名文件,举个例子可以么...
  20. Vue-透传Attributes使用解析

热门文章

  1. python学会爬虫要多久_零基础三天学会Python爬虫(第二天)
  2. 【小f的刷题笔记】(JS)链表 - 单链表的倒数第 k 个节点 LeetCode19 单链表的中点 LeetCode876
  3. ARM发布Cortex-A78参数细节
  4. 护航全生命周期,支撑企业数据资产的精细化管控
  5. 【笔记】入门级All in one系列(二):入门级家用AIO需求分析参考
  6. FCPX插件-103个可爱卡通水果蔬菜食物图标动画 Healthy Food Icons
  7. Java基础系列24-常用api之String类
  8. [CQOI2007]矩形RECT
  9. 自考计算机基础00018难吗,自考公共课00018-计算机应用基础(看完必过).doc
  10. 中台的本质及中台建设的4点思考