今天我们介绍来自复旦大学的Lihao Wang以及其他来自字节跳动AI实验室与清华大学AI产业研究院的成员发布在NeurIPS 2022会议上的工作,该文章介绍了一种新方法——正则化分子构象场(RMCF),用于从化学结构中预测最有利的三维构象。文章强调了小分子在自然条件下可能出现的复杂动力学,这可能导致高维度的势能面(PES),从而使得从PES中获得多样的样本变得困难。为此,作者们提出了RMCF,该方法利用图神经网络计算分子结构的表示,并通过正则化技术进行优化。文章还详细介绍了RMCF的计算过程,并提供了开源代码。最后,作者提到了RMCF的局限性。

背景介绍

从分子图中预测有机分子的积极三维构象在计算机辅助药物发现研究中起着重要作用。然而,有效地探索高维构象空间以识别(元)稳定构象绝不是微不足道的。在这项工作中,我们介绍了RMCF,一种新的框架,通过从正则化分子构象场采样来生成多样化的低能分子构象。我们开发了一种数据驱动的分子分割算法,将每个分子自动划分为几个结构构件,以降低建模自由度。然后,我们利用马尔可夫随机场来学习碎片构型和碎片间二面角的联合概率分布,这使我们能够从构象空间的不同低能区域进行采样。

本文的创新与贡献:

  • 本文提出了一种正则化分子构象场的方法,能够从低维输入特征中预测有机分子的三维构象。相较于传统的手工特征提取方法,该方法不需要专业领域知识和人工干预,也能够处理高维度和非线性的输入数据。

  • 本文还提出了一种基于双层编程的构象生成模型,并通过对比实验验证了其在构象生成领域的优越性能。

  • 本文提出的模型可为药物分子设计等领域提供更加准确和高效的工具和方法。

方法介绍

本文提出了一种正则化分子构象场(Regularized Molecular Conformation Fields,RMCF)模型,用于预测有机分子的三维构象。具体来说,RMCF 模型主要由三个步骤组成:

  • 从分子图构建正则化的分子构象空间。在构建分子图方面,采用了分子指纹编码(BRICS)算法,同时对环和侧链进行了切割,防止可能的组合爆炸。具体而言,RMCF 模型通过建立一个分子构象分布,在正则化分子构象空间上进行采样,从而获得多样性的构象样本。

图1:乙烷分子的势能示意图。上图显示了三个简并重叠构象的纽曼投影,下图显示了两个能量有利的交错构象。H-C-C-H二面角足以描述势能的变化

  • 预测分子的二面角和片段构象。在预测分子的二面角和片段构象时,RMCF 模型使用了分层嵌套网络(GNN),将分子图的节点和边分别进行训练。最后,根据预测结果,将分子构建出来。

图2:RMCF的工作流程从二维分子图开始,我们将分子划分为片段内自由度最小的片段。蓝色和红色圆圈分别表示碎片和二面角构型,而黑色方块表示相邻构型之间的相互作用。然后,我们使用MRF来模拟碎片和二面体构型的联合概率分布。最后一步是根据预测的二面角和片段构象组装预测的分子构象。

  • 根据预测结果生成分子构象。

实验介绍

数据集:本文使用了两个数据集,一个是QM9,另一个是GEOM-Drugs。其中QM9数据集包含133,885个分子,每个分子都包含了基本的量子力学信息,如化学成分,原子坐标,电子能量等。而GEOM-Drugs数据集则包含了一系列高质量的有机分子构象。实验中,我们采用了GeoDiff论文中的测试集,并按照9:1的比例划分训练集和验证集。最终数据集中,训练集包含271,539个分子,验证集包含30,171个分子,测试集包含1,034个分子。在对GEOM-Drugs数据集进行分子分割后,我们获得了9,081种二维碎片和30,408种三维碎片。对于二面角角度的离散化,我们将360度的区间均匀划分为72个区间。实验采用了信息传递神经网络(Message-Passing Neural Network,MPNN)作为实现图神经网络的框架。

实验过程:本文实验过程分为三个主要步骤。第一步是构造分子图,采用了最少自由度原则,即对于分子的每个部分选择一个旋转角度来代替其所有自由度,并且使用BRICS算法构造分子的化学结构。第二步是预测分子的二面角度,我们采用了一个基于图神经网络和循环神经网络的模型来预测分子的二面角度值。第三步是装配预测的分子构象,根据预测的二面角度和片段构象来组装原子坐标。我们在多个基准数据集上对我们的模型进行了评估,并且取得了竞争性的结果。我们公开发布了我们的代码和模型以及在我们数据集上的预处理结果。

实验结果:本文的实验结果表明,所提出的正则化分子构象场模型(Regularized Molecular Conformation Fields)能够在有限的样本量下,实现高效、准确地预测有机分子的三维构象。具体来说,在多个数据集上进行的实验表明,该模型在预测分子构象时能够显著优于多个现有模型,且其结果具有较好的可解释性。此外,作者还研究了模型表现的上限和下限,并发现使用分子片段作为构象生成的基本单元,极大地简化了模型,避免了需要生成大量无用的变量。总之,该实验结果验证了所提出模型的可行性和有效性。

表1:未进行FF优化的GEOM - Drugs数据集的结果

表2:GEOM - Drugs数据集上RMCF性能的经验上界和下界

图3:前三个生成的两个例子分子的构象。上面的面板显示了3D原子排列,其中非刚性片段对齐以帮助可视化。下方面板显示了每个分子的分割位置,如剪刀所示。

结论

我们介绍了RMCF,一种新的三维分子构象生成框架。我们的模型是物理驱动的,其中心思想是有效地模拟在减少的构象空间中控制动力学模式的联合概率分布,以实现能量上有利的构象生成。实验结果表明,RMCF在GEOM - Drugs数据集上优于最先进的模型,可以预测位于相应分子势能表面不同局部极小值的不同构象集。我们的方法可以自然地扩展到更大的生物分子系统,例如蛋白质,其构象预测是生物研究界的一个重要主题。

参考资料

Wang, Lihao, Yi Zhou, Yiqun Wang, Xiaoqing Zheng, Xuanjing Huang, and Hao Zhou. "Regularized Molecular Conformation Fields." Advances in Neural Information Processing Systems 35 (2022): 18929-18941.

代码

https://github.com/leowang1217/RMCF

NeurIPS 2022 | 正则化分子构象场相关推荐

  1. 全球博士Talk NeurIPS 2022 预讲会完美收官,27位博士生共话机器学习前沿研究

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! NeurIPS,全称神经信息处理系统大会,是关于机器学习和计算神经科学的国际会议.该会议固定在每年的12月举行,由NeurIPS基金会主 ...

  2. 论文解读| NeurIPS 2022:面向科学任务的图神经网络设计

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 近日中国人民大学高瓴人工智能学院师生有23篇论文被CCF A类国际学术会议NeurIPS 2022录用.神经信息处理系统大会(Neura ...

  3. NeurIPS 2022|基于神经微分方程理论可以帮助我们训练更加深层次的ResNet网络

    原文链接:https://www.techbeat.net/article-info?id=4204 作者:seven_ 本文的重点研究对象是在视觉领域占据统治地位的残差神经网络(ResNets),R ...

  4. NeurIPS 2022高分论文!DeRy:让知识迁移像拼积木一样简单高效!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 本文提出一种新的迁移学习范式,称为深度模型重组.它可以将不同种类的 ...

  5. NeurIPS 2022 | PEMN:参数集约型掩码网络

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 NeurIPS 2022 | Parameter-Efficient ...

  6. NeurIPS 2022 | 清华提出P2P:基于预训练图像模型的点到像素提示学习方法

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 在这里和大家分享一下我们被NeurIPS 2022录用的点云理解工 ...

  7. 十年前的AlexNet,今天的NeurIPS 2022时间检验奖

    目录:十年前的AlexNet,今天的NeurIPS 2022时间检验奖 一.前言 二.时间检验奖 一.前言 作为当前全球最负盛名的 AI 学术会议之一,NeurIPS 是每年学界的重要事件,通常在每年 ...

  8. 活动报名 | 马毅研究组NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNet

    最近,马毅教授研究组在NeurIPS 2022上发表了一篇新论文,回顾了稀疏卷积模型在图像分类中的应用,并成功解决了稀疏卷积模型的经验性能和可解释性之间的不匹配问题. 11月15日(周二)19:00「 ...

  9. NeurIPS 2022 | Stable Diffusion采样速度翻倍!清华提出扩散模型高效求解器

    ©作者 | 机器之心编辑部 来源 | 机器之心 清华大学计算机系朱军教授带领的 TSAIL 团队提出 DPM-Solver(NeurIPS 2022 Oral,约前 1.7%)和 DPM-Solver ...

最新文章

  1. antd Select 使用动态数据渲染选择项
  2. hdu 4751(dfs染色)
  3. Excel如何快速将科学计数法数字变成正常形式
  4. python快速编程入门课后题答案-《Python编程:从入门到实践》第五章 if语句 习题答案...
  5. leetcode - two-sum
  6. 数据集成之主数据管理(转载整理)
  7. 安装Nginx到linux服务器(Ubuntu)详解
  8. shell中 if else以及大于、小于、等于逻辑表达式介绍
  9. 用arp-scan扫描局域网IP地址
  10. make:cc 命令未找到的解决方法
  11. Vue全家桶+koa2+MySql(sequelize)重构“零食商贩”项目
  12. 记自己在用友的三个月实习经历
  13. 机器人抓取中物体3D定位算法介绍
  14. 计算机综述论文能发期刊吗,计算机核心期刊哪些好发
  15. 【学习笔记】Baby Step Giant Step算法及其扩展
  16. oracle 9i 启动监听报错误 TNS-12555: TNS:permission denied 解决
  17. 多次散射 matlab,一种利用外推获得具有多次散射目标远场rcs的方法
  18. vue3使用箭头函数导入异步组件报错Invalid VNode type: undefined的解决方案
  19. 数值越界mysql_Mysql数据读取越界问题
  20. java 七巧板油漆问题_七巧板的问题

热门文章

  1. 超简单版模拟实现银行中用户存取款业务
  2. B端产品经理-官网设计总结
  3. python-变量定义域及相关函数
  4. 打印机显示服务器脱机是什么原因,“打印机显示脱机无法打印的解决办法”的解决方案...
  5. .NET图表控件TeeChart for .NET使用教程:图例设计
  6. c语言把一个字符从指定文件中读取的函数,C语言中对文件最基本的读取和写入函数...
  7. 统计学习第四弹--随机变量的概率分布
  8. 计算机DNS怎么配置,电脑dns怎么设置
  9. 购买日本国内便宜机票的小窍门!
  10. 基于蚁群算法的路由选择优化算法