AlphaFold可以准确预测蛋白质结构的3D模型,并具有加速生物学各个领域研究的潜力。

蛋白质对于生命至关重要,几乎可以支持其所有功能。 它们是大型复杂分子,由氨基酸链组成,蛋白质的作用很大程度上取决于其独特的3D结构。 弄清楚蛋白质折叠成什么形状被称为“蛋白质折叠问题”,并且在过去的50年中一直是生物学上的巨大挑战。 在一项重大的科学进步中,两年一次的蛋白质结构预测关键评估(CASP)的组织者认为,我们最新的AI系统AlphaFold版本可以解决这一挑战。 这一突破表明,人工智能可以对科学发现产生影响,并可以极大地加速解释和塑造我们世界的一些最基本领域的进步。

1、生命构筑的模块

在你身体的每一个细胞里,数十亿个微小的分子机器在努力工作。它们让你的眼睛能够探测到光线,让你的神经元发出信号,让你的DNA中的“指令”被读取,这些都让你成为独一无二的自己。

这些精致复杂的机器是蛋白质。它们不仅支撑着你身体中的生物过程,也支撑着每一个生物过程。它们是生活的基石。

目前,已知的蛋白质约有2亿种,每年还发现3000万种。每一个都有一个独特的三维形状,决定了它的工作原理和作用。

但是计算出蛋白质的确切结构仍然是一个昂贵且通常耗时的过程,这意味着我们只知道科学已知的一小部分蛋白质的精确三维结构。

找到一种方法来弥补这一迅速扩大的差距,并预测数百万未知蛋白质的结构,不仅可以帮助我们应对疾病,更快地找到新的药物,而且可能还可以解开生命本身是如何运作的奥秘。

2、蛋白质折叠问题

如果您能解开一种蛋白质,您会发现它就像一串由一系列不同化学物质(称为氨基酸)制成的珠子。

这些序列是根据生物体DNA的遗传指令组装而成的。20种不同类型的氨基酸之间的吸引和排斥会导致字符串折叠成“自发折纸”壮举,从而形成蛋白质3D结构的复杂卷曲,环行和褶皱。几十年来,科学家一直在尝试寻找一种仅根据氨基酸序列即可可靠确定蛋白质结构的方法。这一巨大的科学挑战被称为蛋白质折叠问题。

多年来,这一直是密集科学研究的重点,它使用各种实验技术来检查和确定蛋白质结构,例如核磁共振和X射线晶体学。 这些技术以及诸如冷冻电子显微镜之类的较新方法取决于广泛的反复试验,每个结构可能要花费数年的艰辛和艰巨的工作,并且需要使用数百万美元的专用设备。

蛋白质折叠问题克里斯蒂安·安芬森(Christian Anfinsen)在1972年诺贝尔化学奖的获奖演讲中著名地提出,从理论上说,蛋白质的氨基酸序列应完全决定其结构。 这一假设引发了长达五年的探索,希望能够仅基于蛋白质的1D氨基酸序列来计算预测蛋白质的3D结构,以作为这些昂贵且费时的实验方法的补充选择。 然而,一个主要的挑战是,蛋白质在进入最终3D结构之前在理论上可以折叠的方式是天文数字。1969年,赛勒斯·莱文塔尔(Cyrus Levinthal)指出,通过蛮力计算来枚举典型蛋白质的所有可能构型所需的时间比已知宇宙的时间长-莱文萨尔估计典型蛋白质的10 ^ 300种可能构象。 但在自然界中,蛋白质会自发折叠,有些会在几毫秒内折叠-这种二分法有时被称为莱文塔尔悖论。

3、什么是AlphaFold?

我们从2016年开始应对这一挑战,并从那时起创建了一个称为AlphaFold的AI系统。

通过约100,000种已知蛋白质的序列和结构来对这个系统进行训练。现在,我们的最新版本可以根据其氨基酸序列对蛋白质形成的形状做出准确的预测。这是一项重大突破,彰显了人工智能对科学的影响。

4、加入全球研究社区

1994年,对蛋白质折叠感兴趣的科学家成立了CASP(蛋白质结构预测的关键评估)。作为两年一次的盲目评估,以促进研究,监测进展并建立蛋白质结构预测的最新技术水平。 它既是评估预测技术的黄金标准,也是建立在共同努力基础上的独特全球社区。 最重要的是,CASP选择刚在实验上确定的蛋白质结构(在评估时仍在等待确定)作为团队测试其结构预测方法的目标。 它们不会提前发布。 参与者必须盲目地预测蛋白质的结构,然后将这些预测与可获得的地面真实实验数据进行比较。 我们要感谢CASP的组织者和整个社区,尤其是实验人员,他们的结构能够进行这种严格的评估。

研究小组为蛋白质选择了氨基酸序列,这些氨基酸序列具有精确的3D形状映射,但尚未发布到公共领域。 小组必须提交最佳预测,以了解它们与随后揭示的结构有多接近。 在参加CASP13(2018)的团队中,AlphaFold在蛋白质结构预测挑战赛中排名第一。 在CASP14(2020)上,我们介绍了最新版本的AlphaFold,该版本现已达到解决蛋白质结构预测问题的准确性水平。

我们的工作建立在CASP组织者和蛋白质折叠界数十年来的研究基础上,我们感谢多年来为蛋白质结构做出贡献的无数人,从而使进行如此严格的评估成为可能。

5、AlphaFold采用的方法

解决蛋白质折叠问题的方法我们于2018年首次使用我们的初始版本AlphaFold进入CASP13,在参与者中获得了最高的准确性。 之后,我们发表了一篇有关《natural》中带有关联代码的CASP13方法的论文(代码及论文建见参考文献),该论文继续启发了其他工作和社区开发的开源实现。 现在,我们开发的新的深度学习架构推动了CASP14方法的变化,使我们能够实现无与伦比的准确性。 这些方法从生物学,物理学和机器学习领域以及过去半个世纪中在蛋白质折叠领域的许多科学家的工作中汲取了灵感

折叠的蛋白质可以被视为“空间图”,其中残基是结点,边缘将残基紧密相连。 该图对于理解蛋白质内的物理相互作用及其进化历史非常重要。 对于CASP14上使用的最新版本的AlphaFold,我们创建了一个基于注意力的神经网络系统,端到端进行了培训,该系统试图解释该图的结构,同时推理其构建的隐式图。 它使用进化相关序列,多序列比对(MSA和氨基酸残基对表示来完善此图。

    通过重复此过程,系统可以对蛋白质的基本物理结构进行强有力的预测,并能够在几天之内确定高精度的结构。 此外,AlphaFold可以使用内部置信度量度来预测每个预测的蛋白质结构的哪些部分是可靠的。

我们在可公开获得的数据上训练了该系统,该数据由来自蛋白质数据库的〜170,000种蛋白质结构以及包含未知结构蛋白质序列的大型数据库组成。 它使用了大约16个TPUv3(相当于128个TPUv3内核或大约相当于100-200个GPU),运行了几周,相对于机器中使用的大多数大型最新模型而言,计算量相对较小。 与我们的CASP13 AlphaFold系统一样,我们正在准备有关该系统的论文,以适时提交给同行评审期刊。

在我们发表有关这项工作的论文之前,请引用:

《High Accuracy Protein Structure Prediction Using Deep Learning》

John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Kathryn Tunyasuvunakool, Olaf Ronneberger, Russ Bates, Augustin Žídek, Alex Bridgland, Clemens Meyer, Simon A A Kohl, Anna Potapenko, Andrew J Ballard, Andrew Cowie, Bernardino Romera-Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Martin Steinegger, Michalina Pacholska, David Silver, Oriol Vinyals, Andrew W Senior, Koray Kavukcuoglu, Pushmeet Kohli, Demis Hassabis.

2020年11月30日至12月4日,在《蛋白质结构预测技术的第十四次关键评估》中(摘要集见参考文献)。

6、解读Covid-19

当Covid-19出现时,对此知之甚少。 但是,世界各地的科学家聚在一起,寻找解决问题的方法。

导致Covid-19的病毒SARS-CoV-2由大约30种蛋白质组成,其中约10种蛋白质被人们所知甚少。

我们的研究小组使用AlphaFold预测了SARS-CoV-2病毒基因组中六个尚未充分研究的蛋白质的结构,希望它们可以增进我们对该病毒的了解。

这些蛋白质之一的结构称为ORF3a,随后使用科学实验进行了研究。 作为CASP14的一部分,我们证明了另一种SARS-CoV-2蛋白ORF8的预测更为准确。

这些结果提供了有关AlphaFold等AI工具如何更好地为我们应对未来大流行做准备的一瞥。

7、加速科学发现

像AlphaFold这样的系统,能够准确地预测蛋白质的结构,可以加速许多对社会重要的研究领域的进展。

例如,关于蛋白质结构的有限信息一直是加深我们对诸如昏睡病(锥虫病)和利什曼病等被忽视的热带病的了解的主要障碍,这些疾病影响着数百万人的生活,每年造成成千上万人的死亡。

它还阻碍了许多基础研究工作。 例如,开发一种新药可能需要超过25亿美元和10年以上的时间。  AlphaFold可以通过鉴定许多与疾病有关的人类蛋白质的结构,帮助促进更好和更有效的药物发现。

它还可以帮助释放新的可能性,例如发现可以分解工业和塑料废物或有效地从大气中捕获碳的蛋白质和酶。

在我们能够帮助这些领域产生实际影响之前,还有更多工作要做,但潜力无限。 如果AlphaFold与您的工作有关,请将有关它的几行提交到alphafold@deepmind.com。 尽管我们的团队无法回答所有询问,但如果有进一步探索的余地,我们会与您联系。

8、展望未来

AlphaFold是上一代产品中的佼佼者,以惊人的速度和精度预测蛋白质结构。 这一飞跃证明了计算方法将如何转变生物学研究,并为加速药物发现过程具有广阔的前景。

我们对AlphaFold的研究仍在继续,但是到目前为止,我们的工作以及CASP等组织的独立评估,都进一步增强了我们的希望,即其预测将很快有助于释放有益于社会的生物学研究的新可能性。

我们对AlphaFold旅程的下一阶段感到很兴奋,并期待继续与全球科学界合作,以释放生命的基础。

参考资料

https://www.rcsb.org/stats/growth/growth-released-structures

https://www.nature.com/articles/s41586-019-1923-7.pdf

https://predictioncenter.org/casp14/doc/CASP14_Abstracts.pdf

https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13

https://github.com/dellacortelab/prospr

基于注意力对抗生成网络的AlphaFold从氨基酸序列建立三维蛋白质结构相关推荐

  1. 【人工智能笔记】第三十六节:TF2实现VITGAN对抗生成网络,MSA多头注意力 实现

    该章节介绍VITGAN对抗生成网络中,MSA多头注意力 部分的代码实现. 目录(文章发布后会补上链接): 网络结构简介 Mapping NetWork 实现 PositionalEmbedding 实 ...

  2. FSGAN:一种基于对抗生成网络的换脸术

    本文导读 本文主要介绍ICCV 2019的一篇文章,FSGAN:Subject Agnostic Face Swapping and Reenactment. 文章提出了一种基于对抗生成网络的换脸术, ...

  3. 直播 | 顾险峰教授讲座:对抗生成网络的几何理论解释

    深度学习中的对抗生成网络GAN是复杂分布上无监督学习最具前景的方法之一.虽然在工程上对抗生成网络取得巨大成功,在理论上对于GAN的理解依然肤浅. 本期清华大数据"技术·前沿"系列讲 ...

  4. 报名 | 顾险峰教授讲座:对抗生成网络的几何理论解释

    深度学习中的对抗生成网络GAN是复杂分布上无监督学习最具前景的方法之一.虽然在工程上对抗生成网络取得巨大成功,在理论上对于GAN的理解依然肤浅. 本期清华大数据"技术·前沿"系列讲 ...

  5. 悉尼大学陶大程:遗传对抗生成网络有效解决GAN两大痛点

    来源:新智元 本文共7372字,建议阅读10分钟. 本文为你整理了9月20日的AI WORLD 2018 世界人工智能峰会上陶大程教授的演讲内容. [ 导读 ]悉尼大学教授.澳大利亚科学院院士.优必选 ...

  6. 一文读懂对抗生成网络的3种模型

    https://www.toutiao.com/i6635851641293636109/ 2018-12-17 14:53:28 基于对抗生成网络技术的在线工具edges2cats, 可以为简笔画涂 ...

  7. 深度学习代码实战演示_Tensorflow_卷积神经网络CNN_循环神经网络RNN_长短时记忆网络LSTM_对抗生成网络GAN

    前言 经过大半年断断续续的学习和实践,终于将深度学习的基础知识看完了,虽然还有很多比较深入的内容没有涉及到,但也是感觉收获满满.因为是断断续续的学习做笔记写代码跑实验,所以笔记也零零散散的散落在每个角 ...

  8. 【论文阅读】PU-GAN:点云上采样的对抗生成网络

    [论文阅读]PU-GAN:点云上采样的对抗生成网络 在本文中,作者提出了一种点云上采样的对抗网络模型,那么什么是点云的上采样任务呢? 简单来说,点云上采样任务就是输入稀疏点云,输出稠密点云,同时需要保 ...

  9. 以假乱真的对抗生成网络(GAN)

    本期课程到这里,博主就默认大家已经对BP.CNN.RNN等基本的神经网络属性以及训练过程都有相应的认知了,如果还未了解最基本的知识,可以翻看博主制作的深度学习的学习路线,按顺序阅读即可. 深度学习的学 ...

  10. 干货 | 顾险峰:对抗生成网络的几何理论解释(附视频PPT)

    在近日举办的清华大数据"技术·前沿"系列讲座中,来自纽约州立大学计算机系终身教授,哈佛大学数学科学与应用中心兼职教授顾险峰老师做了主题为"对抗生成网络的几何理论解释&qu ...

最新文章

  1. Spring Cloud Alibaba发布第二个版本,Spring 发来贺电
  2. linux7内核优化,centos7 系统内核、网络等优化(适用高并发)
  3. SAP RETAIL 事务代码RWBE查询界面上的Plant Group
  4. 【深度学习的数学】激活函数的作用是什么?
  5. TensorFlow模型持久化
  6. leetcode 121
  7. windows下设置tomcat自动启动的注意事项
  8. 数值计算(四)——插值法(3)Hermite插值法
  9. 实用Chrome插件
  10. 什么是Winsock WSAData ?
  11. pdf.js上传有盖章文件盖章不显示
  12. 分享下nirsoft提供的注册表工具
  13. 黑暗城堡(dijkstra算法)
  14. 数论类题目小结 (转帖)~~~经典…
  15. 想当然的性能调优:加一个SSD
  16. matplotlib折线图与柱状图绘制在一起
  17. 关于C++ variant 类型问题
  18. Arduino IDE下的stm32环境搭建、OLED液晶显示(U8g2lib库)、NUCLEO-F411测试、STM32F103C8T6在Arduino下的液晶显示、
  19. 显卡的基本作用是控制计算机的什么,计算机的独立显卡有什么功能?
  20. 高通LCD 开机logo制作

热门文章

  1. vue项目改图标_vue 项目全局修改element-ui的样式
  2. Apollo公开课四:感知
  3. 新浪微博开放平台php sdk,新浪微博开放平台
  4. matlab非参数检验,非参数检验及matlab实现
  5. jQuery锁定页面元素(表格列)
  6. css设置背景颜色透明度
  7. el-table因为出现垂直滚动条造成多一个td的空白格
  8. html怎么设置字体为微软雅黑,css如何设置字体为微软雅黑
  9. java 调用微信JsApi支付
  10. Python,OpenCV制作全透明图,简单的图片