最近电影《我不是药神》引发热议,原研药贵,且研制过程九死一生。近期Science Advances上发表了《Deep reinforcement learning for de novo drug design》(基于深度强化学习的新药设计)、以及2017年Journal of Cheminformatics上的《Molecular de-novo design through deep reinforcement learning》。掀起来人工智能方法研制新药的序幕,人工智能到底如何研制新药的?这种方法有什么优缺点?

在制药行业,新药研发是个费时费力、成本高昂、而且成功率极低的工作。一般研制一个新药,需要上十年的时间,费用超过10亿美元。制药企业积累了大量调控蛋白功能的小分子化合物,规模约百万规模的化合物。需要从百万个候选化合物中,刷选出1个药物。这有点像是大海捞针,运气成分很大。而人工智能方法利用机器学习方法,从海量化合物数据库中提取关键有效信息,也许可以大大减少研发时间,提高筛选的成功率,成为新药研发的新的方法。一旦这条路能顺利走通,必将革新小分子化学药研制。

人工智能方法筛选分子有两个途径:一个是用监督学习的方法建模筛选模型,这种方法好比构建一个大海捞针的模型。另一种方法是利用生成建模依照所需特性来生成分子结构,该方法不需要捞针,而是自动生成生成针取代常规的筛选的过程。我们最初提到近期两篇文章,用的是后一种方法。该方法的的目标是训练出一个生成药物分子的模型,在完成训练之后用该模型生成候选药物。

人工智能具体用到了两类方法:一个是深度学习方法,在这里深度学习方法主要是RNN和生成式对抗网络(GAN,Generative Adversarial Networks ),GAN是近年来非常火的一种学习模型,通过生成模型和判别模型相互博弈产生模型。另一个是强化学习方法,用人类已经研制出的药物作为监督样本,调整模型参数。关于强化学习、监督学习、非监督学习方法,Yann LeCun大神对它们有一个比喻图如下:

生成模型的输入是什么呢?回想GAN方法正在图像处理中,输入就直接是图像本身。而在新药研制中,如果将分子数字化是个很好玩的事情,因为总不能将一个分子直接搬到计算机内存里去吧(想想都怪怪的),只能将分子数字化。而人类对分子描述包括分子式、分可以作为分子的数字化特征。

例如在《The cornucopia of meaningful leads: Applying deep adversarial auto encoders for new molecule development in oncology》论文中,他们使用用美国癌症研究所(NCI)的 NCI-60 药物筛检数据库中针对乳癌细胞 MCF-7 的 6252 种化合物,以及分子指纹和分子浓度、生长抑制百分比等数据作为分子的数字化特征,模型输入包括166个参数,来训练一个生成模型。他们所设计的深度网络结构,由输入层(166+1),编码网络(分别由128个和64个神经元组成的两层网络)、解码网络(分别由64个和128个神经元组成的两层网络)、输出层(166+1)、中间的潜在层(分别由4个神经元和1个代表抑制癌细胞效果数据的GI)、鉴别网络(分别由64个和3个神经元组成的两层网络)组成。研究人员在PubChem的七千多万个小分子中,发现了69个化合物,其中13个是已经申请专利的药物分子,另有13个是被PubChem BioAssay登记有效的化合物。

也有文章直接用分子式或者SMILES数据、分子图像以及其他化学和生物相关的分子结构表征数据作为输入,建立模型。想想都觉得疯狂,直接用SMILES数据描述一个分子,也就是将一个分子类比一个自然语言句子,采用自然语言处理方法中常用的RNN或者LSTM方法对这个分子进行建模。这个AI系统得多智能啊!!!直接看分子式就能研制药物了!!本文一开头提到的两篇论文就是用SMILES数据作为模型输入,训练模型的,他们发现直接学习分子式也是一个可行的策略。

对分子式用SMILES编码方法如下图。在本文开头提到的文章中,作者利用RNN方法(或者LSTM方法)可以训练出生成全新SMILES字符串的模型,再基于强化学习中的迁移方法,利用之前人类的小分子数据集作为学习范本,对前面RNN模型进行微调。最终得到的生成模型有可能产生出于真实世界中药物的化合物。

用人工智能方法设计新药看起来很容易、但实际上,当前AI设计新药存在许多缺陷:一是很难解释,设计出来的模型为什么能成功,缺乏解释。二是样本量不够大。尽管分子式达到了千万的规模,但是监督数据却非常少,根据《Nature Reviews Drug Discovery》2016年的数据,在被FDA批准的1578个药物中,总共涉及的靶点数才667个。而且还没办法想AlphaGO那样自动生成样本。三是强化学习方法中的奖励分无法明确给出,使得现有的强化学习方法运用在新药研制上,真正起作用有限。四是就算挑选出新的分子式,它的临场表现如何还得经历九死一生的过程。

归根结底,是因为我们对新药产生的分子机制还不真正清楚,用人工智能方法研制新药任重道远。

往期回顾:

从“猜画小歌”背后的AI原理,教大家如何得高分

何必心中无码,AI让你眼见为实

党给我智慧给我胆,梯度给我努力的方向

【通俗理解】凸优化

【通俗理解】区块链

外卖机器人诞生!快递小哥会失业吗?

刚刚,有位大神用AI搞定了多位女神

你敢@微信官方,不怕它真送你一顶绿色圣诞帽?

别人都在晒18岁照片,而我却在学习~

今日头条败给了色情?AI算法不行,还是另有隐情?

【机器学习】python凭什么能被纳入教材

【机器学习】朴素贝叶斯算法分析

【机器学习】主成分(PCA)算法分析

【机器学习】非线性回归算法分析

【机器学习】线性回归算法分析

读AlphaZero论文随想

进击的TensorFlow

【通俗理解】协方差

【通俗理解】贝叶斯统计

从一个双控开关思考神经网络(下)

从一个双控开关思考神经网络(上)

《我不是药神》与AI研制新药相关推荐

  1. AI进军新药发现研究?这99页slides了解一下

    来源:专知 摘要:近些年,深度学习对许多研究领域产生了深远的影响,应用场景也十分宽泛.我们都知道在医疗领域,新药发现研究是高成本,低产出的,但是对推进医疗领域的发展起到至关重要的作用. 今天,给大家带 ...

  2. AI研发新药真有那么神?可能哈佛、斯坦福和阿斯利康实验室都在吹牛

    安妮 李林 编译自 Medium 量子位 出品 | 公众号 QbitAI 近年来,向往着用AI研发新药的美好愿景,巨头纷纷投下了重注. 制药巨头赛诺菲和AI药物发现平台Exscientia签下3亿美元 ...

  3. 【行业进展】AI:新药研发的新纪元

    杨皓博 大学生,计算机视觉方向 作者 | 杨皓博(微信号Midlurker2017) 编辑 | 杨皓博 01 这个世界没有药神,但是有AI 口碑俱佳<我不是药神>前段时间火热上映,很多人怀 ...

  4. 全球首次!AI研制新药物仅需18个月,李开复梁颕宇:AI医疗已突破,但只打1分...

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI "比DeepMind的AlphaFold,要更加完整." "传统新药研发需10年,它却只用了18个月.&quo ...

  5. AI助力新药研发 腾讯发布「云深智药」平台

    在上海举办世界人工智能大会前夕,腾讯公布了进入药物研发领域的两项最新进展.在应用侧,腾讯发布首个AI驱动的药物发现平台「云深智药(iDrug)」,整合腾讯 AI Lab和腾讯云在前沿算法.优化数据库以 ...

  6. 用AI变革新药研发,终极目标是延缓衰老,这家创业公司迎来“里程碑”

    编者按:新药研发的过程是一个耗资大.周期长以及风险高的行业,传统的药物研发据统计,平均研究每一个新药从靶点发现到药物上市需要大约10年的时间和需要大约20亿美元的研究经费. 如今,人工智能正在改变这一 ...

  7. AI研发新药登上Nature子刊:46天合成潜在新药候选分子,比传统方法快15倍 | 开源...

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 用AI进行药物开发,可以省下2至3年的研发时间. 最新一期的Nature子刊上,就刊登了这样一项新研究. 这项来自Insilico Medi ...

  8. AI医疗高精尖!基于AI的新药研发!

  9. 什么,PyTorch还能开发新药?哈佛推出这款工具包,10行代码训练“药神”模型...

    萧箫 编辑整理 量子位 报道 | 公众号 QbitAI 最近,来自哈佛大学等机构的研究人员,开发出了一个AI"药神"工具包,为加速新冠疫情下的新药研发助力. 这款名为DeepPur ...

最新文章

  1. 车路协同让城市更智慧
  2. 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力
  3. Windows Server 2008 R2修改远程桌面连接数
  4. bzoj 2756奇怪的游戏
  5. 使用计算机仿真的作用是什么,计算机仿真及其在制造业中的应用
  6. 外设驱动库开发笔记20:BME280压力湿度温度传感器驱动
  7. linux 启动一个网站_在线试用 200 多种 Linux 和 Unix 操作系统
  8. 【kafka】浅谈Kafka的多线程消费的设计
  9. 浅谈MyBatis源码工具类之——Reflector类
  10. vant适配移动端750设计稿
  11. JavaWeb自学笔记
  12. 有备无患!DBS高性价比方案助力富途证券备份上云
  13. 深入分析 RTPS协议
  14. tensorboard 2.0可视化 —浏览器中输入http://ip:6006 - 无法访问此网站——有效解决
  15. 计算机开机滴一声513错误,电脑滴一声开不了机怎么办_电脑一声响后就开不了机了的处理办法...
  16. docker-compose部署的服务访问https报错:x509: certificate signed by unknown authority
  17. oracle-临时表
  18. 网络基础服务器 与SMP、NUMA、MPP 三大体系结构科普
  19. 商丘工学院c语言试卷,商丘工学院New Radio82期:青春
  20. c语言用定时器按键发音,c语言中怎样设置计时器?

热门文章

  1. WIN7 安装激活 Office2010后开机慢的解决办法.
  2. 关于VS2013使用OleDbConnection.open报错的解决办法
  3. js打印html页面中的指定内容?
  4. 人工智能时代,为大家推荐几款国外优秀的人工智能商务工具
  5. 游戏排行榜实现mysql_批处理_mysql建立游戏排行榜!
  6. 小程序体验版跟测试版上传照片失败的问题 及图片上传的方法
  7. 涂鸦秒变动画,CMU 中国本科生让画动起来(附代码 Demo)
  8. 经营一家瑜伽馆要考虑哪些方面?
  9. 我去拜访了IPFS的创始人 Juan Benet
  10. html首行下沉效果,css仿word首字下沉效果示例