抗乳腺癌候选药物的优化建模
一、背景介绍
乳腺癌是目前世界上最常见,致死率较高的癌症之一。乳腺癌的发展与雌激素受体密切相关,有研究发现,雌激素受体α亚型(Estrogen receptors alpha, ERα)在不超过10%的正常乳腺上皮细胞中表达,但大约在50%-80%的乳腺肿瘤细胞中表达;而对ERα基因缺失小鼠的实验结果表明,ERα确实在乳腺发育过程中扮演了十分重要的角色。目前,抗激素治疗常用于ERα表达的乳腺癌患者,其通过调节雌激素受体活性来控制体内雌激素水平。因此,ERα被认为是治疗乳腺癌的重要靶标,能够拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。比如,临床治疗乳腺癌的经典药物他莫昔芬和雷诺昔芬就是ERα拮抗剂。
目前,在药物研发中,为了节约时间和成本,通常采用建立化合物活性预测模型的方法来筛选潜在活性化合物。具体做法是:针对与疾病相关的某个靶标(此处为ERα),收集一系列作用于该靶标的化合物及其生物活性数据,然后以一系列分子结构描述符作为自变量,化合物的生物活性值作为因变量,构建化合物的定量结构-活性关系(Quantitative Structure-Activity Relationship, QSAR)模型,然后使用该模型预测具有更好生物活性的新化合物分子,或者指导已有活性化合物的结构优化。
一个化合物想要成为候选药物,除了需要具备良好的生物活性(此处指抗乳腺癌活性)外,还需要在人体内具备良好的药代动力学性质和安全性,合称为ADMET(Absorption吸收、Distribution分布、Metabolism代谢、Excretion排泄、Toxicity毒性)性质。其中,ADME主要指化合物的药代动力学性质,描述了化合物在生物体内的浓度随时间变化的规律,T主要指化合物可能在人体内产生的毒副作用。一个化合物的活性再好,如果其ADMET性质不佳,比如很难被人体吸收,或者体内代谢速度太快,或者具有某种毒性,那么其仍然难以成为药物,因而还需要进行ADMET性质优化。为了方便建模,本试题仅考虑化合物的5种ADMET性质,分别是:1)小肠上皮细胞渗透性(Caco-2),可度量化合物被人体吸收的能力;2)细胞色素P450酶(Cytochrome P450, CYP)3A4亚型(CYP3A4),这是人体内的主要代谢酶,可度量化合物的代谢稳定性;3)化合物心脏安全性评价(human Ether-a-go-go Related Gene, hERG),可度量化合物的心脏毒性;4)人体口服生物利用度(Human Oral Bioavailability, HOB),可度量药物进入人体后被吸收进入人体血液循环的药量比例;5)微核试验(Micronucleus,MN),是检测化合物是否具有遗传毒性的一种方法。
三、需解决问题
问题1. 根据文件“Molecular_Descriptor.xlsx”和“ERα_activity.xlsx”提供的数据,针对1974个化合物的729个分子描述符进行变量选择,根据变量对生物活性影响的重要性进行排序,并给出前20个对生物活性最具有显著影响的分子描述符(即变量),并请详细说明分子描述符筛选过程及其合理性。
问题2. 请结合问题1,选择不超过20个分子描述符变量,构建化合物对ERα生物活性的定量预测模型,请叙述建模过程。然后使用构建的预测模型,对文件“ERα_activity.xlsx”的test表中的50个化合物进行IC50值和对应的pIC50值预测,并将结果分别填入“ERα_activity.xlsx”的test表中的IC50_nM列及对应的pIC50列。
问题3. 请利用文件“Molecular_Descriptor.xlsx”提供的729个分子描述符,针对文件“ADMET.xlsx”中提供的1974个化合物的ADMET数据,分别构建化合物的Caco-2、CYP3A4、hERG、HOB、MN的分类预测模型,并简要叙述建模过程。然后使用所构建的5个分类预测模型,对文件“ADMET.xlsx”的test表中的50个化合物进行相应的预测,并将结果填入“ADMET.xlsx”的test表中对应的Caco-2、CYP3A4、hERG、HOB、MN列。
问题4. 寻找并阐述化合物的哪些分子描述符,以及这些分子描述符在什么取值或者处于什么取值范围时,能够使化合物对抑制ERα具有更好的生物活性,同时具有更好的ADMET性质(给定的五个ADMET性质中,至少三个性质较好)。

问题一

python程序

#变量筛选
'''遇到问题想要文档  小编QQ:631183848'''
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.feature_selection import VarianceThreshold#%%ADMET_training=pd.read_excel(r'C:\Users\Administrator\project\huaweibeiD\ADMET.xlsx',sheet_name='training')
ADMET_test=pd.read_excel(r'C:\Users\Administrator\project\huaweibeiD\ADMET.xlsx',sheet_name='test')
ADMET_training.head()
#ADMET_test.head()#%%ER_activity_training=pd.read_excel(r'C:\Users\Administrator\project\huaweibeiD\ERα_activity.xlsx',sheet_name='training')
ER_activity_test=pd.read_excel(r'C:\Users\Administrator\project\huaweibeiD\ERα_activity.xlsx',sheet_name='test')
ER_activity_training.head()
#ER_activity_test.head()#%%Molecular_Descriptor_training=pd.read_excel(r'C:\Users\Administrator\project\huaweibeiD\Molecular_Descriptor.xlsx',sheet_name='training')
Molecular_Descriptor_test=pd.read_excel(r'C:\Users\Administrator\project\huaweibeiD\Molecular_Descriptor.xlsx',sheet_name='test')
Molecular_Descriptor_training.head()
#Molecular_Descriptor_test.head()#%%Summary=pd.read_excel(r'C:\Users\Administrator\project\huaweibeiD\分子描述符含义解释.xlsx',sheet_name='Summary')
Detailed=pd.read_excel(r'C:\Users\Administrator\project\huaweibeiD\分子描述符含义解释.xlsx',sheet_name='Detailed')#%%for col in Molecular_Descriptor_training.columns:#nunique() 方法用于获取某列中所有唯一值的数量,#dropna 默认参数设置为True,即在计算唯一值时排除了NULL值。    if Molecular_Descriptor_training[col].nunique(dropna=False)==1:del Molecular_Descriptor_training[col]# 去掉只有一种类别的 columns
len(Molecular_Descriptor_training.columns)
#729->504#%%True in Molecular_Descriptor_training.isna().sum()!=0
#False:数据没有缺失值#%%Molecular_ER = pd.concat([Molecular_Descriptor_training, ER_activity_training[:]], axis=1)
del Molecular_ER['SMILES']
del Molecular_ER['IC50_nM']
Molecular_ER#%%#pIC50直方图和QQ图
plt.figure(figsize=(10,5),dpi=400)
ax=plt.subplot(1,2,1)
sns.distplot(Molecular_ER['pIC50'],fit=stats.norm)
ax=plt.subplot(1,2,2)
res=stats.probplot(Molecular_ER['pIC50'],plot=plt)
plt.savefig('pic50_QQ.png')#%%#离散特征
Discrete_features=[]
for i in Detailed['Descriptor']:if i[0]=='n' and i in Molecular_Descriptor_training.columns:Discrete_features.append(i)
#Molecular_Discrete_training=Molecular_Descriptor_training[Discrete_features]
#连续特征
Continuous_features=[col for col in Molecular_Descriptor_training.columns if col not in Discrete_features+['SMILES']]
#Molecular_Continuous_training=Molecular_Descriptor_training[Continuous_features]
print(len(Discrete_features),len(Continuous_features))
......

抗乳腺癌候选药物的优化建模相关推荐

  1. 2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模

    2021华为杯数学建模D题解题-抗乳腺癌候选药物的优化建模 赛题 1. 问题一解题:特征选择 1.1. 赛题分析 1.2. 解题:特征选择方法对比 1.3. 模型评估 2. 问题二解题:预测模型 2. ...

  2. “华为杯”第十八届中国研究生数学建模竞赛D题:抗乳腺癌候选药物的优化建模(一等奖)

    更新20220921:参加数模之旅需要哪些准备?(转自中国研究生数学建模竞赛公众号) ● 前期知识储备 公众号.博客.知乎.纸质书籍等 ● 熟悉题型 华为题(A题):与电子信息专业相关度高 大数据类: ...

  3. 2021年全国研究生数学建模竞赛华为杯D题抗乳腺癌候选药物的优化建模求解全过程文档及程序

    2021年全国研究生数学建模竞赛华为杯 D题 抗乳腺癌候选药物的优化建模 原题再现:   一.背景介绍   乳腺癌是目前世界上最常见,致死率较高的癌症之一.乳腺癌的发展与雌激素受体密切相关,有研究发现 ...

  4. 2021华为杯D题详细讲解:抗乳腺癌候选药物的优化建模

    本题全部代码为python编写~每一个问题都编写了,写了我一晚上,也算是为2022的比赛练习一下吧.祝今年研究生能拿到国奖! 文章目录 D题 一.背景介绍 二.数据集介绍及建模目标 三.需解决问题 简 ...

  5. 机器学习在抗乳腺癌候选药物预测模型中的应用

    摘要 为了提高抗乳腺癌候选药物特征筛选与模型预测的准确性,提出一种新的多种组合特征筛选方法对抗乳腺癌候选药物--雌激素受体α亚型(ERα)的分子描述符进行特征筛选,并根据筛选的分子描述符构建化合物活性 ...

  6. DrugAI | 抗新型冠状病毒药物榜单解析

    1 背景 冠状病毒(Coronavirus, CoV)是自然界广泛存在一大类病毒家族.CoV为有包膜病毒,颗粒呈圆形或椭圆形,具有多形性,直径50-200nm.颗粒表面有棒状突起,使病毒表面看起来形如 ...

  7. MCE 抗乳腺癌化合物库上线丨靶向乳腺癌知多少?

    乳腺癌是全世界女性最常见的恶性肿瘤,世界卫生组织 (WHO) 数据显示,全球每年大约有 210 万女性受乳腺癌影响,乳腺癌死亡率在女性肿瘤中居于首位. 认识乳腺癌 ■ 什么是乳腺癌? 乳腺癌 (Bre ...

  8. Chemical Science | 基于金属的片段分子库用于筛选候选药物

    研究人员开发了一种新颖的基于金属的分子片段库,可用于筛选新药候选物. 已经开发了新的药物化合物库,其中包括基于金属的三维(3D)片段:研究人员说,这是大多数仅包含一维和二维形状的库的进步. 美国加利福 ...

  9. UA SIE545 优化理论基础0 优化建模7 二值变量的应用

    UA SIE545 优化理论基础0 优化建模7 二值变量的应用 包含决策变量的绝对值的约束 包含决策变量的最值的约束 包含决策变量的任意分位点的约束 应用:Least Median Squared E ...

最新文章

  1. 一文详解CMake编译工具与项目构建
  2. mysql的别名可以动态么_mysql别名的使用
  3. header中Content-Disposition的作用与使用方法
  4. 游戏UI设计师怎样的作品更值钱?
  5. 电脑上怎么做pdf文件_PDF压缩文件怎么压缩最小?请收好这些PDF压缩方法
  6. Scrapy爬虫(8)scrapy-splash的入门
  7. 【引用】jQuery 选择器
  8. Java SSM框架之MyBatis3(六)MyBatis之参数传递
  9. Linux中Redis的安装
  10. JavaScript内置对象→对象、系统函数、Date日期对象、String字符串对象、Math对象、Number数字对象、Object对象、Boolean对象、Error对象
  11. 周末内部常用的15款开发者工具
  12. 完美数c语言程序_C中的完美数
  13. java的class文件在哪里_传统上,你在哪里存储Java .class文件?
  14. 1273-宣传墙(第九届河南省ICPC省赛 --状压DP)
  15. [Java8新特性]Collectors源码阅读-2 reducing,maxBy,summingInt等
  16. 中国最牛的站长李兴平
  17. linux实训心得体会范文
  18. 第一篇--读刘同的《别做那只迷途的候鸟》
  19. RedHat 5 环境下 DHCP配置详解。
  20. A-level Computer Science 计算机科学学习笔记/经验分享/教学 (1):考试流程和大纲

热门文章

  1. [北京][2015年7月18日 周六] 工程师专场:忘记代码,一起来 “谈情说爱”
  2. python多线程内存溢出_Python内存泄漏和内存溢出的解决方案
  3. Windows下的MD5-Hash哈希值计算工具
  4. Unity中VR开发渲染出现问题,左右眼渲染不同
  5. OFD怎么转换成PDF? OFD文件转换成Word方法推荐
  6. linux系统怎么安装爱奇艺_在deepin系统下使用vek来安装爱奇艺PC客户端
  7. 通过bat批处理修改代理服务器设置及主页
  8. 南京农业大学金融专硕考研上岸经验分享
  9. JavaWeb-15 文件上传与下载
  10. English语法_形容词 - 概述