已知一个靶点,如何获取旗下相关的生物实验,临床试验,以及上市药物数据.
写在开头
- 1.靶点信息数据收集
- 1.1 uniprot
- 2. 生物实验数据收集
- 2.1 PUCHEM
- 2.2 Chembl
- 2.3 ExCAPE DB
- 2.4 BindingDB
- 2.5 汇总数据
- 3. 临床实验数据收集
- 4. 上市药物数据收集
- 5. 总结
总所周知,科研是基于数据的,数据是基础也同样是目的.但如何全面且详细地回顾和收集世界各地地往期工作就是困扰诸多科研工作的难题.但随着大量公开且庞大数据库的出现,似乎在为我们登上巨人的肩膀铸造了电梯.今天就以个人经验总结了一下如何搭乘这一部电梯.如有不足之处也请大家在评论区补充,感谢~
本文章全程采用Poly [ADP-ribose] polymerase 1(parp-1)蛋白作为例子进行展示
1.靶点信息数据收集
1.1 uniprot
链接地址:https://www.uniprot.org/
按照其官网上的说法:
The mission of UniProt is to provide the scientific community with a comprehensive, high-quality and freely accessible resource of protein sequence and functional information.
作为一个靶点序列以及功能相关信息的数据库uniport做到了极致.当我们搜索parp-1.可以得到如下信息:
可以看到,UNIPROT根据物种将parp-1进行了分类,记住你所需要的uniprot号,点进去看一下:
其中包括了靶点的功能,序列,结构,反应,类似蛋白,所属家族等等信息,对我们进一步了解一个靶点是相当重要的,但在这里不加以赘述
2. 生物实验数据收集
2.1 PUCHEM
链接地址:https://pubchem.ncbi.nlm.nih.gov/
PUCHEM由美国国立卫生院主持,技术由美国生物技术中心提供,可以说是当前最大最全的免费化学信息库:
其中由超过1个亿的化合物信息以及2.7亿的生物实验信息.我们在其中查询PARP-1:
可以看到有2378个相关实验.如下图所示点击downloa和submit bioassay data only下载实验数据:
下载实验结果如图所示:
可以看到并没有相关的化合物结构信息,可以参照我的下两篇博客下载:
1.如何使用pubchem的bulk download功能
2.SID或者CID下载PUBCHEM数据库的smile信息(总结版)
2.2 Chembl
链接地址:https://www.ebi.ac.uk/chembl
这个网站的数据量要少于puchem,拥有270万个化合物,以及110万个生物实验,但牛逼就牛逼在什么地方呢.网站采用的是手工收集的方式,只收集有可能成药的靶点以及生物活性数据.这就使得其上的数据对于药物开发来说,其数据的质量就相当高.
在pubchem搜索parp-1,获得了513个相关实验.点击右上角的下载即可获取实验的相关表述与ID
如果像获取到具体的数据源,需要使用到chembl的api接口,详细请看下面的文章
如何依照靶点名称,找到chembl数据库中的相关实验数据
共获取到的5079个数据,数据结构如下所示:
2.3 ExCAPE DB
链接地址:https://solr.ideaconsult.net/search/excape/
这个数据库是近几年才新兴出现的,现有数据量将近一百万,但是他非常牛逼的一点就是.真的对用户友好!!! 超级友好,哪怕完全不懂计算机的人也会用,简单便捷到令人发指
搜索parp1,结果如下,共1639条然后,点击下载即可:
数据结构如下
2.4 BindingDB
链接地址https://www.bindingdb.org/bind/index.jsp
bindingDB包括近100万个化合物,以及8527个蛋白靶点.
在网站搜索parp1,可以看到共有38个相关实验.
同样,数据的获取需要用到api.其api的核心是前面提到的uniprot网站的ID号.如果想获取数据比较全,就把所有相关物种的都收集进去即可.但对我而言一般是收集人和老鼠的即可(其他数据量太少)
http://bindingdb.org/axis2/services/BDBService/getLigandsByUniprots?uniprot={UNIPROTid1,id2,…}&cutoff={1000} >&code=[012]&response=application/json
需要给出相关uniport号,以及输出的类型(默认为xml,可改为json),cutoff=是指活性值截断.
针对parp1:
http://bindingdb.org/axis2/services/BDBService/getLigandsByUniprots?uniprot={P09874,P11103,P27008,Q9R152,P18493,P31669,P26446,Q08824} &code=[012]&response=application/json
详细如何爬取可以看我如下文章
如何根据uniports号,爬取bindingDB的活性实验数据
共爬取到5287条数据:
2.5 汇总数据
由于每个数据库获取到的文件格式不一样,建议将其汇总成统一格式.但是每个人需求不一样.所以不加赘述了.
如果嫌麻烦可以看我下面这篇文章,也给了相应的代码
汇总药用数据库(Pubchem,bingdingDB,Chembl,ExcapeDB)数据
3. 临床实验数据收集
本来找临床试验数据是一个非常麻烦的事,药智网研发中心的总经理李天泉先生总结有如下几个途径:
筛选途径1:WHO临床试验登记平台检索:缺陷就是定位不精准;缺乏临床阶段筛选方法,不能排除“非新药研发项目”。
筛选途径2. 药智网全球临床试验数据库:收录了全球各个国家临床试验注册中心信息,对临床试验进行了试验分期,可针对研究类型、疾病领域、干预措施、试验结果、国家等重要信息进行筛选。
筛选途径3. 重点跟踪特定公司:可能会遇到信息不全,查找筛选麻烦,只能定向关注一家公司。
筛选途径4. 通过其他渠道获取在研新药信息:主要通过文献/报道、各种数据库等获得。
但无论怎么说,都是一个比较麻烦并且难以全面的过程,但聪明的人已经发现了商机:
介绍一个数据库戊戌数据,由国人开发.非常好用.暂时是免费使用的:
连接地址:https://www.wuxuwang.com/
搜索parp1:
可以看到共收集到了18条临床实验的数据,可能不太全.但架不住他方便好使还免费啊!!
4. 上市药物数据收集
drugbank 是现今市面上最全的药物数据库.查上市药物仅此一家即可
搜索parp-1靶点数据,可以看到旗下,总共拥有4个已经上市和机制明确的化合物.数据库给出了一些在研的或者已经批准的但机制不明确的化合物.但这些都不在上市药物的范围.
5. 总结
数据收集是一个斑驳且繁琐的过程,如果有不足之处.欢迎大家指点
已知一个靶点,如何获取旗下相关的生物实验,临床试验,以及上市药物数据.相关推荐
- html如何获得网址,已知一个网址,如何获得该网址对应的html源代码?在del 找人事管理软件...
销售管理软件版1楼: 已知一个网址,如何获得该网址对应的html源代码?在delphi中如何实现?今天不解决,没饭吃了... 2楼: 用WebBrowser控件,先把网址传给WebBrowser,然后 ...
- 已知一个掺杂了多个数字字符的中文名拼音,去掉所有数字字符之后,形式为“名”+空格+“姓”;并且名和姓的首字母大写,其他小写,要求输出姓名全拼,且全为小写。(后附详细样例说明)
已知一个掺杂了多个数字字符的中文名拼音,去掉所有数字字符之后,形式为"名"+空格+"姓":并且名和姓的首字母大写,其他小写,要求输出姓名全拼,且全为小写.(后附 ...
- 已知一个字典变量stu_ infors,包含n个学生信息,每个学生信息,即字典变量stu_ infors每个元素的值为“学号:课程成绩”。现编写-个程序实现以下功能: (1)创建包含n个学生信息的字
1.已知一个字典变量stu_ infors,包含n个学生信息,每个学生信息,即字典变量stu_ infors每个元素的值为"学号:课程成绩".现编写-个程序实现以下功能: (1)创 ...
- /*已知一个排好序的数组,按数组原排序方式插入一个数据*/
/*已知一个排好序的数组,按数组原排序方式插入一个数据*/std::vector<int>shuzu = {1,2,3,4,5,7,8,9};int x = 0, caru = 6;std ...
- matlab二维图形中确定一点的坐标系,在CAD中已知一个平面图中两个点的坐标如何建立坐标系以便求出图形中任一点的坐标?...
在CAD中已知一个平面图中两个点的坐标如何建立坐标系以便求出图形中任一点的坐标?以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一 ...
- SAP HUM已知一个内部HU号码,如何得到HU号码?
SAP HUM已知一个内部HU号码,如何得到HU号码? 去表VEPO 查数据即可, 为什么HU要有internal HU号码 ? Prior to the existence of HUM, in W ...
- c#中已知一个外部窗口的句柄,怎么关闭
已知一个外部窗口的句柄,怎么关闭它.怎么给这个窗口的一个文本框设置内容. --------------------------------------------------------------- ...
- 每日一题(42)—— 已知一个数组table,用一个宏定义,求出数据的元素个数
已知一个数组table,用一个宏定义,求出数据的元素个数. // 总大小除以第一个元素的大小 #define TNTBL (sizeof(table)/sizeof(table[0]))
- python求近似值_python 已知一个字符,在一个list中找出近似值或相似值实现模糊匹配...
已知一个元素,在一个list中找出相似的元素 使用场景: 已知一个其它来源的字符串, 它有可能是不完全与我数据库中相应的字符串匹配的,因此,我需要将其转为适合我数据库中的字符串 使用场景太绕了, 直接 ...
最新文章
- Java自动驾驶:汽车检测
- 真香,写代码神器!32寸曲面显示器免费送
- 解决Keepalived脚本启动时warning、Unsafe
- Android应用清单文件:AndroidManifest.xml
- c 语言登录系统源代码,c语言源代码---------------个人图书管理系统
- 第八节:Task的各类TaskTResult返回值以及通用线程的异常处理方案
- Coinlist将在4月1日到3日举行Rally(RLY)代币销售
- excanvas让canvas兼容ie7,8
- yolov3模型识别不出训练图片_技术实践丨基于MindSpore框架Yolov3-darknet模型的篮球动作检测体验...
- 电脑计算机无法安3.5,win10 net framework 3.5安装不了的完美解决办法
- [系统安全] 十二.熊猫烧香病毒IDA和OD逆向分析(上)病毒初始化
- 网络编程资源大集合(包含前端、java、linux、安卓、github开源项目、开发工具等)
- 在Ubuntu系统中安装字体(以安装华文行楷和方正舒体为例)
- PLC梯形图编程基础知识详解(转自:http://gongkong.ofweek.com/2014-09/ART-310012-11000-28882866_2.html)
- 【博弈论】势博弈(potential game)、EPG以及最佳响应、Nash均衡和帕累托(pareto)最优的理解
- Code Review: Rietveld平台的搭建和Rietveld的使用。
- 网卡设备状态显示错误代码56
- matlab的foramt
- CAD机械零件平面绘制练习七、CAD镜像命令高阶绘图练习
- 服务器怎么使用无线网卡,无线上网卡怎么用