Drugbank开放数据集是公共域数据集,可以在您的应用程序或项目中自由使用(包括商业用途)。它是根据Creative Common的CC0国际许可证发布的。

在法律允许的范围内,将CC0与药房银行公开数据关联的人放弃了对药房银行公开数据的所有版权和相关或相邻权利。发表于:加拿大。

https://www.drugbank.ca/


目录

1. Drug Sequences(以Approved为例)

2. Protein identifiers(Approved)

3. target sequences(Approved)

4. External Links → External Drug Links(Approved)

5. External Links → Target Drug-UniProt Links(Approved)

6. External Links → Enzyme/Carrier/Transporter Drug-UniProt Links(Approved)

7. Structures→ Structure External Links (Approved)

8. Complete Database(Full)


1. Drug Sequences(以Approved为例)

drugbank_approved_drug_sequences.fasta.zip

按下图操作,并下载

下载文件如下所示:

以drugbank_drug|DB00002 Cetuximab heavy chain为例:https://www.drugbank.ca/drugs/DB00002

可以发现这是一个被批准的药物(Approved drug),是蛋白质类型。

因此,Drug Sequences是蛋白质类药物


2. Protein identifiers(Approved)

Protein identifiers include external IDs to resources such as UniProt and PDB. These downloads are divided first by protein/compound type (target, transporter, etc.). Secondly they are divided by drug group (approved, illicit, etc.). Each archive contains 2 files: one for all target/enzyme/transporter/carriers and one with only those marked as pharmacologically active (directly related to the mechanism of action for at least one of the associated drugs). Note that each row in the export CSV file also includes a concatenated list of DrugBank drugs IDs (semi-colon delimited) as the last column.

蛋白质标识符包括uniprot和pdb等资源的外部id。这些下载首先按蛋白质/化合物类型(目标、转运体等)划分。其次,它们按药物类别(批准的、非法的等)划分。每个档案包含2个文件:一个为所有目标/酶/转运蛋白/载体和一个只有那些标记为药理活性(直接相关的作用机制,至少一个相关的药物)。请注意,export csv文件中的每一行还包括一个串联的药库药品id列表(以分号分隔)作为最后一列。

drugbank_approved_target_polypeptide_ids.csv.zip

all.csv, pharmacologically_active.csv

可以发现:左边比右边多了1000+条data(注意:不是全部的蛋白质数据,应该是有相应的drug的)。

  • 以ID = 4为例(两个文件都存在的):https://www.drugbank.ca/bio_entities/BE0000004

4,Coagulation factor XIII A chain,F13A1,182309,M22001,P00488,F13A_HUMAN,1EVU; 1EX0; 1F13; 1FIE; 1GGT; 1GGU; 1GGY; 1QRK; 4KTY,,F13A1,HGNC:3531,Humans,DB11300; DB11311; DB11571; DB11572; DB13151

 再以其相应的Drug进行搜索,以DB11300为例:https://www.drugbank.ca/drugs/DB11300#targets

匹配成功!

  • ID = 2为例(仅all.csv文件存在的):https://www.drugbank.ca/bio_entities/BE0000002

2,Histidine decarboxylase,HDC,32109,X54297,P19113,DCHS_HUMAN,4E1O,,HDC,HGNC:4855,Humans,DB00114; DB00117

匹配成功!说明All.csv文件储存的是针对有Drug Relations项的所有Proteins。

  • 然而,需要注意的是,可能并不完整。因为,对于ID = 4号,All.csv显示如下

4,Coagulation factor XIII A chain,F13A1,182309,M22001,P00488,F13A_HUMAN,1EVU; 1EX0; 1F13; 1FIE; 1GGT; 1GGU; 1GGY; 1QRK; 4KTY,,F13A1,HGNC:3531,Humans,DB01839; DB11300; DB11311; DB11571; DB11572; DB13151 

并未将https://www.drugbank.ca/bio_entities/BE0000004中的Drug Relations全部包含进去,缺少了如下两项: (原因未知)

从上述描述和文件名可以得出:

pharmacologically_active.csv文件包含的Drug IDs是如下图所示的。而All.csv应该是包含yes & unknown的,但是尚不完全。


3. target sequences(Approved)

drugbank_approved_target_polypeptide_sequences.fasta.zip

protein.fasta, gene.fasta

  • 分别是Amino acid sequenceGene sequence
  • P19113为例,直接检索

进入后,页面如下

结果与文件中的标题行一致,标题行为:

>drugbank_target|P19113 Histidine decarboxylase (DB00114; DB00117)

  •  DB是相关联的Drug

值得注意的是:以下两个文件是一一对应的。

ZIP drugbank_approved_target_polypeptide_ids.csv drugbank_approved_target_polypeptide_sequences.fasta
file all.csv protein.fasta
ID

DrugBank的ID

如:https://www.drugbank.ca/bio_entities/BE0000002

UniProt的ID

4. External Links → External Drug Links(Approved)

drugbank_approved_drug_links.csv.zip

drug links.csv

  • 包含3883个Drug
  • 包含如下内容:

DrugBank ID , Name , CAS Number , Drug Type , KEGG Compound ID , KEGG Drug ID , PubChem Compound ID ,

PubChem Substance ID , ChEBI ID , PharmGKB ID , HET ID , UniProt ID , UniProt Title , GenBank ID , DPD ID ,

RxList Link , Pdrhealth Link , Wikipedia ID , Drugs.com Link , NDC ID , ChemSpider ID , BindingDB ID , TTD ID


5. External Links → Target Drug-UniProt Links(Approved)

drugbank_approved_target_uniprot_links.csv.zip

uniprot links.csv

  • DB00002为例,https://www.drugbank.ca/drugs/DB00002

文件中相对于DB00002有12行,说明该药有12个Targets(并提供了其Uniprot ID)。与上图中显示的Targets(12)一致。

DB00002,Cetuximab,BiotechDrug,P00533,Epidermal growth factor receptor
DB00002,Cetuximab,BiotechDrug,O75015,Low affinity immunoglobulin gamma Fc region receptor III-B
DB00002,Cetuximab,BiotechDrug,P00736,Complement C1r subcomponent
DB00002,Cetuximab,BiotechDrug,P02745,Complement C1q subcomponent subunit A
DB00002,Cetuximab,BiotechDrug,P02746,Complement C1q subcomponent subunit B
DB00002,Cetuximab,BiotechDrug,P02747,Complement C1q subcomponent subunit C
DB00002,Cetuximab,BiotechDrug,P08637,Low affinity immunoglobulin gamma Fc region receptor III-A
DB00002,Cetuximab,BiotechDrug,P09871,Complement C1s subcomponent
DB00002,Cetuximab,BiotechDrug,P12314,High affinity immunoglobulin gamma Fc receptor I
DB00002,Cetuximab,BiotechDrug,P12318,Low affinity immunoglobulin gamma Fc region receptor II-a
DB00002,Cetuximab,BiotechDrug,P31994,Low affinity immunoglobulin gamma Fc region receptor II-b
DB00002,Cetuximab,BiotechDrug,P31995,Low affinity immunoglobulin gamma Fc region receptor II-c

  • 前三列DrugBank ID, Name, Type为Drug信息
  • 后两列UniProt ID, UniProt Name为Target信息

6. External Links → Enzyme/Carrier/Transporter Drug-UniProt Links(Approved)

drugbank_approved_enzyme/c*/t*_uniprot_links.csv.zip

uniprot links.csv

  • # Enzyme/Carrier/Transporter = 4281 + 2377 + 567 - 6 = 7219
  • # Target = 10364
  • DB00006为例,https://www.drugbank.ca/drugs/DB00006

在Enzyme文件中:DB00006,Bivalirudin,SmallMoleculeDrug,P05164,Myeloperoxidase

在Target文件中:DB00006,Bivalirudin,SmallMoleculeDrug,P00734,Prothrombin

因此,Target和 Enzyme/Carrier/Transporter分别是不同的东西。(只关注Target即可?)


7. Structures→ Structure External Links (Approved)

drugbank_approved_structure_links.csv.zip

structure links.csv

  • 2594条data
  • 包含如下内容:

DrugBank ID , Name , CAS Number , Drug Groups , InChIKey , InChI , SMILES , Formula ,

KEGG Compound ID , KEGG Drug ID , PubChem Compound ID , PubChem Substance ID ,

ChEBI ID , ChEMBL ID , HET ID , ChemSpider ID , BindingDB ID


8. Complete Database(Full)

drugbank_all_full_database.xml.zip

full database.xml

  • 基于Python3从含有药物信息的XML文件解析数据(转载)
  • 解析drugbank xml文件的代码(转载)
  • python爬虫:爬取医药数据库drugbank(转载)


其他可参考文章:

Drug-Target Interaction 预测中的几个数据库(转载)


注意:biointeractions为药物-药物相互作用

DrugBank数据库Downloads详解(版本5.1.4,2019-7-2)相关推荐

  1. SAE上传web应用(包括使用数据库)教程详解及问题解惑

    2019独角兽企业重金招聘Python工程师标准>>> 转自:http://blog.csdn.net/baiyuliang2013/article/details/24725995 ...

  2. HSQLDB数据库使用详解(入门)及快速使用

    hsql数据库使用详解(入门)及快速使用 一.简介: hsql数据库是一款纯Java编写的免费数据库,许可是BSD-style的协议,如果你是使用Java编程的话,不凡考虑一下使用它,相对其 他数据库 ...

  3. 基于sqlite的android数据库编程,Android编程之SQLite数据库操作方法详解

    Android编程之SQLite数据库操作方法详解 发布时间:2020-09-07 12:33:04 来源:脚本之家 阅读:85 作者:低调小一 本文实例讲述了Android SQLite数据库操作方 ...

  4. 如何查看mysql备份的情况_MySQL数据库备份详解(示例代码)

    原文:MySQL数据库备份详解 对于任何数据库来说,备份都是非常重要的 数据库复制不能取代备份的作用 比如我们由于误操作,在主数据库上删除了一些数据,由于主从复制的时间很短,在发现时,从数据库上的数据 ...

  5. [转]纯真IP数据库格式详解

    纯真IP数据库格式详解 摘要 网络上的IP数据库以纯真版的最为流行,LumaQQ也采用了纯真版IP数据库做为IP查询功能的基础.不过关于其格式的文档却非常之少,后来终于在网上找到了一份文档,得以了解其 ...

  6. DM8达梦数据库体系结构详解

    DM8达梦数据库体系结构详解 1.逻辑结构 1.1 表空间 1.2 段 1.3 簇 1.4 页 2.物理结构 2.1 数据文件 2.2 控制文件 2.3 重做日志文件 2.4 归档日志文件 2.5 配 ...

  7. JetBrains DataGrip工具配置数据库过程详解

    JetBrains DataGrip工具配置数据库过程详解 DataGrip是一款数据库管理客户端工具,方便连接到数据库服务器,执行sql.创建表.创建索引以及导出数据等. DataGrip 是 Je ...

  8. 前沿分享|阿里云数据库高级技术专家 宋利兵:阿里云企业级自治数据库RDS详解

    简介:本篇内容为2021云栖大会-企业级云原生数据库最佳实践论坛中,阿里云数据库高级技术专家 宋利兵关于"阿里云企业级自治数据库RDS详解"的分享. 本文将从2方面为大家介绍企业级 ...

  9. python接入excel_使用python将excel数据导入数据库过程详解

    因为需要对数据处理,将excel数据导入到数据库,记录一下过程. 使用到的库:xlrd 和 pymysql (如果需要写到excel可以使用xlwt) 直接丢代码,使用python3,注释比较清楚. ...

最新文章

  1. 团队前四次作业——个人总结
  2. 用VB6写的一个简单俄罗斯方块代码
  3. 《疯狂Java讲义》7
  4. bzoj1791: [Ioi2008]Island 岛屿 单调队列优化dp
  5. SqlServer判断数据库、表、存储过程、函数是否存在
  6. vmware虚拟机中ubuntu上网问题
  7. 在centos 下安装和使用MySQL
  8. sql表达式_SQL表达式
  9. 一文弄懂nginx反向代理和负载均衡
  10. java做万年历,Java做的万年历
  11. LitJson使用中的坑
  12. jquery html 兼容ie8,IE浏览器 对 jquery版本的兼容性 支持
  13. python画图的函数_python画图函数
  14. 定值保险计算举例_保险学计算题
  15. python基础练习题:纳特拼音alaphabeta【难度:1级】--景越Python编程实例训练营,不同难度Python习题,适合自学Python的新手进阶
  16. 银行业“业务连续性”管理(上篇)
  17. 用map代替双重for循环,stream流代替双重for循环
  18. c++ 贪心法构造货币统计问题
  19. 前端架构设计第六课工程化构建、编译、运行
  20. 谷氨酰胺主要用途,以及谷氨酰胺测定试剂盒研究

热门文章

  1. cmd执行命令不等待返回值_从一道ctf题目学到的绕过长度执行命令姿势
  2. [人物] 图灵
  3. 学习Linux命令(37)
  4. 2022-2-23 王爽《汇编语言》实验二
  5. Atmega16单片机串口通信
  6. 西北工业大学考博英语计算机线,西北工业大学2019第一次考博分数线
  7. 新浪期货数据接口(转)
  8. SQL 配置管理器 MMC无法创建管理单元
  9. 台式计算机硬件采购报废处理规定,普陀区文化和旅游局正版软件管理办法 (试行)...
  10. vmlite虚拟机图文安装教程