基因ID命名及相互转换
整理参考:ID转换不用慌,biomart帮你忙
biomart官方指导
由于ID来自于不同的数据库,或者说命名的意图不同,所以对于同一个基因,总是有多个不同的ID,最常见的比如entrze ID、ensembl ID、HGNC ID、refseq ID等。
- Entrze ID:是美国NCBI数据库中的基因标识符,通常是由纯数字表示,比如人类TP53基因的Entrze ID是7157(注意,不同物种的基因ID是不同的);
- Ensembl ID:是欧洲生物信息数据库的基因标识符,人的基因都是以ENSG(ensembl gene)四个大写字母开始,后面跟着11位数字,所以ensembl ID的长度通常都是15位,比如人类TP53基因的ensembl ID是ENSG00000141510,值得注意的是ensembl ID不仅包含了两万多个蛋白质编码基因,同样也有很多的假基因、miRNA等,因此它的数量较多,有六万多个,比人类已知的基因数多得多
- HGNC ID: 是指由人类基因命名委员会(HUGO Gene Nomenclature Committee)指定的基因标识符,该委员会通常对基因赋予一个名字以及一个ID,比如人类TP53基因,其标准的symbol是TP53(相当于简称),标准的名称是tumor protein p53,HGNC ID 是11998。
- Refseq ID:美国NCBI提供的基因标准序列(参考序列)数据库,在该数据库中,人类TP53基因的ID是NG_017013。
此外,与某个基因相关的还有GO ID、芯片探针ID、uniprot ID等。
Biomart数据库:是ensembl下属的一个网络数据库,里面包含非常多的信息。
biomaRt:是该网站的R语言接口,可以帮助用户在R语言中实现biomart的功能,因此使用该包时必须保证互联网连接通畅!
BiocManager::install("biomaRt") #安装biomaRt(Bioconductor 3.9.0)
library(biomaRt) #加载包
listMarts() #查看目标数据库(mart),主要是版本号version,会定期更新
# biomart version
#1 ENSEMBL_MART_ENSEMBL Ensembl Genes 102
#2 ENSEMBL_MART_MOUSE Mouse strains 102
#3 ENSEMBL_MART_SNP Ensembl Variation 102
#4 ENSEMBL_MART_FUNCGEN Ensembl Regulation 102
## version版本可能会一直更新,所以先用listMarts()函数查看一下,目前为103版#选择数据库和版本号
tmp_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL",version = "Ensembl Genes 103")
listDatasets(tmp_mart) #显示该数据库下所包含的数据集(dataset)
# dataset description version
#1 abrachyrhynchus_gene_ensembl Pink-footed goose genes (ASM259213v1) ASM259213v1
#2 acalliptera_gene_ensembl Eastern happy genes (fAstCal1.2) fAstCal1.2
#3 acarolinensis_gene_ensembl Anole lizard genes (AnoCar2.0) AnoCar2.0
#4 acitrinellus_gene_ensembl Midas cichlid genes (Midas_v5) Midas_v5
#5 ahaastii_gene_ensembl Great spotted kiwi genes (aptHaa1) aptHaa1
#6 amelanoleuca_gene_ensembl Panda genes (ailMel1) ailMel1
#...#因为要转化人的gene ID,所以选择人的数据集,版本为GRCh38.p13
my_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL", dataset = "hsapiens_gene_ensembl",version = "Ensembl Genes 103")#转换基因ID: ncbi ID(即entrez ID)--> ensembl ID
test_genes <- c("10327","124","125","126","127","128","130","130589","131","160287")
gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"),filters = "entrezgene_id",values=test_genes , mart= my_mart)
#attributes参数是你需要返回的gene信息,需要什么类型都写上(listAttributes()可以查看所有gene attribute类型)
#filters参数是你当前能提供的gene的ID类型,而values的值就是ID类型的具体值,一般是一个向量
#结果返回一个包含attributes具体信息的data.frame,attributes为列名gene_id_info
# ensembl_gene_id entrezgene_id hgnc_symbol
#1 ENSG00000117448 10327 AKR1A1
#2 ENSG00000187758 124 ADH1A
#3 ENSG00000196616 125 ADH1B
#4 ENSG00000248144 126 ADH1C
#5 ENSG00000198099 127 ADH4
#6 ENSG00000197894 128 ADH5
#7 ENSG00000172955 130 ADH6
#8 ENSG00000143891 130589 GALM
#9 ENSG00000196344 131 ADH7
#10 ENSG00000166800 160287 LDHAL6A#提取全部基因信息
gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"),filters = "chromosome_name",values=c(1:22,'X','Y'), mart= my_mart)
基因ID命名及相互转换相关推荐
- 使用集合映射和关联关系映射_使用R进行基因ID映射
使用集合映射和关联关系映射 Inter-conversion of gene ID's is the most important aspect enabling genomic and proteo ...
- 常用数据库的基因ID
1.Ensembl stable ID : Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, ...
- 基因 ID 匹配利器
一.背景 对于每个生物信息分析的人来说,ID 匹配(映射)是一项非常常见,但又很繁琐的任务.假设,我们有一个来自上游分析的 gene symbol 或报告的 ID 列表,然后我们的下一个分析却需要使用 ...
- Mybatis工作流程,附带mybatis的mapper文件和config配置文件模板。mapper文件和dao接口的关系——xml中的namespace和sql标签id命名要求。
1. Mybatis工作流程 1.1 使用MySQL创建数据库girls并生成一个表boys,如下图. 1.2 创建该表对应的简单实体类Boys,如下图. 1.3 创建Dao接口以及和接口同名的map ...
- 差异基因 p log2foldchange_拟南芥的基因ID批量转换?差异基因,GO/KEGG数据库注释(转录组直接送你全套流程)...
新手遇到的问题都是类似的,比如批量ID转换 虽然我写过大量的教程:ID转换大全 不过都需要R基础,因为是大批量转换啊! 但热心肠的植物生物信息学教学大佬还是友善的给出了解决方案 我也狗尾续貂制作了 ...
- MFC:ID命名和数字约定
今天早上双击一个刚刚编译完成的应用程序,界面刚刚显示,又自动触发了一个菜单事件,打开了一个网页.真的很意外.关闭窗口,再次双击,又自动打开了一个网页,再关闭,再双击,又不自动打开网页了.这是什么情况? ...
- 关于Html class id 命名规范
CSS命名规则 头:header 内容:content/containe 尾:footer 导航:nav 侧栏:sidebar 栏目:column 页面外围控制整体布局宽度:wrapper 左右中:l ...
- BiomaRt 包进行基因ID转换
R中两个常用的基因ID转换包:BiomaRt和clusterProlifer 1. clusterProlifer 总体来说clusterProlifer用起来是比较方便的,通过现成的org.*.e ...
- 人类基因id转换的R包:GeoTcgaData
一个非常全的人类基因id转换工具 GeoTcgaData包中有一个id转换的函数:id_conversion_vector() , 它可以对人类的各种基因id进行转换.2019年9月第一次发布,目 ...
最新文章
- qsort()的用法
- 基本数据类型存储空间
- java集合详解_Map、Set、List及其子类和接口你都明白吗?看这篇Java集合超详解
- 从数据类型 nvarchar 转换为 numeric 时出错_JS入门篇(三):javascript的数据类型详解...
- Linux之ab命令
- 【二叉树】美团的【天天领现金】活动,不就是 斐波那契 数列么?
- 华软计算机网络课程设计任务,计算机网络网络课程设计任务.doc
- UML用例图怎么画 有手就会
- 明尼苏达量表结果分析_明尼苏达满意度量表的指标
- 学习笔记:std::quoted
- 对字符串按“红黄蓝”进行排序,如“蓝黄红红黄”,输出结果为“红红黄黄蓝”
- 使用certbot为nginx站点添加免费ssl证书
- 深入理解Android
- Opencv 入门篇学习记录(图片)
- 联手新加坡南洋理工大学,阿里加速推进人工智能战略
- 【HTML5】基础教程
- 人在旅途——》张家界5天出行准备清单
- 华为和“字节”,终于干起来了!
- Python爬虫爬取相关图片
- 国内研究团队提出基于120个刺激编码视觉诱发电位的脑机接口