整理参考:ID转换不用慌,biomart帮你忙

biomart官方指导

由于ID来自于不同的数据库,或者说命名的意图不同,所以对于同一个基因,总是有多个不同的ID,最常见的比如entrze ID、ensembl ID、HGNC ID、refseq ID等。

  1. Entrze ID:是美国NCBI数据库中的基因标识符,通常是由纯数字表示,比如人类TP53基因的Entrze ID是7157(注意,不同物种的基因ID是不同的);
  2. Ensembl ID:是欧洲生物信息数据库的基因标识符,人的基因都是以ENSG(ensembl gene)四个大写字母开始,后面跟着11位数字,所以ensembl ID的长度通常都是15位,比如人类TP53基因的ensembl ID是ENSG00000141510,值得注意的是ensembl ID不仅包含了两万多个蛋白质编码基因,同样也有很多的假基因、miRNA等,因此它的数量较多,有六万多个,比人类已知的基因数多得多
  3. HGNC ID: 是指由人类基因命名委员会(HUGO Gene Nomenclature Committee)指定的基因标识符,该委员会通常对基因赋予一个名字以及一个ID,比如人类TP53基因,其标准的symbol是TP53(相当于简称),标准的名称是tumor protein p53,HGNC ID 是11998。
  4. Refseq ID:美国NCBI提供的基因标准序列(参考序列)数据库,在该数据库中,人类TP53基因的ID是NG_017013

此外,与某个基因相关的还有GO ID、芯片探针ID、uniprot ID等。

Biomart数据库:是ensembl下属的一个网络数据库,里面包含非常多的信息。

biomaRt:是该网站的R语言接口,可以帮助用户在R语言中实现biomart的功能,因此使用该包时必须保证互联网连接通畅!

BiocManager::install("biomaRt")    #安装biomaRt(Bioconductor 3.9.0)
library(biomaRt)    #加载包
listMarts()    #查看目标数据库(mart),主要是版本号version,会定期更新
#               biomart               version
#1 ENSEMBL_MART_ENSEMBL      Ensembl Genes 102
#2   ENSEMBL_MART_MOUSE      Mouse strains 102
#3     ENSEMBL_MART_SNP  Ensembl Variation 102
#4 ENSEMBL_MART_FUNCGEN Ensembl Regulation 102
## version版本可能会一直更新,所以先用listMarts()函数查看一下,目前为103版#选择数据库和版本号
tmp_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL",version = "Ensembl Genes 103")
listDatasets(tmp_mart)    #显示该数据库下所包含的数据集(dataset)
#                       dataset                           description     version
#1 abrachyrhynchus_gene_ensembl Pink-footed goose genes (ASM259213v1) ASM259213v1
#2     acalliptera_gene_ensembl      Eastern happy genes (fAstCal1.2)  fAstCal1.2
#3   acarolinensis_gene_ensembl        Anole lizard genes (AnoCar2.0)   AnoCar2.0
#4    acitrinellus_gene_ensembl        Midas cichlid genes (Midas_v5)    Midas_v5
#5        ahaastii_gene_ensembl    Great spotted kiwi genes (aptHaa1)     aptHaa1
#6    amelanoleuca_gene_ensembl                 Panda genes (ailMel1)     ailMel1
#...#因为要转化人的gene ID,所以选择人的数据集,版本为GRCh38.p13
my_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL", dataset = "hsapiens_gene_ensembl",version = "Ensembl Genes 103")#转换基因ID: ncbi ID(即entrez ID)--> ensembl ID
test_genes <- c("10327","124","125","126","127","128","130","130589","131","160287")
gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"),filters = "entrezgene_id",values=test_genes , mart= my_mart)
#attributes参数是你需要返回的gene信息,需要什么类型都写上(listAttributes()可以查看所有gene attribute类型)
#filters参数是你当前能提供的gene的ID类型,而values的值就是ID类型的具体值,一般是一个向量
#结果返回一个包含attributes具体信息的data.frame,attributes为列名gene_id_info
#   ensembl_gene_id entrezgene_id hgnc_symbol
#1  ENSG00000117448         10327      AKR1A1
#2  ENSG00000187758           124       ADH1A
#3  ENSG00000196616           125       ADH1B
#4  ENSG00000248144           126       ADH1C
#5  ENSG00000198099           127        ADH4
#6  ENSG00000197894           128        ADH5
#7  ENSG00000172955           130        ADH6
#8  ENSG00000143891        130589        GALM
#9  ENSG00000196344           131        ADH7
#10 ENSG00000166800        160287     LDHAL6A#提取全部基因信息
gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"),filters = "chromosome_name",values=c(1:22,'X','Y'), mart= my_mart)

基因ID命名及相互转换相关推荐

  1. 使用集合映射和关联关系映射_使用R进行基因ID映射

    使用集合映射和关联关系映射 Inter-conversion of gene ID's is the most important aspect enabling genomic and proteo ...

  2. 常用数据库的基因ID

    1.Ensembl stable ID : Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, ...

  3. 基因 ID 匹配利器

    一.背景 对于每个生物信息分析的人来说,ID 匹配(映射)是一项非常常见,但又很繁琐的任务.假设,我们有一个来自上游分析的 gene symbol 或报告的 ID 列表,然后我们的下一个分析却需要使用 ...

  4. Mybatis工作流程,附带mybatis的mapper文件和config配置文件模板。mapper文件和dao接口的关系——xml中的namespace和sql标签id命名要求。

    1. Mybatis工作流程 1.1 使用MySQL创建数据库girls并生成一个表boys,如下图. 1.2 创建该表对应的简单实体类Boys,如下图. 1.3 创建Dao接口以及和接口同名的map ...

  5. 差异基因 p log2foldchange_拟南芥的基因ID批量转换?差异基因,GO/KEGG数据库注释(转录组直接送你全套流程)...

    新手遇到的问题都是类似的,比如批量ID转换 虽然我写过大量的教程:ID转换大全   不过都需要R基础,因为是大批量转换啊! 但热心肠的植物生物信息学教学大佬还是友善的给出了解决方案 我也狗尾续貂制作了 ...

  6. MFC:ID命名和数字约定

    今天早上双击一个刚刚编译完成的应用程序,界面刚刚显示,又自动触发了一个菜单事件,打开了一个网页.真的很意外.关闭窗口,再次双击,又自动打开了一个网页,再关闭,再双击,又不自动打开网页了.这是什么情况? ...

  7. 关于Html class id 命名规范

    CSS命名规则 头:header 内容:content/containe 尾:footer 导航:nav 侧栏:sidebar 栏目:column 页面外围控制整体布局宽度:wrapper 左右中:l ...

  8. BiomaRt 包进行基因ID转换

     R中两个常用的基因ID转换包:BiomaRt和clusterProlifer 1. clusterProlifer 总体来说clusterProlifer用起来是比较方便的,通过现成的org.*.e ...

  9. 人类基因id转换的R包:GeoTcgaData

    一个非常全的人类基因id转换工具 ​ GeoTcgaData包中有一个id转换的函数:id_conversion_vector() , 它可以对人类的各种基因id进行转换.2019年9月第一次发布,目 ...

最新文章

  1. qsort()的用法
  2. 基本数据类型存储空间
  3. java集合详解_Map、Set、List及其子类和接口你都明白吗?看这篇Java集合超详解
  4. 从数据类型 nvarchar 转换为 numeric 时出错_JS入门篇(三):javascript的数据类型详解...
  5. Linux之ab命令
  6. 【二叉树】美团的【天天领现金】活动,不就是 斐波那契 数列么?
  7. 华软计算机网络课程设计任务,计算机网络网络课程设计任务.doc
  8. UML用例图怎么画 有手就会
  9. 明尼苏达量表结果分析_明尼苏达满意度量表的指标
  10. 学习笔记:std::quoted
  11. 对字符串按“红黄蓝”进行排序,如“蓝黄红红黄”,输出结果为“红红黄黄蓝”
  12. 使用certbot为nginx站点添加免费ssl证书
  13. 深入理解Android
  14. Opencv 入门篇学习记录(图片)
  15. 联手新加坡南洋理工大学,阿里加速推进人工智能战略
  16. 【HTML5】基础教程
  17. 人在旅途——》张家界5天出行准备清单
  18. 华为和“字节”,终于干起来了!
  19. Python爬虫爬取相关图片
  20. 国内研究团队提出基于120个刺激编码视觉诱发电位的脑机接口

热门文章

  1. 基于功能安全的车载计算平台开发:硬件层面
  2. MOS介绍和参数测试方法
  3. 3分钟了解 WebAssembly
  4. 银行研发中心数据备份方案解析
  5. 被遗忘的明星,2K中体现不了价值的战士——莫宁
  6. 趣图:我全部重构好啦!
  7. 微信小程序中开发使用腾讯地图定位
  8. 计算机科学技术作文200,科技改变生活作文200字(精选7篇)
  9. 外军后勤保障是怎样做的,快速了解一下吧
  10. bes2300之RTX介绍及简单运用(五)