一.各种ID名称介绍

Gene ID 也称Entrez ID,EntrezGene ID ,是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是 entrez gene id. ,说白了,就是数字,比如:TP53 ,Gene ID就是: 7157。由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识。R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换。

需要注意的是,同一基因,不同物种之间可能有相同名称,但Gene ID不同。狗中TP53的Gene ID是403869,他们都有着相同的Official Symbol:TP53。

Gene Symbol ,HOGN数据库为gene提供的官方命名,是科研工作者按照基因的功能起的名字,通常是对功能描述的缩写。由大写字母和数字组成,一般为全名的缩写,但我们在NCBI的gene数据库中看到人TP53基因的Official Symbol是由HGNC所提供。

而斑马鱼的tp53由ZNC提供。

HGNC是人类基因命名委员会(HUGO Gene Nomenclature Committee);人类基因组命名委员会。有专门的数据库:https://www.genenames.org/

需要注意的是HGNC数据库中也给基因一个 ID,叫HGNC ID,他和gene ID不一样,尽管都是数字。

此外NCBI的RefSeq数据库id,一般是两个大写首字母,加下划线,后面接数字。两个首字母如 ”NC_”、”NM_”、”NP_”分别对应DNA、mRNA、Protein。可参考【生物数据库】。

AC_

Genomic

Complete genomic molecule, usually alternate assembly

NC_

Genomic

Complete genomic molecule, usually reference assembly

NG_

Genomic

Incomplete genomic region

NT_

Genomic

Contig or scaffold, clone-based or WGS

NW_

Genomic

Contig or scaffold, primarily WGS

NS_

Genomic

Environmental sequence

NZ_

Genomic

Unfinished WGS

NM_

mRNA

NR_

RNA

XM_

mRNA

Predicted model

XR_

RNA

Predicted model

AP_

Protein

Annotated on AC_ alternate assembly

NP_

Protein

Associated with an NM_ or NC_ accession

YP_

Protein

XP_

Protein

Predicted model, associated with an XM_ accession

ZP_

Protein

Predicted model, annotated on NZ_ genomic records

此外还有Ensembl ID,其所代表的是在Ensembl数据库中对基因的命名,常见的物种前缀:“ENS“表示Homo sapiens (Human),”ENSMUS“表示Mus musculus (Mouse),”ENSDAR“表示Danio rerio (Zebrafish);而常见的序列类型用G、P、T、分别表示gene、protein和transcript。

可能我们经常看到的Ensembl ID后面还加.加数字,有时候也有"_",总之, "."后面的数字表示的是版本号,我们进行基因注释或者转换的时候需要去掉,你可以理解成和某些手机软件的版本号一样:1.2,1.2.2.3,1.3,

ENSG00000186092.4
ENSG00000279928.1
ENSG00000279457.2

UniProt ID是UniProt 数据库【https://www.uniprot.org/】中蛋白质的编号。UniProt(全称Universal Protein),它整合了三个老字号数据库(Swiss-Prot、 TrEMBL 和 PIR-PSD )的数据。是目前信息最丰富、资源最广的免费蛋白质数据库,具体可阅读文章【生物数据库】。UniProt ID就是Entry,是UniProt的给每个蛋白质赋予的独一无二的ID号,而Entry name通常是基因名称加物种名称。

UCSC ID为UCSC数据库的基因id,一般以“uc“开头,还是比较容易识别的, 然后是三位数字, 接着又是三位小写字母, 最后有小数点和数字构成版本号.如:uc001ett, uc031tla.1

总之,每一个数据库都会为其某个基因或者蛋白取一个ID,表示该数据库所特有的,比如KEGG,PDB,gencards等常见数据库。KEGG可参考文章【KEGG数据库使用及通路分析教程】,PDB数据库参考文章【生物数据库】。

二.常见的ID转换在线工具

1.Uniprot ID mapping 可以很方便地把 ID 转换为其他 ID 类型, 所包含的类型十分全面【https://www.uniprot.org/uploadlists/】

2.bioDBnet 网站提供了常见的 ID 转换的选项, 类型全面【https://biodbnet-abcc.ncifcrf.gov/】.

3.DAVID Gene ID Conversion Tool 可以把 Gene ID 转换为多种常用类型和 DAVID ID, 方便进一步用 DAVID 做 GO 分析,常做富集分析的同学估计常用到这个工具【https://david.ncifcrf.gov/】。

4.sangerbox:http://sangerbox.com/IdConversion

5.biomart工具:http://www.biomart.org/

6.FunRich软件,在我之前的文章就有介绍,FunRich数据库:一个主要用于基因和蛋白质的功能富集以及相互作用网络分析的独立的软件工具。

三.用于基因注释的R包

1  org.Ag.eg.db  Anopheles
2  org.At.tair.db  Arabidopsis
3  org.Bt.eg.db  Bovine
4  org.Ce.eg.db  Worm
5  org.Cf.eg.db  Canine
6  org.Dm.eg.db  Fly
7  org.Dr.eg.db  Zebrafish
8  org.EcK12.eg.db  E coli strain K12
9  org.EcSakai.eg.db  E coli strain Sakai
10  org.Gg.eg.db  Chicken
11  org.Hs.eg.db  Human
12  org.Mm.eg.db  Mouse
13  org.Mmu.eg.db  Rhesus
14  org.Pf.plasmo.db  Malaria
15  org.Pt.eg.db  Chimp
16  org.Rn.eg.db  Rat
17  org.Sc.sgd.db  Yeast
18  org.Ss.eg.db  Pig
19  org.Xl.eg.db  Xenopus

不同物种用于注释和转换的包不一样。人的是org.Hs.eg.db,鼠的是org.Mm.eg.db,我之前差异分析的文章中用的是gtf文件注释。而对于芯片注释也有自己R包,这里就不一一介绍啦,后续介绍。


相关专辑

TCGA | 文献阅读 | R语言 | 数据库 | 理论知识

常用生物信息 ID的介绍相关推荐

  1. 常用生物信息 ID 及转换方法

    众多不同的数据库所采用的对 Gene 和 Protein 编号的 ID 也是不同的, 所以在使用不同数据库数据的时候需要进行 ID 转换. 常用数据库 ID ID 示例 ID 来源 ENSG00000 ...

  2. pm2常用的命令用法介绍

    pm2 是一个带有负载均衡功能的Node应用的进程管理器.当你要把你的独立代码利用全部的服务器上的所有CPU,并保证进程永远都活着,0秒的重载, PM2是完美的,下面我们来看pm2常用的命令用法介绍吧 ...

  3. mysql中的操作指令,MySQL中常用指令操作的介绍(代码示例)

    本篇文章给大家带来的内容是关于MySQL中常用指令操作的介绍(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. l 创建数据库:CREATE DATABASE table_n ...

  4. DBA必知的170张Oracle常用动态性能表介绍

     DBA必知的170张Oracle常用动态性能表介绍 常用动态性能表.pdf 附录C 动态性能(V$)视图 本附录介绍动态性能视图.这些视图一般作为V$视图引用.本附录包括下列内容: ???? 动态性 ...

  5. 常用二维码介绍与分析

    一.常用二维码介绍 常用二维码主要有QRCode和DataMatrix,分别是日本与美国发明的,不常用但是将兴起的有VeriCode和汉信码,前者为美国的,连规范都未公开的二维码标准,而汉信码,是中国 ...

  6. ROS系列——mavros功能包中常用话题和服务介绍,包括消息名称、类型、头文件、成员变量、示例代码

    ROS系列--mavros功能包中常用话题和服务介绍,包括消息名称.类型.头文件.成员变量.示例代码 官方链接 常用话题 订阅 1.1 系统状态 1.2 GPS数据 1.3 本地位置 1.4 三轴速度 ...

  7. 实战篇一 python常用模块和库介绍

    # -_-@ coding: utf-8 -_-@ -- Python 常用模块和库介绍 第一部分:json模块介绍 import json 将一个Python数据结构转换为JSON: dict_ = ...

  8. php正则运用,php中常用的正则表达式的介绍及应用实例代码

    更全面的实例,可以参考 最常用的PHP正则表达式收集整理 //www.jb51.net/article/14049.htm php 正则表达式小结 //www.jb51.net/article/198 ...

  9. 常用开源Jabber服务器介绍

    常用开源Jabber服务器介绍 1. Openfire (Wildfire) 3.x 授权:GPL or 商用 操作系统平台:所有(使用Java开发) XMPP Jabber 协议实现情况:98% T ...

最新文章

  1. pdfh5.js 基于pdf.js和jQuery,web/h5/移动端PDF预览手势缩放插件。
  2. java 关于String
  3. 简单的IDEA的快捷键操作和简写操作介绍(一)
  4. ITK:创建拉普拉斯内核
  5. Java内存模型深度解析:总结
  6. java 根据圆心计算圆弧上点的经纬度_【控制测量学】-高斯投影正算公式以及java代码
  7. Java学习笔记(基本数据类型和变量命名规则)
  8. 【SAP HANA】关于SAP HANA中带层次结构的Analytic View创建、激活状况下在系统中生成对象的研究...
  9. 蚂蚁森林:国庆节前组织网友去阿拉善等三地参与秋季验收
  10. redis aof 备份和恢复_深入理解Redis持久化
  11. MySQL数据库企业级应用实践(主从复制)
  12. hibernate 入门案例
  13. linux yasm编译,linux安装yasm报错
  14. 自定义notepad++ --添加插件SourceCookifier
  15. 微信整合CRM系统的好处
  16. 常用计算机 启动bios,详解各种电脑开机怎么进入bios设置
  17. 火爆全网,495页《看漫画学Python》全彩PDF免费分享,入门编程培养兴趣首选
  18. 人脸识别之目标追踪识别
  19. linux端口查看time_wait,netstat -an查看到大量的TIME_WAIT状态的解决办法
  20. SAP 消息号 F5113 科目确认没有对交易. SKE (在会计科目表 XXXX 中)定义

热门文章

  1. WindowsAPI —— CreateMutex
  2. 7-16 梅森数(2022-高级语言程序设计练习——循环结构程序设计)
  3. MySQL 5.7中对XA支持的改进
  4. JavaScript~~~入门~~~
  5. AD子域的部署并配置DNS委派的几种方法
  6. 书中自有颜如玉,书中自有黄金屋(尼采篇)
  7. LiveGBS GB28181监控视频网页多窗口播放时如何提高性能使浏览器能同时播放更多路视频
  8. 汇编达人视频学习6(汇编眼中的函数、CALL指令执行函数、堆栈传参、堆栈平衡、外平栈、内平栈)
  9. Terminator常用快捷键
  10. java后验条件_JAVA并发实战学习笔记——3,4章~