GO注释(生信学习)
参考:GO分析学习笔记 (qq.com)
1.富集分析
前景基因:要重点研究的基因集
背景基因:所有的基因集
例:前景基因为对照组与处理组的差异基因
背景基因为对照组与处理组的所有基因
2、GO的构成
GO terms, 它提供生物过程的逻辑结构与相关关系,不同的GO terms之间的关系可以通过一个有向无环图来表示。
注:GO terms是对基因的产物,而不是对基因的本身进行描述,因为基因本身的产物有时候不止一种
GO注释(GO annotations),它主要是为GO terms提供注释, 也就是描述这个GO terms有什么功能
3.GO中的基因注释证据代码
一个GO注释由一个与GO term相关的特定参考和基因产物构成,GO注释的来源各异,下表就说明了GO注释的各种来源代码,其中*
部分表示证据来源可靠性比较高
缩写 | 证据代码 | 例子 |
---|---|---|
IC,Inferred by curator | 由专家推测得到 | 推测它定位在细胞核中一个蛋白质如果有“转录因子”的功能注释,专家就可以 |
*IDA,Inferred from direct assay | 有直接实验证据 | 如酶活化实验(针对“分子功能”),免疫荧光显微镜(针对“细胞组分”) |
IEA,Inferred from electronic annotation | 有电子注释 | 基于像BLAST这些搜索软件搜索结果的电子注释(与ISS比较,IEA没有被专家证实) |
*IEP,Inferred from expression pattern | 有表达模式方面的证据 | 转录水平(如Nothern Bloting或微阵列实验结果)或蛋白质表达水平(Western blots实验结果) |
*IGI,Inferred from genetic interaction | 有遗传相互作用方面的证据 | 抑制基因;遗传致死基因;互补试验;还有其他一些可以提供某一基因功能信息的实验 |
*IMP,Inferred from mutant phenotype | 由突变表型推测得到 | 基因突变;基因敲出;过量表达;反义RNA实验 |
*IPI,Inferred from physical interaction | 由物理相互作用推测得到 | 酵母双杂交实验;共纯化实验;免疫共沉淀实验;结合实验 |
ISS,Inferred from sequence or structural similarity | 由序列或结构的相似性得到 | 序列的相似性;结构域;被专家确认的BLAST软件的搜索结果 |
NAS,Non-traceable author statement | 有报道,但报道信息来源不可知 | 数据库(如SwissPort数据库)登录条目的记录中没有引用已发表的文献 |
ND,No biological data | 没有相关的生物数据 | 对应于“unknown”的分子功能、细胞过程或细胞组分 |
TAS,Traceable author statement | 有报道,且可知报道信息来源 | 有一些综述文章或字典中可以找到相关信息 |
4.理论基础
超几何分布
N:表示总基因数
n:表示N中差异表达基因的总数
M:表示N中属于某个GO terms的基因个数
K:表示n中属于某个GO terms的基因个数
这个公式表示的意思是,从总的N个基因中挑出n个基因,作为分母(这是背景基因),分子则是M个基因(我们的差异基因,这是前景基因),有k个落在了某通路里,有n-k个不落在了某通路里,然后使用超几何分布来对它们进行计算,即前景基因落在某通路的比例是否高于背景基因在这一通路的比例,实际计算时,是算的odds ratio的差异。
现在举个例子,在GO分析的结果表格中,会出现以下信息:
Background Frequency,背景基因频数,指的是在整个背景基因集中,注释到一个GO term中的基因数目。
Sample Frequency,样本基因频数(有的也叫前景基因频数,总之,就是你要研究的一批基因)指的是,在你研究的基因列表中,注释到这个GO term(与Background Frequency的GO term相同的这个GO term)的基因数目。例如,我们在研究酿酒酵母(S. cerevisiae)的生物过程(biological process)时,这个物种的背景基因是6442个基因,假如我们要研究的目的基因有10个,其中有5个基因被注释到了一个这样的GO term上,这个GO term是:DNA修复(DNA repair),然后样本中的DNA修复的基因频率就是5/10,如果在酿酒酵母(S. cerevisiae)的整个基因组中,只有100个基因注释到了DNA修复的这个GO term上,那么背景基因的频率就是100/6442。GO分析就是利用超几何分布(或Fisher精确检验)来比较一下5/10和100/6442有没有统计学差异,GO分析结果的表格中会列出这个计算结果的P值
富集方法与GO term的查询
1.AmiGO
2.DAVID
3.gotatools命令
python /.../goatools/scripts/find_enrichment.py <fg.genelist> <bg.genelist> <association_file> --outfile <outfile> --obo /../go-basic_20180701.obo --pval 0.05
1.fg.genelist和bg.genelist就是研究的前景与背景基因文件,每行一个基因名
2.association文件即每个基因对应的GO号,两列,第一列为基因名,第二列为GO号
3.obo:官网下载的GO信息文件,大概情况如下:
5.GO分析的思路
第一件事情就是我们要把差异基因与相应的GO terms对应起来;
第二件事情就是需要找到前景基因(也就是差异基因)与背景基因;
第三件事情就是,将对应起来的GO terms进行比较,也就是利用超几何检验,这些差异基因在某个通路中的比例是否要高于背景基因;
第四件事情就是绘图,也就是文献中经常出现的GO条形图
GO注释(生信学习)相关推荐
- 知乎阅读三百万的生信学习指南
作为本科学生物,硕博转行生物信息的人,经常会被人问起,为啥学习生物信息了呢?这背后通常会带着一些困惑,生物信息分析好不好学? 生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下 ...
- 送书 | 知乎阅读300w+的生信学习指南(更新版)
先送书 在上周的留言送书活动中,恭喜下面这位读者获得书籍"Oracle高性能系统架构实战大全",请及时与生信宝典编辑(shengxinbaodian)联系. 2020过去三分之一了 ...
- 生信学习之通路富集一(GO分析)
生信学习之通路富集一(GO分析): 富集分析的理论知识 富集分析(Enrichment Analysis)是一种广泛应用于生物信息学研究的统计方法,主要用于检验一个基因集合中某些功能或特征的富集程度. ...
- 生信学习学的是什么?常识!
生物信息学学的是什么?常识! 学习的是基本生物学概念的常识! 学习的是计算机基础的常识! 学习的是图形解读的常识! 学习的是统计的常识! 拦住生信学习脚步的不是技术有多难,而是有些常识你还不知道. 这 ...
- 生信学习——R语言练习题-初级(附详细答案解读)
题目目录 1. 打开 Rstudio 告诉我它的工作目录. 2. 新建6个向量,基于不同的数据类型.(重点是字符串,数值,逻辑值) 3. 告诉我在你打开的rstudio里面 getwd() 代码运行后 ...
- 计算机通路的基本概念,【生信学习笔记】KEGG分子通路数据库
原标题:[生信学习笔记]KEGG分子通路数据库 首先什么是一个通路? 通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行 ...
- 生信学习——R语言学习总结
写在前面--经过了四十天断断续续的学习,算是对R语言有了初步的了解.其实使用R语言,无非就是对数据进行处理分析,然后把结果可视化.但是数据的千变万化,还有数以万计的函数.数据格式,使得这个过程变得很复 ...
- 【生信学习第一天】DEseq2 差异表达基因计算
一.介绍 分析来自 RNA-seq 的计数数据的一项基本任务是检测差异表达的基因.计数数据以表格的形式呈现,其中报告了每个样本已分配给每个基因的序列片段的数量.其他检测类型也有类似的数据,包括比较 C ...
- KEGG注释(生信学习)
KEGC数据库:是系统分析基因功能.基因组信息的数据库 KEGC注释的工具:KofamKOALA有在线版与本地版(linux) 本次主要介绍本地版 安装 下载并解压Kofam wget https:/ ...
最新文章
- 如何通过远程修改另一台电脑注册表
- 文件头_常见文件文件头
- idea包名呈现层级显示
- SLVS-EC接口学习
- golang和php哪个性能更强,相同逻辑的php与golang代码效率对比,最好语言落谁家…...
- mysql中正则表达式的用法_mysql之正则表达式的用法
- 21天jmeter打卡day4-请求并查看响应信息
- [CareerCup] 18.4 Count Number of Two 统计数字2的个数
- MATLAB 2018a 安装
- 数学建模PPT(四)
- Axure一些常用模板下载(免费模板)
- 单片机课设-中断程序(仿真图,代码全)
- 鼠标设置按键功能方式(例如设置鼠标侧键为复制粘贴功能)
- image.shape[] 和array.shape[]的含义
- 二维动态规划降维误差一般为多少_数学建模常用算法模型
- suse11 安装 apache 记录
- 【概念辨析】二维数组传参的几种可能性
- 第三方支付接入之支付宝当面付
- PUK 码为8位数字
- 网络安全等级保护备案申请指南(杭州)
热门文章
- ios睡眠分析 卧床 睡眠_你知道iOS 时钟里藏了这么一个睡眠小管家? (iOS)
- CC00037.bigdatajava——|Java方法封装.V19|——|Java.v19|封装实现.v02|
- c语言标准io进程,IO系统-标准C的I/O和文件I/O
- svn is already locked报错无法更新代码解决方法。
- Golang 数据库操作
- 宝洁张家口为2022雪季开板,王濛、关晓彤成为宝洁漂亮助力大使发起人
- 数独 :解数独--填空
- 实型数据和字符型数据
- TASKCTL消息订阅参数设置说明
- 蓝桥杯 基础练习(六)杨辉三角 C语言