摘要

  • 数据:超过30万个RNA测序样本。
  • 来源:这些样本来源于数千个实验。
  • 具体内容:这些实验捕获了数百种植物的器官、组织、发育阶段和实验处理中的基因表达。
  • 数据价值:由于基因表达提供了基因在何时何地活跃的重要线索,这些数据为预测基因功能提供了有力的工具,而比较分析使我们能够从一个新的角度研究植物进化。本文综述了基因表达谱表达特异性共表达网络差异基因表达实验相关性等方面的研究进展。我们还介绍并演示了为这些工具提供用户友好访问的数据库。

关键词:基因表达,比较转录组学,基因功能,共表达,差异表达,数据库

引言

背景及问题引出

  1. 植物基因功能的表征是一个缓慢的过程,通常仅限于少数模式植物。这主要是因为植物基因组的冗余度高、复杂性大、规模大、缺乏遗传转化选择、世代时间长、栽培难度大。
  2. 在非模式植物中发现的许多新的和独特的基因无法通过序列同源性进行功能注释,因为许多植物基因是独特的,并且与特征基因没有序列相似性。
  3. 如果植物基因属于大型且功能多样的基因家族,那么具有特征同源物的植物基因的功能注释仍然很困难。
  • 因此,已经开发了许多生物信息学方法,使用基因组学、转录组学、代谢组学和表型数据来解决基因功能预测中的困难。
  1. 大多数基因功能预测方法基于关联内疚原则,即具有相似特征(例如,序列或表达)的基因可能具有相同的功能(Rhee和Mutwil, 2014)。
  2. 例如,两个基因在不同器官和组织中表现出相似的基因表达谱,可能是同一蛋白质复合物或生物合成途径的一部分,或者针对相同的亚细胞区室。
  • 随着公开的基因表达数据以接近指数级的速度增长,许多具有不同功能和植物物种的在线数据库已经出现。
  • 本文提供了各种概念和数据库的指南,这些概念和数据库可用于基因功能预测,并作为支持实验结果的电子证据,由于大量的在线基因表达数据库,我们涵盖只有那些为研究基因功能提供独特方法的。

利用基因表达谱研究基因功能

  • 由于大多数基因只在需要时表达基因表达谱在预测基因功能方面是有用的。
  • 例如,在花粉中特异性表达的基因可能对花粉功能很重要,而在热应激中强烈表达的另一个基因可能是在高温下存活所必需的。
  • 许多研究和数据库都包含定制的表达纲要,以回答不同的问题(表1)。
    • 例如,genevevitor的解剖纲要包含来自拟南芥127个不同解剖部位的10562个样本(Hruz et al, 2008),显示了每个基因在不同器官、组织和处理中的平均表达值(表1)。
    • ePlant数据库中的表达数据也被安排到多个纲要中,以捕获各种(非)生命胁迫。

单细胞RNA-seq

单细胞RNA测序(scRNA-seq)允许研究人员发现复杂的和新的细胞群,并跟踪不同细胞类型的发育途径。

通过比较表达谱分析研究基因功能和进化

  • 多种基因的表达可以在物种内部和物种之间进行比较,通常作为二维热图,其中的行和列被配置为解决特定问题。

  • 热图的比较方面可以用来识别跨物种的功能等效基因

  • 例如,含有AG的CoNekT-Plants比较热图查看器以行表示来自多个物种的基因,并以列表示它们在不同器官中的表达值(图3A)。

  • 正如预期的那样,AG在拟蓝中主要表现为花特异性表达,而STK、AGL1和SHP2则表现为种子特异性表达,这与它们在种子发育中的功能一致(Ehlers等,2016;Paolo et al, 2021)。

  • 银杏叶中含有AG (Gb_16301)的同源基因,该基因在conekt植物花类生殖器官球茎中也有特异性表达。有趣的是,Amborella trichopoda含有AG的两个同源基因,其中只有AMTR_s00021p00254030具有花特异性表达(图3A)。因此,基于比较热图,AMTR_s00021p00254030,而不是AMTR_s00071p00193200,在功能上等同于拟南芥中的AG。

用共表达分析预测基因功能

  • 共表达分析确定具有相似表达谱的基因组

  • 共表达是基于关联内疚原则,即参与相似生物过程的基因在不同器官、组织、细胞和(a)生物和遗传扰动中应该具有相似的表达谱(Oliver, 2000)。

  • 因此,共表达分析在以下方面发挥了巨大作用:
    (1)进一步了解已知的生化途径(Lau and Sattely, 2015;Caputi等人,2018),
    (2)阐明基因在生物过程中的作用(Brown等人,2005),
    (3)预测未知基因的功能(Gao等人,2018;他等人,2020)。

  • 通过识别与特定感兴趣基因(GOI)共表达的基因,已经可以发现对基因功能的有价值的见解。

  • 几乎所有具有共表达数据的数据库都允许用户通过单个基因查询来检索共表达基因。

生成共表达数据的不同策略

  • 数据库使用不同的策略来生成共表达数据。这些差异包括转录组数据集的选择、基因表达量化和归一化、批量校正、样本平衡和用于测量共表达的统计指标,这进一步增加了共表达分析可以实施的自由度。
  • 目前,人们对最佳策略缺乏共识,因为不同的方法适合回答不同的生物学问题(Rao和Dixon, 2019年综述;Serin等,2016;Usadel et al, 2009),这导致数据库之间的一致性很差。

使用共表达网络进行可视化和分析

  • 在共表达网络中,基因通常是节点基因之间的共表达关系是节点之间的边(Usadel et al, 2009)。

  • 共表达网络的拓扑结构支持基于网络理论的强大分析,以提取额外的见解。例如, 连接度越高的基因在敲除后往往越重要,产生的表型也越严重(Mutwil et al, 2010)。

  • 中间性中心性(节点是最短路径连接器的程度)也被用于识别在共表达网络中高度连接且对生物过程具有重要功能的枢纽基因(van Dam等人,2018)。由于复杂生物系统中固有的基因-基因关系的分层组织(例如,调节因子-被调节因子,上游-下游效应因子关系),共表达网络具有异构拓扑结构,其中高度互联的基因区域称为集群或模块(Usadel等人,2009;Ruprecht et al, 2016)。

  • 与基因列表相比,共表达网络的可视化提供了更真实、更翔实的共表达关系表示,因为网络显示了所有成对关系(Jupiter和VanBuren, 2008)。

用共表达网络识别生物学途径

  • 共表达网络可以通过识别高度连接的基因群(集群/模块)来揭示已知的和新的途径。例如,CoNekT-Plants使用启发式聚类凿凿算法(HCCA)将共表达网络划分为共表达模块(Mutwil et al, 2010)。
  • 这些模块的功能可以通过对捕获的生物功能的过表示(富集)分析来预测,例如基因本体(GO;Ashburner et al ., 2000)或MapMan术语(tim et al ., 2004)。例如,AG属于拟南拟南(https://conekt.sbs.ntu)的69簇。
  • 共表达为预测基因功能和识别参与感兴趣的生物过程的新基因提供了一个强大的假设生成工具。

比较共表达网络分析

  • 为了在多个物种中保存基因表达谱,即使在遥远的进化距离中,共同表达网络区域也可以保存(Mutwil等人,2011;法拉利和Mutwil, 2019)。
  • 比较共表达网络分析能够将功能知识从模型物种转移到非模型物种(Movahedi等,2012;Sibout et al ., 2017)和生物途径进化研究(Ruprecht et al ., 2017;Ferrari et al, 2020)。
  • 此外,由于保守的共表达关系往往具有功能显著性(Hansen et al ., 2014),比较分析可以消除潜在的不相关的共表达关系。

用差异基因表达分析预测基因功能

  • 一个经典的处理/对照实验可以揭示数百个差异表达基因(DEGs),并可以识别对植物对处理反应重要的基因。例如,在冷处理过程中上调的基因可能是在冰冻温度下存活所必需的(To等人,2011年,第6页)。因此,识别这些deg可以快速剖析抗冻性的机制。

原文:Exploiting plant transcriptomic databases:Resources, tools, and approaches

利用植物转录组数据库:资源、工具和方法相关推荐

  1. nginx搭建静态文件服务器,利用nginx搭建静态资源服务器的方法步骤

    以windows为例,linux其实一样: 搭建静态资源服务器 我电脑上的work文件夹下面有很多图片,我想通过nginx搭建静态资源服务器,通过在地址栏输入ip+port的方式完成目录的映射 找到n ...

  2. 2018--20179215--《文献管理与信息分析》第三讲 英文数据库资源的发展趋势和利用...

    <文献管理与信息分析>第三讲 英文数据库资源的发展趋势和利用 一.科研相关的文献资源有以下十大来源: 专利.会议论文.期刊.学位论文.科技报告.科技档案.产品资料.政府出版物.标准文献.图 ...

  3. Mybatis的批量插入数据库的两种方法及代码自动生成工具的使用方法

    文章目录 常规批量插入.(通过foreach,生成很长的SQL) ExecutorType.BATCH方式执行批量操作 在这里简单介绍一下,自动生成工具的使用方法 常规批量插入.(通过foreach, ...

  4. Oracle10表数据编辑器,Oracle ORACLE 快速批量导入文本数据到数据库(sqlldr工具)方法与分析 (Windows CMD 方式)...

    Oracle ORACLE 快速批量导入文本数据到数据库(sqlldr工具)方法与分析 (Windows CMD 方式) 在实际生产环境中,常会碰到将一些如通过通讯接口传过来的数据(文本文件 txt) ...

  5. MySQL数据库中导入导出方法以及工具介绍

    MySQL数据库中导入导出方法以及工具介绍 1.MySQLimport的语法介绍: mysqlimport位于mysql/bin目录中,是mysql的一个载入(或者说导入)数据的一个非常有效的工具.这 ...

  6. [原创]利用Powerdesinger同步数据库的方法说明

    本文主要介绍我在工作过程中如果利用PowerDesinger同步数据库设计PDM和物理数据库保持同步.PowerDesinger以下简称PD.我们经常在数据库生成后,在后续的开发中发现数据设计有遗漏, ...

  7. Greenplum【集群搭建 02】cgroup工具安装+用户资源组配置+集群资源组配置+数据库资源组配置+资源组相关信息(一篇学会资源组配置)

    采用资源组的形式管理数据库集群的内存.cpu等信息,非特殊说明,需要在集群每台机器上执行. 1.安装cgroup工具 # 1.安装 yum install -y libcgroup-tools# 如果 ...

  8. 【数据库开发工具】上海道宁带来Navicat 16以及多种Navicat工具,为您提供构建、管理和维护数据库的新方法

    Navicat premium 16是 一套数据库开发工具 具备多项改进和新功能 能满足你对数据库开发的需求 Navicat拥有着百余种增强功能 和全新的界面 为你提供构建.管理和维护数据库的新方法 ...

  9. 图书馆数据库资源访问方法

    说明 该文章为个人所在学校的图书馆资源使用说明,各个学校图书馆数据库资源使用情况不同,请根据所在学校的使用说明进行使用.作者声明:仅限个人参考使用,不作为其他用途. 访问路径 1. 进入学校图书馆页面 ...

最新文章

  1. UE5真实环境设计入门学习教程
  2. django model 条件过滤 queryset.filter(**condtions) 用法
  3. 算法—1,简单说说最常见的冒泡排序(Bubble Sort)
  4. mmsPlayer 2.0 将开源java部分
  5. tomcat 在eclipse中可以启动,独立不能启动
  6. 【开源项目】基于FFmpeg的PCM和RGB数据统一封装
  7. c语言动画原理,动画详解十大经典排序算法(C语言版)
  8. linux下mtr命令,如何使用Linux mtr命令
  9. Java面试题:1-100之间的数,被放在数组a[99]中,有一个数没有包含在其中,用java代码找出这个数...
  10. 二度整理交换机有感(续)
  11. Qt5学习笔记之bin文件合成工具四:完善功能打包程序
  12. H5 下载文件到本地
  13. 熟练使用win7便签快捷键
  14. 友情链接怎么做才能提高网站权重
  15. WikiOI 1139 观光公交 (NOIP2011) 贪心
  16. android推送设置功能
  17. 极客日报:腾讯视频、优酷、爱奇艺取消超前点播;苹果为小学生推出编程指南;Win11会导致游戏性能下降
  18. 钉钉机器人智能回复_青岛市市南区税务局:“税博士”智能服务机器人亮相办税服务厅...
  19. 数学分析里面的蕴含(⇒)到底是什么意思
  20. 第九届蓝桥杯C++B组题解

热门文章

  1. echarts饼图 配置,及案例
  2. uncooked 计算机术语,物流专业英语和计算机基础练习题.doc
  3. 简单版留言发布+删除留言
  4. 谈乔布斯艺术家情怀的魅力
  5. 大疆行业无人机接入音视频平台协议详解
  6. SVG 标签path标签
  7. sed amp;amp; awk工具 及一些经常使用的shell脚本
  8. 【解决打开远程共享目录中的word、excel、ppt文档失败】
  9. Tak and Cards dp
  10. cmd命令行切换盘符