数据文件“COAD_normal_tumor.csv”中包含了结直肠癌基因转录表达数据(数值为比对得到的read counts),列为样本,行为基因,其中结直肠癌表达数据为TCGA开头的样本名,正常对照样本表达数据为GTEX开头的样本名。

1.表达矩阵为什么要归一化

在RNA-seq上游分析的过程中,所得到的的产物为表达矩阵,一般指RSEM\HTseq等量化工具统计得到的,各个样本比对到参考基因组中各个基因的reads数,一般为raw read count,这是最简单的表达定量形式。

测序步骤产生大量的cDNA片段序列,称为reads,每个reads代表样品中某些RNA分子的一部分,然后我们将每个read分配到一个isoforms(isoforms可以认为是同一个基因的不同版本的蛋白质),并计算每个isoforms有多少个reads。在其他条件都相同的条件下,isoforms越丰富,则来自该异构体的片段越可能被测序,因此我们将reads计数代表isoforms的丰度。
但光有raw read count是不够的严谨的,往往还需要归一化处理,主要解决以下问题:

  1. 目标基因的转录本长度:长度越长的转录本对应能够mapping上的reads数也越多,无法反映该基因实际的表达情况,因为RNA分子在测序之前先进行片段化,较长的转录本会比较短的转录本被剪切成更多的片段,因此转录本的reads数不仅与其表达水平成正比,而且也与长度成正比。这样序列长的基因永远会被认为表达量较高,从而错误估计基因真正的表达;
  2. 深度测序(相当于测序几遍):测序深度用来比较细胞之间的基因表达,总的有效比对的reads数量,即去除没有mapping上的,或者匹配不准确的reads,显然测序深度越深,总的有效比对的reads数量越多,每一个基因对应mapping到的reads数量也越多;
Coverage ratio(覆盖比率 覆盖率 基因组覆盖率):指被测序到的碱基占全基因组大小的比率。
Coverage depth(覆盖深度 测序深度 碱基平均测序深度) :指每个碱基被测序的平均次数,即测序的数据总量比基因组大小。
  1. 测序的偏差:样品之间一些高度差异表达的基因:样品之间表达的基因数量不同或存在污染会影响某些类型的标准化方法。建议对RNA组成进行核算,以准确比较样品之间的表达,在进行差异表达分析时尤为重要。

2.常用归一化方法

管家基因定量

是指所有细胞中都要稳定表达的一类基因,其产物是对维持细胞基本生命活动所必需的,管家基因是一类始终保持着低水平甲基化并且一直处于活性转录状态的基因。

RPKM和FPKM

RPKM:Reads Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的reads)。

将raw counts除以该样本总的有效的(匹配上的)reads数(以KB为单位),以减少测序深度的影响;再除以该基因的转录本长度(以百万为单位),即真核生物外显子长度和、原核生物编码区长度和,以减少基因长度的影响 。

在single-end测序中,一个read就是一个read。而在pair-end测序中,若一对paired-read 都比对上了,当做两个read;若只有一个read比对上,另一个未比对上,当做一个read计算。

局限性:该算法除以有效比对的reads总和的这种方式,排除了测序深度对总reads数的影响,但是没有考虑到基因转录本长度对reads总和的影响,可以说RPKM是先进行测序深度标准化,后进行基因长度标准化。为了排除转录本长度对reads总和的影响,应当首先进行基因长度标准化,载根据长度标准化后的reads总和进行测序深度的标准化,TPM算法应运而生。

FPKM:Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)。

一般针对双端测序的方法。在single-end测序中,FPKM将read当做fragment计算,此时FPKM和RPKM是相同的。而在pair-end测序 中,若一堆paired-read 都比对上了,当做一个fragment。

步骤

  1. 首先对总值数据进行标准化
  2. 接着将每次的read除以经标准化处理后的总的reads,这样可以得到每次所占的比重
  3. 最后在计算每千碱基下的配对到外显子的read比重

TPM

TPM:Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)。

TPM是先根据基因长度矫正count值,即用count值除以基因长度(百万为单位)得到矫正后的reads数,将所有校正后的count值相加得到矫正后的总counts值,将校正后的count值除以校正后的总count值,得到TPM值。

RPM和CPM

RPM和CPM:RPM/CPM: Reads/Counts of exon model per Million mapped reads (每百万映射读取的reads)。

指将count数除以总有效匹配的count数,以排除测序深度的影响,常常用于长度差异不大的sRNA的分析。

GSEA实战分析(结直肠癌基因转录表达数据)相关推荐

  1. 赠你一只金色的眼 - 富集分析和表达数据可视化

    GOplot包介绍 GOplot包用于生物数据的可视化.更确切地说,该包将表达数据与功能分析的结果整合并进行可视化.但是要注意该包不能用于执行这些分析,只能把分析结果进行可视化.在所有科学领域,由于空 ...

  2. 数据挖掘实战—电商产品评论数据情感分析

    文章目录 引言 一.评论预处理 1.评论去重 2.数据清洗 二.评论分词 1.分词.词性标注.去除停用词 2.提取含名词的评论 3.绘制词云查看分词效果 三.构建模型 1.评论数据情感倾向分析 1.1 ...

  3. R语言data.table进行滚动数据连接,滚动连接通常用于分析涉及时间的数据(例如商业销售活动和对应的广告投放的安排之之间的关系)实战:实战和动画说明滚动数据连接的形式及方法

    R语言data.table进行滚动数据连接,滚动连接通常用于分析涉及时间的数据(例如商业销售活动和对应的广告投放的安排之之间的关系)实战:实战和动画说明滚动数据连接的形式及方法 目录

  4. R语言data.table进行滚动数据连接,滚动联接通常用于分析涉及时间的数据实战(动画说明滚动数据连接的形式):rolling joins data.table in R

    R语言data.table进行滚动数据连接,滚动联接通常用于分析涉及时间的数据实战(动画说明滚动数据连接的形式):rolling joins data.table in R 目录

  5. python处理excel表格数据-利用Python处理和分析Excel表中数据实战.doc

    利用Python处理和分析Excel表中数据实战 [利用python进行数据分析--基础篇]利用Python处理和分析Excel表中数据实战 原创 2017年06月28日 15:09:32 标签: p ...

  6. Python基金数据实战分析:偏债混合基金篇

    Python基金数据实战分析:偏债混合基金篇 如何从众多的基金中选择适合自己的 需求场景 从基金网站获取基金代码 先整体看一下基金情况 获取所有混合C基金的历史净值数据 分析混合C基金 画线图予以核实 ...

  7. python和excel数据分析_利用Python处理和分析Excel表中数据实战

    作为一个学习用Python进行数据分析的新手来说,通过本文来记录分享一些我在用Python中的pandas.numpy来分析Excel表中数据的数据清洗和整理的工作,目的是熟悉numpy以及panda ...

  8. 高级转录组调控分析和R语言数据可视化第十三期 (线上线下,7月底开课)

    福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.转录组线上直播课.报名参加线上直播课的老师可在365天内选择参加同课程的一次线下课 .期待和大家的 ...

  9. 高级转录组分析和R语言数据可视化第十三期 (线上线下同时开课)

    " 福利公告:为了响应学员的学习需求,经过易生信培训团队的讨论筹备,现决定安排扩增子16S分析.宏基因组.Python课程线上直播课.报名参加线上直播课的老师可在1年内选择参加同课程的一次线 ...

最新文章

  1. 架构师之路 — API 经济 — RESTful API 设计规范原则
  2. 长尾关键词挖掘工具和使用方法
  3. Android App开发——使用CameraX打开前后摄像头拍照并保存(Java实现)
  4. boost::hana::make_map用法的测试程序
  5. 数据库的事务级别介绍与操作
  6. 树莓派要mysql的密码_树莓派raspberry Pi 3B+系统中安装mysql过程中不提示输入密码,安装完后如何设置密码...
  7. binary search(二分法)
  8. heroku_如何使用Express.js和Heroku将应用程序部署到Web
  9. HTML img 标签的 alt 属性
  10. string字符串比较
  11. 通信技术专业技术人员考试 动力与环境_2020年中级通信工程师动力与环境考试大纲...
  12. 微信小程序Unhandled promise rejection TypeError
  13. Delphi 编写数字签名验证并获取签名信息
  14. 移动端js触摸touch详解(附带案例源码)
  15. 5e显示非vac服务器,CSGO出现VAC无法验证的解决方法
  16. 嵌入式 STM32 串口波特率生成器BRR的值计算笔记
  17. 【程序设计】Web网页脚本执行
  18. 如何用纯 CSS 创作闪闪发光的霓虹灯文字
  19. 前端js分享插件运用(空间,QQ,微信,微博,豆瓣)
  20. 计算机系统自带软件,电脑闹钟软件系统自带

热门文章

  1. 真无线耳机哪个品牌音质最好?四款真无线蓝牙耳机
  2. OpenJudge NOI 2.1 3526:最简真分数
  3. 用HackRF做一个私网LTE基站
  4. java 泛化_Dubbo 泛化引用和泛化实现
  5. 【数据压缩(二)】PNG文件格式分析
  6. Win10命令行运行程序莫名停止
  7. 荣耀畅玩5手机中的“经济适用机”
  8. 对话系统在机票业务中的应用
  9. matplotlib.pyplot 所有方法目录
  10. 分击合进,锦江之星酒店与白玉兰酒店再领投资热潮