今天做了这样一个分析还是蛮有意思的 记录一下吧

下载的表达矩阵是这个样子,转换以后多个转录本对应一个symbol

采用aggregate加和,参考基因的FPKM等于各转录本FPKM之和 - 简书以及ensembl_id转换与gene symbol基因名去重复的两种方法 - 知乎

# GSE177029
library(BiocManager)
if (!require("dplyr"))BiocManager::install("dplyr")
if (!require("tidyverse"))BiocManager::install("tidyverse")
if (!require("org.Hs.eg.db"))BiocManager::install("org.Hs.eg.db") #加载人类转录本
if (!require("clusterProfiler"))BiocManager::install("clusterProfiler")#加载转换工具
rm(list=ls())exp <- fread("GEO177029xianyu/GSE177029_Raw_gene_counts_matrix.txt",data.table = F)
head(exp)[1:6,1:6]###把转录本转为symbol
ID<- bitr(exp[,1], fromType = "ENSEMBLTRANS", toType=c("SYMBOL"),OrgDb = org.Hs.eg.db)###合并转录后的结果
exp_ID <- merge(exp,ID,by.x="transcript_id",by.y="ENSEMBLTRANS",all=F)
exp_ID <- exp_ID[,-1]
colnames(exp_ID)
# [1] "FC-1_FPKM"    "FC-2_FPKM"    "FC-3_FPKM"    "FSLE-1_FPKM"
# [5] "FSLE-2_FPKM"  "FSLE-3_FPKM"  "MC-1_FPKM"    "MC-2_FPKM"
# [9] "MC-3_FPKM"    "MC-4_FPKM"    "MC-5_FPKM"    "MSLE-1_FPKM"
# [13] "MSLE-2_FPKM"  "MSLE-3_FPKM"  "MSLE-4_FPKM"  "MSLE-5_FPKM"
# [17] "FC-1_count"   "FC-2_count"   "FC-3_count"   "FSLE-1_count"
# [21] "FSLE-2_count" "FSLE-3_count" "MC-1_count"   "MC-2_count"
# [25] "MC-3_count"   "MC-4_count"   "MC-5_count"   "MSLE-1_count"
# [29] "MSLE-2_count" "MSLE-3_count" "MSLE-4_count" "MSLE-5_count"
# [33] "SYMBOL"  ###error因为有重复的名字。这是由于多个转录本可能对应一个基因造成的
rownames(exp_ID) <- exp_ID$SYMBOL###继续运行
###可以看到有如下基因都是测到多个转录本
head(sort(table(exp_ID$SYMBOL),decreasing = T),100)
# MYO15B STRADA  CORO7  MYO19  RPL17   ACY1
# 35     35     27     26     23     22###数据分为count和FPKM两个 分开###count
exp_count <- exp_ID[,17:33]
exp_count_gene <- aggregate(exp_count[,1:16], by=list(exp_count$SYMBOL), FUN=sum)
exp_count_gene  <- column_to_rownames(exp_count_gene ,'Group.1')###FPKM
exp_fpkm <- exp_ID[,c(1:16,33)]
###合并所有重复的gene symbol
###基因的FPKM等于各转录本FPKM之和
###主要思路为利用aggregate函数根据symbol列中的相同基因合并基因表达矩阵
###使用aggregate根据symbol列中的相同基因进行合并
exp_fpkm_gene <- aggregate(exp_fpkm[,1:16], by=list(exp_fpkm$SYMBOL), FUN=sum)
exp_fpkm_gene  <- column_to_rownames(exp_fpkm_gene ,'Group.1')save(exp_fpkm_gene,exp_count_gene,file = "GEO177029xianyu/exp.rda")

高通量测序多个转录本对应一个基因的处理相关推荐

  1. 基因测序与高通量测序区别

    基因测序是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性,个体的行为特征及行为合理,如癌症或白血病,运动天赋,酒量等.基因测序相关产品和技术已由实验室研究演变到临 ...

  2. mysql like反义_[转载]关于小RNA高通量测序数据分析方法的研究

    1 引言 小RNA(small RNAs)主要指长度在18-30nt的一类非编码RNA(ncRNAs),在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNAs,miRNAs) ...

  3. 高通量测序技术的原理及各平台优势和实践应用的分析

    高通量测序技术的原理及各平台优势和实践应用的分析 2020.9.01 2060 随着人类基因组计划(human genome project )在2003年顺利完成,基因组测序技术取得了长足的进步,这 ...

  4. 生信小白学习日记Day2——NGS基础 illumina高通量测序原理

    2019年5月26日,周日,小雨 说明:阅读生信宝典和查阅文章的总结,原文请关注公众号生信宝典,参考的博文都附有链接,仅供参考. 生信宝典 NGS基础--高通量测序原理 本文介绍了测序文库构建原理.链 ...

  5. 高通量测序数据分析:RNA-seq

    本文围绕RNA-seq学习路线进行生信入门,主要内容有: ☆ RNA-seq方法原理 ☆ RNA-seq的生物信息分析 1.数据获取 测序数据下载与处理(SRA Toolkit) 测序数据质控与过滤( ...

  6. 生物信息学(高通量测序)名词

    什么是高通量测序 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, ...

  7. 测序总结,高通量测序名词

    主要来自 :http://mp.weixin.qq.com/s/iTnsYajtHsbieGILGpUYgQ 测序的黄金标准:一代测序了,故称之为黄金测序. 高通量测序最近这几年很火越来越火,但是世界 ...

  8. 使用 Docker 分析高通量测序数据

    端午节假期,先祝各位 Bio IT 的爱好者们,节日快乐! 做生信的童鞋想要学习 Docker,或者使用 Docker+Pipeline 封装自己的一套数据分析流程,相信一定不能错过胡博强老师在201 ...

  9. MPB:沈阳生态所李琪组-​土壤线虫群落DNA提取、扩增及高通量测序

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

最新文章

  1. Centos7 释放内存
  2. php xxtea加密,php - esp32和php XXTEA字符串加密 - SO中文参考 - www.soinside.com
  3. jsp实现上一页下一页翻页功能
  4. 求一个截取字符的正则表达式
  5. CentOs7配置java环境
  6. python彩票预测与分析_130期祥子大乐透预测奖号:后区大小分析
  7. MySQL-快速入门(8)存储过程、存储函数
  8. python库下载地址
  9. 作品发布:挖金子修订版源码和文档
  10. Android三横变叉动画,90%的孩子会写错的笔顺,动画演示来一波!一看就会!
  11. ExpandableListView说明及其用法
  12. 简单了解cms(内容管理系统)
  13. Python爬虫:斗鱼TV
  14. 今年本人英语六级分数剖析
  15. 《给青年的十二封信》2-谈动—朱光潜
  16. C语言题目:4 4-9输出等级分(用switch语言实现) (10 分)
  17. JavaScript_找出数组下标并返回下标数
  18. AutoHotKey写一个改键的小脚本
  19. 停车场管理系统车牌识别中的无感支付有什么bug
  20. 谷歌浏览器(Google Chrome)官方下载

热门文章

  1. 基于geoplotlib包的美国某天新冠疫情可视化的等值线图
  2. 电容的通高频阻低频是什么意思?详细解释
  3. 微信支付崩溃了,但是更让马化腾和张小龙崩溃的竟然是……
  4. wampserver配置域名
  5. DEVC++(1)单文件实现重载运算符的十六进制数类
  6. thinkphp5,android混合开发基础恶补篇
  7. 【Liunx】manjaro双系统安装教程
  8. excel 复制 格式不变_ 如何复制Excel表格保持格式及列宽不变
  9. 北京第三家面试录音总结
  10. WEB前端JS与UI框架