Stringtie 自带一个脚本prepDE.py用于计算转录组的 Raw Counts,用法如下:

Usage: prepDE.py [options]Generates two CSV files containing the count matrices for genes and
transcripts, using the coverage values found in the output of `stringtie -e`Options:-h, --help            show this help message and exit-i INPUT, --input=INPUT, --in=INPUTa folder containing all sample sub-directories, or atext file with sample ID and path to its GTF file oneach line [default: ./]-g G                  where to output the gene count matrix [default:gene_count_matrix.csv-t T                  where to output the transcript count matrix [default:transcript_count_matrix.csv]-l LENGTH, --length=LENGTHthe average read length [default: 75]-p PATTERN, --pattern=PATTERNa regular expression that selects the samplesubdirectories-c, --cluster         whether to cluster genes that overlap with differentgene IDs, ignoring ones with geneID pattern (seebelow)-s STRING, --string=STRINGif a different prefix is used for geneIDs assigned byStringTie [default: MSTRG]-k KEY, --key=KEY     if clustering, what prefix to use for geneIDs assignedby this script [default: prepG]-v                    enable verbose processing--legend=LEGEND       if clustering, where to output the legend file mappingtranscripts to assigned geneIDs [default: legend.csv]

需要准备一个 2 列的文本文件,例如命名为all_gtf,以Tab键分隔,如:

sample1 sample1.gtf
sample2 sample2.gtf
...
  • 第 1 列,样本名称

  • 第 2 列,Stringtie 生成的 GTF 文件,要求运行 stringtie 的时候加-e参数

准备好后,运行:

$ prepDE.py -i all_gtf -v

不料却报以下错误:

Traceback (most recent call last):File "/ifs/miniconda3/bin/prepDE.py", line 284, in <module>geneDict.setdefault(geneIDs[i],{}) #gene_id
KeyError: 'ENST00000496112'

检查prepDE.py的源代码无果,正一筹莫展时,突然想到输入prepDE.pyTab键代码补全时,还显示有一个prepDE.py3文件的存在,于是抱着试试看的心态,运行:

$ prepDE.py3 -i all_gtf -v

没报错。。。焦急等待中。。。最后输出如下结果:

..writing transcript_count_matrix.csv
..writing gene_count_matrix.csv
All done.
  • transcript_count_matrix.csv,转录本水平定量结果;

  • gene_count_matrix.csv,基因水平定量结果。

今天遇到这个坑是由于程序的版本造成的,换 Python3 版本的程序prepDE.py3就好了。

Stringtie 计算转录组的 Raw Counts相关推荐

  1. 多组学-转录组RNA-seq 中Counts值,RPM,RPKM,FPKM,TPM

    一个基因区域内的read counts数目取决于基因长度和测序深度. 基因长度影响:同一样本,基因越长,随机打断得到的片段越多,该基因被测到概率越大,比对到该基因的reads越多. 测序深度影响:不同 ...

  2. c盘越来越大怎么清理?C:\Windows\System32\DriverStore\FileRepository

    c盘越来越大怎么清理? 查看全文 http://www.taodudu.cc/news/show-6531988.html 相关文章: c盘用户/user/AppData文件夹下无用文件删除 清楚C盘 ...

  3. 一个植物转录组项目的实战

    一个植物转录组项目的实战 Posted on 2017年11月2日 其实这个植物是拟南芥,所以跟人类研究的数据处理大同小异. 转录组 转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有 ...

  4. 转录组分析学习笔记(持续补充)

    转录组分析流程(有参和无参de novo) 获得测序数据,Fastq格式,称之为Raw data. 质量检测 比对Mapping Quantification|Quantitation 差异表达分析 ...

  5. 转录组分析综述A survey of best practices for RNA-seq data analysis

    转录组分析综述 转录组 文献解读 Trinity cufflinks 转录组研究综述文章解读 今天介绍下小编最近阅读的关于RNA-seq分析的文章,文章发在Genome Biology 上的A sur ...

  6. Hemberg-lab单细胞转录组数据分析(四)

    Hemberg-lab单细胞转录组数据分析(一) Hemberg-lab单细胞转录组数据分析(二) Hemberg-lab单细胞转录组数据分析(三) 收藏|北大生信平台"单细胞分析.染色质分 ...

  7. 使用DESeq2进行转录组原始count标准化和差异分析

    转录组测序完成后,一般我们会获得一个原始 read count表达矩阵,其中行是基因,列是样品.常用的差异分析工具包括limma.edgeR和DESeq2.DESeq2在测序领域使用最为广泛(goog ...

  8. 39个工具,120种组合深度评估 (转录组分析工具哪家强)

    前言 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 (重磅综述:三万字 ...

  9. 39个转录组分析工具,120种组合评估

    RNA-seq工具哪家强 RNA-seq分析工具知多少 RNA-seq是研究转录组应用最广泛,也最重要的技术之一.RNAseq其分析内容包括序列比对.转录本拼装.表达定量.差异分析.融合基因检测.可变 ...

最新文章

  1. MATLAB【七】———— matlab 高斯核使用,超像素图像模拟,矩阵转图像,深度相机模型实践实现
  2. Win10安装NodeJS
  3. 修改某个appointment已经存在的opportunity relation
  4. mysql死锁的排查方法_MySQL死锁系列-线上死锁问题排查思路
  5. Spark的event事件监听器LiveListenerBus和特质SparkListenerBus以及特质ListenerBus
  6. JAVA day16、17 数据结构(栈、队列、数组、链表、红黑树)
  7. 20200301:快乐数(leetcode202)
  8. jdbc 数据源_Java数据源,JDBC数据源示例
  9. 虚点连边 分层最短路
  10. font-family:中文字体的英文名称
  11. MySQL 计算年龄
  12. P进阶_(zip函数)
  13. [安洵杯 2019]easy misc 1
  14. SQL SERVER 远程主机强迫关闭一个现有连接
  15. opus 源码下载 以及 相关资料
  16. UVM virtual interface errors
  17. 潘多拉开发板——emwin5.44裸机移植记录(ST7789驱动)
  18. gin学习——邮箱发送验证码注册用户
  19. 【负荷预测】基于改进灰狼算法(IGWO)优化的LSSVM进行负荷预测(Matlab代码实现)
  20. Domino NSD日志诊断/分析

热门文章

  1. 80后的初中生学计算机难吗,放弃所学计算机专业 爱做梦“80后”成面塑传人
  2. 电脑有线无线同时上网
  3. 电脑出现“电源已连接,未充电”问题的解决办法(亲测有效)
  4. Hadoop——错误Name node is in safe mode
  5. 个人网页中嵌入新浪微博
  6. 2021CVPR-Coordinate Attention for Efficient Mobile Network Design 坐标注意力机制
  7. 应用宝SDK YSDK登录验证服务端
  8. 面试官:你期望薪资多少?你真的会答吗?你的回答是否是面试官想要的呢?
  9. bzoj 1050: [HAOI2006]旅行comf(并查集)
  10. 关于手机端TeamViewer需要验证账户的解决方案