本文背景资料(感谢Jimmy大神):RNA-seq基础入门传送门-转录组-生信技能树 (biotrainee.com)

fastq-dump参数参考文章(有些已经过时啦!!):SRA批量下载及转为Fastq格式 - 简书 (jianshu.com)

相关软件的下载地址:

sratoolkit:https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.11.3/sratoolkit.2.11.3-ubuntu64.tar.gz

fastqc: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip

hisat2: https://cloud.biohpc.swmed.edu/index.php/s/oTtGWbWjaxsQ2Ho/download

目录

一、数据转换

二、fastqc检测测序文件质量

三、下载基因组参考文件、建序和注释文件

四、使用hisat2进行比对

五、samtools进行处理


一、数据转换

需要转换的sra文件:

for i in `seq 56 62`;do  nohup fastq-dump --gzip --split-files -O ../raw_data/ SRR35899$i.sra; done &

/*

seq 56 62生成一个56到62的列表,` `符号取值。

nohup指出即使关闭终端,程序仍会运行;末尾的&符号,让程序在后台运行;可以使用jobs -l显示所有在后台运行的程序,kill 进程号关闭某个进程。

fastq-dump 用来将sra转变为fastq文件;--gzip指定输出文件为压缩格式;--split-files将reads分开到两个文件,文件末尾会有后缀;-O指定输出文件夹;

*/

结果:

二、fastqc检测测序文件质量

注意一下:我这fastqc好像不支持压缩文件(gz)的输入?倒腾了十分钟,最后把压缩文件给解压缩了才能运行

#切换fastq所在文件目录
ls | xargs nohup fastqc -o ../fastqc_result/ --nogroup &

xargs和管道符|的区别(抄的):[Linux] xargs 和 管道符的区别 - 我是小菜鸟 - 博客园 (cnblogs.com)

xargs相当于传给后面一个参数,而管道则传给后面命令一个字符串

上述代码将目录下的所有fastq文件依次传给后面的fastqc进行检测,结果输出到../fastqc_result文件夹中。

部分结果(Html+zip):

fastqc结果解释:用FastQC检查二代测序原始数据的质量 | Public Library of Bioinformatics (plob.org)

可以使用multiqc将结果结合在一起,更加直观:批量显示QC结果的利器 | 分享自为知笔记 (wiz03.com)

multiqc -o ../multiqc_result/ ../fastqc_result/

结果:

将这个html文件下载到本地,使用浏览器打开即可。

三、下载基因组参考文件、建序和注释文件

去UCSC下载hg19参考基因组:http://genome.ucsc.edu/index.html

chromFa.tar.gz - The assembly sequence in one file per chromosome.Repeats from RepeatMasker and Tandem Repeats Finder (with periodof 12 or less) are shown in lower case; non-repeating sequence isshown in upper case.

再去GENCODE - Home page下载注释文件,参考文章(伪)从零开始学转录组:了解参考基因组及基因注释 (qq.com)

GTF等格式参考官网:GENCODE - Data format (gencodegenes.org)

关于为什么还要指明正负链,参考文章:关于DNA正负链的定义 - 简书

安装IGV(Integrative Genomics Viewer),也就是基因组浏览器,之前已经安装好了。

至此,转录组分析所需要的材料就全了,目前的结构目录如下:

如果之前使用过bowtie或者tophat的童鞋都知道,下一步就要给reference genome建序了,这里我们可以去hisat2官网上直接下载hg19已经建好的index:Download | HISAT2 (daehwankimlab.github.io)

四、使用hisat2进行比对

Usage:hisat2 [options]* -x <ht2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA accession number>} [-S <sam>]<ht2-idx>  Index filename prefix (minus trailing .X.ht2).<m1>       Files with #1 mates, paired with files in <m2>.Could be gzip'ed (extension: .gz) or bzip2'ed (extension: .bz2).<m2>       Files with #2 mates, paired with files in <m1>.Could be gzip'ed (extension: .gz) or bzip2'ed (extension: .bz2).<r>        Files with unpaired reads.Could be gzip'ed (extension: .gz) or bzip2'ed (extension: .bz2).<SRA accession number>        Comma-separated list of SRA accession numbers, e.g. --sra-acc SRR353653,SRR353654.<sam>      File for SAM output (default: stdout)<m1>, <m2>, <r> can be comma-separated lists (no whitespace) and can bespecified many times.  E.g. '-U file1.fq,file2.fq -U file3.fq'.

那么在本例中,可以使用一个for循环来执行:

for i in `56 58`
do
nohup hisat2 -x reference/index/hg19_genome -1 raw_data/SRR35899$i_1.fastq -2 raw_data/SRR35899$i_2.fastq -S aligned/SRR35899$1.sam &
done

结果:

sam格式,参考生信:2:sam格式文件解读_genome_denovo的博客-CSDN博客_sam文件

五、samtools进行处理

参考文章:BAM/SAM文件操作与可视化简介

SAM(sequence Alignment/mapping)数据格式是目前高通量测序中存放比对数据的标准格式;而目前处理SAM格式的工具主要是SAMTools:

  • view: BAM-SAM/SAM-BAM 转换和提取部分比对

  • sort: 比对排序

  • index: 索引排序比对

最常用的三个命令就是格式转换,排序,索引:

格式转换当然就是为了省空间提速度啦,这咱们也不懂,用就完事了~

#转换格式sam->bam,压缩空间同时利于下面处理
#-b指明输出为bam格式,S指明自动检测输入的格式,-o指明输出文件名
$ for i in `seq 56 58`
$ do
$ nohup samtools view -bS -o SRR35899${i}.bam SRR35899${i}.sam &
$ done

那为啥要排序呢(sort),你看看上面的sam文件格式,比对是每一条read比对到参考基因组上,那么就有可能第一条read比对到chr10,第二条却比对到了chr2,所以要调一调顺序哈~

$ for i in `seq 56 58`
$ do
$ nohup samtools sort --threads 50 SRR35899${i}.bam -o SRR35899${i}_sorted.bam &
$ done

最后对排序好的bam文件建立索引,加快后面检索速度。

$ for i in `seq 56 58`
$ do
$ nohup samtools index -@ 50 SRR35899${i}_sorted.bam  &
$ done

结果:

至于为什么只用56-58的,参考文章里提到了:(伪)从零开始学转录组(5) 序列比对

同时如果你自己用samtools flagstat去看一下比对的情况,你就会发现后面几个结果差的离谱。

RNA-seq (1)相关推荐

  1. 一文掌握RNA seq,RNA seq课程大汇总

    RNA测序(RNA-seq)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具.RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录到RNA ...

  2. Scanpy(二)对PBMC3k聚类

    目录 单细胞测序简介 数据预处理 降维与聚类 找到Marker基因 单细胞测序简介 单细胞测序是指在单个细胞水平上进行测序,单细胞转录组测序(single cell RNA Seq,scENA-seq ...

  3. 迎娶了校花的学霸,竟把日子过成了这个样子!

    如果有人问你, 你努力学习与工作的目的是什么? 不同人会有不同回答. 我的回答是: 为了有更多选择权. 正如学长Dr. 王, 他选择了校花, 选择了直接去做副教授: 也可以选择留更多时间陪孩子们. 而 ...

  4. 关于微阵列芯片和RNA-seq的比较

    关于微阵列芯片和RNA-seq的比较 转录组代表存在于细胞中RNA的全部类型,包括mRNA.rRNA.tRNA以及其它各种非编码RNA等.转录组是了解细胞过程的主要手段,微阵列(Microarray) ...

  5. RNA-Seq专题课程大纲

    RNA-Seq专题课程大纲 第1部分 RNA Seq的基础知识 RNA-Seq的发展历史 双端测序结果与RNA-Seq gene位置的关系 注释文件的下载与版本差异 Ensmbl RefSeq UCS ...

  6. python for bioinformatics相关题目

    题目完整版来自:http://rosalind.info/problems/list-view/: 学习的网友脚本来自生信技能树:http://www.biotrainee.com/forum-59- ...

  7. seer文献_文献解读 | 师兄带你读一篇免疫浸润3分文章!

    今天要和大家分享的是今年发表在Oncology reports期刊详情关于免疫微环境与肿瘤预后的文章Tumor‑infiltrating M2 macrophages driven by specif ...

  8. 单基因gsea_筛到5分的核心基因以后你可以怎么做?

    这一次我们从一些已经发表的文章拆解,我们来看看,你找到了一个核心基因以后,你可以怎么做呢?我们就不说那么多废话了,直接用几篇文章的解读来带着大家领会一下如何去进行下一步的分析. Case1:预后标志物 ...

  9. 经验也有捷径,来看下这些热点、经验、技术等干货应有尽有的公众号吧!

    一样的起点,为什么他就可以发好文章? 一样的读文献,为什么他的知识面越来越广? 一起学生信,为什么他的代码越来越好? 唯一的差别 可能就是下面这些公众号了 它们有干货有内涵 用更少的时间得到更大的回报 ...

  10. 导师没有教你的“潜规则”

    文献读的不够多? 分析方法用不对? 实验没有好结果? 不如看看下面的优质公众号 掌握最新的研究热点.研究进展.研究技术 Hanson临床科研 (ID:HClinicalResearch) 推荐理由: ...

最新文章

  1. Adaboost算法原理分析和实例+代码(简明易懂)
  2. 一位大牛的JAVA学习资料
  3. 崛起吧,亲爱的,该背单词了!!!
  4. 709. 转换成小写字母 golang 字符串处理
  5. Ubuntu 12.04 root用户登录设置
  6. 【转】2.4SharePoint服务器端对象模型 之 访问网站和列表数据(Part 4)
  7. Linux 启/关 自启动服务
  8. 笨方法python_笨方法学习Python(11-20)
  9. ccd视觉定位教程_CCD视觉检测机有哪些作用?
  10. 我只注视你全cg存档_科幻国漫持续推出,全CG动画星骸骑士首播,这一次吞噬星空输了...
  11. 有关科学计算方面的python解决
  12. shell脚本:一次读取文件的一行,并输出
  13. WPS简历模板的图标怎么修改_研究了 2000 份 BAT 员工的简历后,我发现这 3 个共同点...
  14. Java初级程序员面试中应该如何准备?一般公司对Java开发的要求有哪些?
  15. cloudstack上传模板时候的一个报错
  16. dbeaver(下载、安装图文过程)
  17. java引入外部字体_Java中如何自定义字体文件(引用外部字体)?-字体文件
  18. 高德地图 根据名称搜索坐标,坐标点呈现列表展示
  19. 【AI简报20210910期】联想发布LA2智能嵌入式控制器、单目摄像头实时感知车辆形状...
  20. Cesium 无法加载出地球

热门文章

  1. 阿里巴巴到底是一家什么公司?
  2. LVS调度器(未完成)
  3. (六)速度梯度与加速度梯度
  4. oracle数据库定义游标,Oracle游标声明
  5. 我为什么那么喜欢《宫崎骏の电影》
  6. [普通物理]双缝干涉条纹的计算
  7. PHP开发-从零开始(附网站开发效果图)
  8. python字符编码使用ascii编码储存对么_Python字符编码详解(转)
  9. 三十多岁的女工程师,有点悲哀
  10. websphere调整应用程序服务环境