点击关注,桓峰基因


前言

单细胞RNA-seq使基因表达的研究达到了前所未有的高度。这项技术的前景正在吸引越来越多的用户使用单细胞分析方法。随着越来越多的分析工具可用,导航这一景观和产生一个最新的工作流来分析一个人的数据变得越来越困难。在这里,我们详细介绍了一个典型的scRNA-seq分析的步骤,包括预处理(质量控制、归一化、数据校正、特征选择和降维)和细胞和基因水平的下游分析。我们基于独立的比较研究制定了这些步骤的当前最佳实践建议。我们已经将这些最佳实践建议集成到一个工作流中,并将其应用于一个公共数据集,以进一步说明这些步骤在实践中如何工作。

What is Cell Ranger?

Cell Ranger是10X genomics公司为单细胞RNA测序分析量身打造的数据分析软件,可以直接输入Illumina 原始数据(raw base call,BCL)输出表达定量矩阵、降维(pca),聚类(Graph-based& K-Means)以及可视化(t-SNE)结果,结合配套的Loupe Cell Browser给予研究者更多探索单细胞数据的机会。cellranger的高度集成化,使得单细胞测序数据探索变得更加简单,研究者有更多的时间来做生物学意义的挖掘。Cell Ranger包括5个与3’单细胞基因表达解决方案和相关产品的分析流程:

1. cellranger mkfastq

将Illumina测序仪生成的原始基调用(BCL)文件分解为FASTQ文件。它是Illumina的bcl2fastq的包装,具有10x Genomics库特有的附加功能和简化的样本表格式。

2. cellranger count

cellranger count从cellranger mkfastq中获取FASTQ文件,并执行对齐、过滤、条形码计数和UMI计数。它使用Chromium细胞条形码生成特征条形码矩阵,确定簇,并执行基因表达分析。计数管道可以从同一口GEM井的多次排序运行中获取输入。cellranger count还处理特征条形码数据和基因表达读取。

3. cellranger multi

cellranger multi用于分析Cell Multiplexing和Fixed RNA Profiling数据。它从cellranger mkfastq中获取FASTQ文件,并执行对齐、过滤、条形码计数和UMI计数。它使用Chromium细胞条形码生成特征条形码矩阵,确定簇,并执行基因表达分析。cellranger多管道还支持特征条码数据的分析。

4. cellranger aggr

Cellranger aggr聚合了多个Cellranger count或Cellranger multi运行的输出,将这些运行归一化到相同的测序深度,然后重新计算特征条形码矩阵并对组合数据进行分析。aggr管道可用于将来自多个样本的数据组合成一个实验范围内的特征条形码矩阵和分析。

5. cellranger reanalyze

Cellranger再分析采用由Cellranger计数、Cellranger或Cellranger聚合产生的特征条形码矩阵,并使用可调参数设置重新运行降维、聚类和基因表达算法。

工作流程

如果您从原始基本调用(BCL)文件开始,Cell Ranger工作流将从为每个流单元目录解码BCL文件开始。10x基因组公司建议使用生成FASTQs中描述的cellranger mkfastq。如果您从已经通过bcl2fastq直接解复用的FASTQ文件开始,或者从SRA等公共源文件开始,您可以跳过cellranger mkfastq,并从cellranger count开始。请参阅指定输入FASTQ页面(count, multi),以了解在您的场景中使用哪些参数的具体指导方针。工作流程的具体步骤取决于您有多少样本、GEM孔和流式细胞,以及您是否包括来自特征条形码、细胞多路复用或固定RNA分析试剂盒的数据。本节描述了一些可能的工作流程。

一个样品,一个GEM孔,一个流孔

在本例中,一个样品通过一个GEM阱处理,并在一个流单元上测序。在这种情况下,使用cellranger mkfastq生成FASTQs,并按照单样本分析中的描述运行cellranger count。这个例子还演示了两个测序库。一个GEM井可以产生多个物理库:一个基因表达库和一个或多个特征条码库。

一个样品,一个GEM孔,多个流动细胞

在本例中,一个样本通过一个GEM井处理,产生一个跨多个流单元测序的库。这种工作流程通常用于增加排序深度。在这种情况下,可以将所有读取合并到一个cellranger计数实例或多管道中。在指定Input FASTQ页面(count, multi)中描述了这个过程。

一个样品,多个GEM孔,一个流动槽

在这里,一个样品通过多个GEM孔处理。这通常是在进行技术复制实验时进行的。然后将来自GEM井的库汇集到一个流单元并进行测序。在这种情况下,使用cellranger mkfastq对测序运行的数据进行多路分离,然后通过单独的cellranger计数实例从每个GEM井运行库。然后,您可以使用cellranger aggr执行组合分析,如多库聚合中所述。

多个样品,多个GEM孔,一个流动槽

在本例中,多个样本通过多个GEM孔处理,这些GEM孔生成多个库,并被池放在一个流单元上。解复用后,必须对每个GEM井分别运行cellranger计数;如果你有两个GEM井,那么运行cellranger count两次。然后,您可以使用cellranger aggr的单个实例聚合它们,如多库聚合中所述。

多个样品,一个GEM孔,一个流孔(cell Multiplexing)

Cell Ranger 6.0引入了对分析Cell多路数据的支持。在这种情况下,多个样本使用Cell Multiplexing Oligos (CMOs)进行唯一标记,使多个样本可以集中在单个GEM孔中。这就产生了每个GEM孔的CMO和基因表达(GEX)库。运行cellranger mkfastq来生成FASTQ文件之后,在GEX和CMO库的组合FASTQ数据上运行cellranger多管道。

多个样本,一个GEM孔,一个流式细胞(固定RNA分析)

Cell Ranger 7.0引入了对分析固定RNA分析(FRP)基因表达数据的支持。在这种情况下,多个样本被唯一地标记为探针条形码,使样本能够集中在一个GEM孔中,并产生一个基因表达库。运行cellranger mkfastq来生成FASTQ文件之后,在GEX库的FASTQ数据上运行cellranger多管道。

软件安装

我们这里选择最新版Cell Ranger 7.0,每个版本都对应着参考数据以及例子数据,7.0版本的数据下载地址如下:

https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

在这个网页上下载软件以及参考基因组还有就是测试数据。

1. cellranger 7.0 下载

curl -o cellranger-7.0.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.0.0.tar.gz?Expires=1656187885&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci03LjAuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NTYxODc4ODV9fX1dfQ__&Signature=FEFSd-63q1ZuJwFOGD5KlH-OpL7Rzpj9UqBC7lOgRM8v4C1fJ9ndTwv8gz~zXDmJpzNJPIvO7GBazi1rMaV1XEp1yyC0VHZN3H6F1rAWF4fiQVJHzmDJ3Wja1eQmIGJlFm46Z0rQsPeaUAAOM-5dYAkP8VA39x3uXEgRuwKyQ-4nfOLPsSqc3obPuTzUZBMGErvpuDVnO8QhRN5UBNRo~wJGORevD3vn7hyN9ZCLzkxPpCXzq6fMGEWtPpxauN1OaeI1Wgpikpps3e2rosZ2QEl73wCaORZddIwURn2LTJKODkbZh-1ETgpJ2ShqGt1v69tMvlSTgO-9k5Wjd31fUA__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
#或者
wget -O cellranger-7.0.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.0.0.tar.gz?Expires=1656187885&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci03LjAuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NTYxODc4ODV9fX1dfQ__&Signature=FEFSd-63q1ZuJwFOGD5KlH-OpL7Rzpj9UqBC7lOgRM8v4C1fJ9ndTwv8gz~zXDmJpzNJPIvO7GBazi1rMaV1XEp1yyC0VHZN3H6F1rAWF4fiQVJHzmDJ3Wja1eQmIGJlFm46Z0rQsPeaUAAOM-5dYAkP8VA39x3uXEgRuwKyQ-4nfOLPsSqc3obPuTzUZBMGErvpuDVnO8QhRN5UBNRo~wJGORevD3vn7hyN9ZCLzkxPpCXzq6fMGEWtPpxauN1OaeI1Wgpikpps3e2rosZ2QEl73wCaORZddIwURn2LTJKODkbZh-1ETgpJ2ShqGt1v69tMvlSTgO-9k5Wjd31fUA__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"

2. 参考基因组下载

Cell Ranger引用通常是向后兼容的,匹配正确的版本即可。

curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
#或者通过wget下载
wget -c https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
tar -zxvf refdata-gex-GRCh38-2020-A.tar.gz

3. 下载例子数据

下载地址:

https://www.10xgenomics.com/resources/datasets?menu%5Bproducts.name%5D=Single%20Cell%20Gene%20Expression&query=&page=1&configure%5Bfacets%5D%5B0%5D=chemistryVersionAndThroughput&configure%5Bfacets%5D%5B1%5D=pipeline.version&configure%5BhitsPerPage%5D=500

进入页面后发现这里有全部的数据类型,根据自己需要分析的内容选择合适的测试数据。

# 4k PBMCs from a Healthy Donor(4,340 cells)36.38 GB  (Analysis run with --expect-cells=5000)
nohup wget -c 'http://s3-us-west-2.amazonaws.com/10x.files/samples/cell-exp/2.1.0/pbmc4k/pbmc4k_fastqs.tar' &
# 1k PBMCs from a Healthy Donor (996 cells ,v2 chemistry)  5.94 GB     (run with --expect-cells=1000)
wget -c http://cf.10xgenomics.com/samples/cell-exp/3.0.0/pbmc_1k_v2/pbmc_1k_v2_fastqs.tar

4. 单细胞固定RNA分析探针装置

确定这些输入参数并自定义红色代码后,运行cellranger:

cd /home/jdoe/runs
cellranger count --id=sample345 \--transcriptome=/opt/refdata-gex-GRCh38-2020-A \--fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \--sample=mysample \--localcores=8 \--localmem=64

在一系列验证输入参数的检查之后,cellranger count管道阶段将开始运行:

Martian Runtime - v7.0.0Running preflight checks (please wait)...
Checking sample info...
Checking FASTQ folder...
Checking reference...Checking optional arguments...
...

默认情况下,Cell Ranger将使用系统上所有可用的核心来执行管道阶段。你可以用——localcores选项指定不同数量的内核;例如——localcores=16将限制Cell Ranger一次最多使用16个核心。同样,——localmem将限制Cell Ranger使用的内存量(以GB为单位)。该管道将为其输出创建一个以您指定的样例ID命名的新文件夹(例如:/home/jdo /run /sample345)。如果这个文件夹已经存在,Cell Ranger将假设它是一个现有的管道,并试图恢复运行它。

输出文件 一个成功的cellranger count运行应该以类似这样的消息结束

Outputs:
- Run summary HTML:                         /opt/sample345/outs/web_summary.html
- Run summary CSV:                          /opt/sample345/outs/metrics_summary.csv
- BAM:                                      /opt/sample345/outs/possorted_genome_bam.bam
- BAM index:                                /opt/sample345/outs/possorted_genome_bam.bam.bai
- Filtered feature-barcode matrices MEX:    /opt/sample345/outs/filtered_feature_bc_matrix
- Filtered feature-barcode matrices HDF5:   /opt/sample345/outs/filtered_feature_bc_matrix.h5
- Unfiltered feature-barcode matrices MEX:  /opt/sample345/outs/raw_feature_bc_matrix
- Unfiltered feature-barcode matrices HDF5: /opt/sample345/outs/raw_feature_bc_matrix.h5
- Secondary analysis output CSV:            /opt/sample345/outs/analysis
- Per-molecule read information:            /opt/sample345/outs/molecule_info.h5
- CRISPR-specific analysis:                 null
- Loupe Browser file:                       /opt/sample345/outs/cloupe.cloupe
- Feature Reference:                        null
- Target Panel File:                        nullWaiting 6 seconds for UI to do final refresh.
Pipestance completed successfully!yyyy-mm-dd hh:mm:ss Shutting down.
Saving pipestance info to "tiny/tiny.mri.tgz"

当数据是单细胞靶向基因表达分析,需要注意一下我们多输入一个文件,设置 --target-panel 参数。

cd /home/jdoe/runs
cellranger count --id=sample345 \--target-panel=/opt/cellranger-5.0.0/target_panels/immunology_v1.0_GRCh38-2020-A.target_panel.csv \--transcriptome=/opt/refdata-gex-GRCh38-2020-A \--fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \--sample=mysample \--localcores=8 \--localmem=64

当数据是单细胞靶向基因表达和抗体捕获与CRISPR指南捕获分析,需要注意一下我们多输入两个文件,设置 --target-panel 和 --feature-ref 参数。

cellranger count --id=sample345 \--target-panel=/opt/cellranger-5.0.0/target_panels/immunology_v1.0_GRCh38-2020-A.target_panel.csv \--transcriptome=/opt/refdata-gex-GRCh38-2020-A \--libraries=/path/to/library.csv \--feature-ref=/path/to/feature_ref.csv \--localcores=8 \--localmem=64

这些都需要在服务器上使用,资源要求蛮高的,自己一般不具备这样的条件,可以联系桓峰基因。

桓峰基因,铸造成功的您!

有想进生信交流群的老师可以扫最后一个二维码加微信,备注“单位+姓名+目的”,有些想发广告的就免打扰吧,还得费力气把你踢出去!

未来桓峰基因公众号将不间断的推出单细胞系列生信分析教程,

敬请期待!!

有想进生信交流群的老师可以扫最后一个二维码加微信,备注“单位+姓名+目的”,有些想发广告的就免打扰吧,还得费力气把你踢出去!

References:

  1. Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol Syst Biol. 2019;15(6):e8746. Published 2019 Jun 19. doi:10.15252/msb.20188746

SCS【2】单细胞转录组 之 cellranger相关推荐

  1. SCS【13】单细胞转录组之识别细胞对“基因集”的响应 (AUCell)

    点击关注,桓峰基因 桓峰基因公众号推出单细胞系列教程,有需要生信分析的老师可以联系我们!首选看下转录分析教程整理如下: Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Car ...

  2. SCS【12】单细胞转录组之评估不同单细胞亚群的分化潜能 (Cytotrace)

    点击关注,桓峰基因 Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Cardelino Topic 8. 克隆进化之 RobustClone SCS[1]今天开启单细胞之旅, ...

  3. SCS【3】单细胞转录组数据 GEO 下载及读取

    点击关注,桓峰基因 今天来介绍一下GEO单细胞转录组下载数据以及整理,单细胞测序的原理以及数据结果都与bulk测序的方式有一定的差距,所以我们单独说一下. 桓峰基因的教程不但教您怎么使用,还会定期分析 ...

  4. SCS【9】单细胞转录组之构建细胞轨迹 (Monocle 3)

    点击关注,桓峰基因 桓峰基因公众号推出单细胞系列教程,有需要生信分析的老师可以联系我们!首选看下转录分析教程整理如下: Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Car ...

  5. SCS【8】单细胞转录组之筛选标记基因 (Monocle 3)

    点击关注,桓峰基因 Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Cardelino Topic 8. 克隆进化之 RobustClone SCS[1]今天开启单细胞之旅, ...

  6. SCS【6】单细胞转录组之细胞类型自动注释 (SingleR)

    点击关注,桓峰基因 桓峰基因公众号推出单细胞系列教程,有需要生信分析的老师可以联系我们!首选看下转录分析教程整理如下: Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Car ...

  7. SCS【7】单细胞转录组之轨迹分析 (Monocle 3) 聚类、分类和计数细胞

    点击关注,桓峰基因 桓峰基因公众号推出单细胞系列教程,有需要生信分析的老师可以联系我们!首选看下转录分析教程整理如下: Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Car ...

  8. SCS【10】单细胞转录组之差异表达分析 (Monocle 3)

    点击关注,桓峰基因 桓峰基因公众号推出单细胞系列教程,有需要生信分析的老师可以联系我们!首选看下转录分析教程整理如下: Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Car ...

  9. IF: 25+ 单细胞转录组学揭示肝实质和非实质细胞系的早期出现

    , 桓峰基因公众号推出单细胞生信分析教程并配有视频在线教程,目前整理出来的相关教程目录如下: Topic 6. 克隆进化之 Canopy Topic 7. 克隆进化之 Cardelino Topic ...

最新文章

  1. 17 博客后台富文本编辑
  2. PHP简单实现LRU算法原理
  3. 当你死后尸体如何处理?两种新玩法了解一下!
  4. 二分查找详解——弄懂二分思想的重要性!
  5. 中国净水装置行业市场供需与战略研究报告
  6. web api 开发之 filter
  7. Firefox 97.0.2 修复两个已遭利用的0day
  8. Hibernate Annotation 设置字段的默认值
  9. 多种方式判断PC端,IOS端,移动端
  10. jms与ActivityMQ中的简单使用
  11. 网络舆情监测TOOM
  12. 北大光华女的超强面经! 感动之余,真的受益匪浅。
  13. AVL树简单实现及原理
  14. Ubuntu Linux 操作系统-清华大学开源软件镜像站下载
  15. Excel公式与函数——每天学一个
  16. 在苹果Mac上如何恢复已删除的用户?
  17. 模拟器Active Sync同步使用pc网络
  18. 移动端图片预览插件-fly-zomm-img.min.js
  19. unity制作和输出摄像机环绕动画
  20. Android硬编解码接口MediaCodec使用完全解析(一)

热门文章

  1. 005-Sencha Cmd 5升级指南
  2. 开源免费的Mac剪切板管理工具-Maccy
  3. Java核心技术 学习记录1
  4. 做PO难,难于上青天
  5. 大学物理实验长度的测量实验报告_大学物理实验长度测量法实验报告完整版
  6. 好好说话之off-by-one
  7. BigWorld用到的其他库
  8. OpenAI又放大招:连接文本与图像的CLIP,在ImageNet上效果媲美ResNet50
  9. 服务器开发——定时器
  10. 夜间模式 css,网页夜间模式,CSS样式