Task.1 安装Seurat,准备处理single cell data

安装Seurat时,只能安装3.2.3以下的版本,太高就不兼容!

install.packages('remotes') %安装过可以省略
remotes:: install_version("Seurat", version = "3.2.3")
# 安装不上可以更新R版本或者安装附属包

Task.2 加载Seurat包并导入数据

library(Seurat)
# 这里可以设置你的路径,三个文件(mtx数据、行名和列名)都需要加载
# 所使用的数据暂时不公开了,GEO数据库有很多
Day0_RAW <- ReadMtx( mtx = "matrix.mtx", features = "features.tsv",cells = "barcodes.tsv")

Task.3 创建Seurat格式项目

Seurat_Day0 <- CreateSeuratObject(counts = Day0_RAW,min.cells = 3,min.genes = 200)
# 初步过滤:>=3个细胞中表达的基因(min.cells = 3),>=200个基因的细胞(min.genes = 200)。可任意设置。

创建的项目:33539 features across 22609 samples within 1 assay
Task.4 质控

Seurat_Day0[["percent.mt"]] <- PercentageFeatureSet(Seurat_Day0, pattern = "^MT-")
# 这个命令是计算基因含量,这里MT是线粒体的意思
VlnPlot(Seurat_Day0, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)
# 可视化一下


根据第三个图片,线粒体基因含量占比25%以下的细胞才保留
线粒体是生物大分子,线粒体较多的细胞说明有细胞有可能已经失活,并且噪音也就变的非常多(大佬LR讲解的)
接下来可视化RNA-基因含量,RNA-feature

plot1 <- FeatureScatter(Seurat_Day0, feature1 = "nCount_RNA", feature2 = "percent.mt")
plot2 <- FeatureScatter(Seurat_Day0, feature1 = "nCount_RNA", feature2 = "nFeature_RNA")
plot1 + plot2
# 这个可视化感觉要更好看一些


上面两个可视化是为了根据内容确定筛选的细胞数目和基因数目。下面代码才是最重要的质控代码

#过滤具有超过 8000 或少于 200 个独特特征的细胞,过滤>25%的线粒体(线粒体不清楚为何过滤)
Seurat_Day0_fit <- subset(Seurat_Day0, subset = nFeature_RNA > 200 & nFeature_RNA < 8000 & percent.mt < 25)

质控后的项目:33539 features across 22433 samples within 1 assay (删除了部分低表达的细胞)

Task.5 标准化
对每个细胞的表达量进行归一化(常用“LogNormalize”),将其乘以比例因子(默认为 10,000),并对结果进行对数转换(这个是必须的)

Seurat_Day0_fit_norm <- NormalizeData(Seurat_Day0_fit , normalization.method = "LogNormalize", scale.factor = 10000)
#这些参数都是默认值,可以不写

至此,数据预处理结束,接下来是降维、聚类等分析。

R语言分析单细胞数据Day1——下载Seurat包并进行预处理(一)相关推荐

  1. R语言分析蛋白质组学数据:飞行时间质谱(MALDI-TOF)法、峰值检测、多光谱比较...

    全文链接:http://tecdat.cn/?p=30051 •研究生物体产生的全部蛋白质. • Foci:鉴定.结构测定.生物标志物.通路.表达(点击文末"阅读原文"获取完整代码 ...

  2. 教你用R语言分析招聘数据,求职/转行不求人~(附代码、数据集)

    来源:R语言中文社区 作者:Joffy Zhong 本文共4500字,建议阅读8分钟. 本文针对招聘网站的数据分析岗位的数据进行分析与挖掘实战. 项目背景 在学习数据分析的路上,少不了经常逛知乎,这也 ...

  3. r语言pls分析_零基础学习R语言分析GEO

    关于零基础用R语言分析GEO的视频已更新完,发布在B站,有兴趣的小伙伴可以移驾到B站,我的B站号:I_am_Becky 之前录制过一系列关于零代码分析GEO数据的,但是这样画出来的图太low了,所以学 ...

  4. 【视频】主成分分析PCA降维方法和R语言分析葡萄酒可视化实例|数据分享

    最近我们被客户要求撰写关于主成分分析PCA的研究报告,包括一些图形和统计输出.降维技术之一是主成分分析 (PCA) 算法,该算法将可能相关变量的一组观察值转换为一组线性不相关变量.在本文中,我们将讨论 ...

  5. R语言量化:使用WindR下载Wind数据

    在R语言:使用rvest包抓取新浪财经A股交易数据中我们介绍了如何使用rvest包爬取新浪财经的A股交易数据,但是新浪有一定的反爬虫措施,抓取数据多有不便.最近发现Wind有R语言的量化接口,而且对免 ...

  6. 如何用r语言分析数据

    如果要使用 R 语言分析数据,通常需要以下步骤: 导入数据:可以从多种格式的数据文件(如 CSV,Excel 等)中导入数据,并将其存储为 R 中的数据框(data.frame). 数据清理:检查数据 ...

  7. R语言辅导高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告

    降低维度有两个主要用例:数据探索和机器学习.它对于数据探索很有用,因为维数减少到几个维度(例如2或3维)允许可视化样本.然后可以使用这种可视化来从数据获得见解(例如,检测聚类并识别异常值).对于机器学 ...

  8. 【视频】KMEANS均值聚类和层次聚类:R语言分析生活幸福指数可视化|数据分享...

    原文链接:http://tecdat.cn/?p=24198 聚类是将总体或数据点划分为多个组的任务,以使同一组中的数据点与同一组中的其他数据点更相似,而与其他组中的数据点不相似.它基本上是基于它们之 ...

  9. r语言 读服务器数据,R语言数据实战 | 安装R语言

    原标题:R语言数据实战 | 安装R语言 1.R的获取和安装 获取和安装R很容易(这也是它"亲民"的地方),具体步骤如下: Step 1: 登陆R语言官方网站https://www. ...

最新文章

  1. linux生成md5指定文件名,linux 通过MD5监控指定路径文件的变动
  2. 简单html图片轮播_web前端入门到实战:简单的图片轮播
  3. 使用Java 8 Optional避免空指针异常
  4. STM32 基础系列教程 4 – 基本定时器
  5. 和我一起写矩阵类(一)
  6. 这些世界罕见的地质奇迹,你认识几个!
  7. CListControl的OnMouseMove和OnNcHitTest
  8. python实现带头结点的单链表的就地逆置_6-1 带头结点的单链表就地逆置 (10 分)...
  9. IDEA - Live Template
  10. 在java保存游戏状态_保存游戏状态的最佳方法是什么?
  11. WIN10平板 如何关闭自动更新
  12. xp共享文件win7访问时不能保存密码
  13. hyperledger fabric v2.4 默认区块大小 配置文件位置
  14. MNN量化—ADMM优化算法
  15. python字符画绘制代码_python图片转字符画代码是什么
  16. 图像处理农业应用sci_SCI征稿通知
  17. pytorch_lesson16.1 OpenCV索贝尔算子/拉普拉斯算子调用+pytorch中构建cnn+复现经典模型(LeNet5+AlexNet)
  18. 程序猿生存指南-1 初出茅庐
  19. 我的世界bukkit服务器开发教程第一章——开发环境
  20. 教孩子学习乘法和除法,我算是绞尽脑汁了

热门文章

  1. 带你从根本理解mysql innodb的各种锁
  2. 使用HDL_SLAM构建场景地图
  3. ORBSLAM3论文翻译
  4. 基金投资好简单,从入门到精通 -学习笔记day7
  5. 音乐制作软件中文版-Cubase Elements 8.0.40 macOS
  6. 中国软件业的现状浅析
  7. springboot日志可视化_使用 SpringBoot Admin 监控你的 SpringBoot 程序
  8. Linux安装lrzsz安装使用
  9. 如何编写和实施SOP?
  10. Linux记录-4.1-4.5 服务器介绍;安装CentOS系统