R语言分析单细胞数据Day1——下载Seurat包并进行预处理(一)
Task.1 安装Seurat,准备处理single cell data
安装Seurat时,只能安装3.2.3以下的版本,太高就不兼容!
install.packages('remotes') %安装过可以省略
remotes:: install_version("Seurat", version = "3.2.3")
# 安装不上可以更新R版本或者安装附属包
Task.2 加载Seurat包并导入数据
library(Seurat)
# 这里可以设置你的路径,三个文件(mtx数据、行名和列名)都需要加载
# 所使用的数据暂时不公开了,GEO数据库有很多
Day0_RAW <- ReadMtx( mtx = "matrix.mtx", features = "features.tsv",cells = "barcodes.tsv")
Task.3 创建Seurat格式项目
Seurat_Day0 <- CreateSeuratObject(counts = Day0_RAW,min.cells = 3,min.genes = 200)
# 初步过滤:>=3个细胞中表达的基因(min.cells = 3),>=200个基因的细胞(min.genes = 200)。可任意设置。
创建的项目:33539 features across 22609 samples within 1 assay
Task.4 质控
Seurat_Day0[["percent.mt"]] <- PercentageFeatureSet(Seurat_Day0, pattern = "^MT-")
# 这个命令是计算基因含量,这里MT是线粒体的意思
VlnPlot(Seurat_Day0, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)
# 可视化一下
根据第三个图片,线粒体基因含量占比25%以下的细胞才保留
线粒体是生物大分子,线粒体较多的细胞说明有细胞有可能已经失活,并且噪音也就变的非常多(大佬LR讲解的)
接下来可视化RNA-基因含量,RNA-feature
plot1 <- FeatureScatter(Seurat_Day0, feature1 = "nCount_RNA", feature2 = "percent.mt")
plot2 <- FeatureScatter(Seurat_Day0, feature1 = "nCount_RNA", feature2 = "nFeature_RNA")
plot1 + plot2
# 这个可视化感觉要更好看一些
上面两个可视化是为了根据内容确定筛选的细胞数目和基因数目。下面代码才是最重要的质控代码
#过滤具有超过 8000 或少于 200 个独特特征的细胞,过滤>25%的线粒体(线粒体不清楚为何过滤)
Seurat_Day0_fit <- subset(Seurat_Day0, subset = nFeature_RNA > 200 & nFeature_RNA < 8000 & percent.mt < 25)
质控后的项目:33539 features across 22433 samples within 1 assay (删除了部分低表达的细胞)
Task.5 标准化
对每个细胞的表达量进行归一化(常用“LogNormalize”),将其乘以比例因子(默认为 10,000),并对结果进行对数转换(这个是必须的)
Seurat_Day0_fit_norm <- NormalizeData(Seurat_Day0_fit , normalization.method = "LogNormalize", scale.factor = 10000)
#这些参数都是默认值,可以不写
至此,数据预处理结束,接下来是降维、聚类等分析。
R语言分析单细胞数据Day1——下载Seurat包并进行预处理(一)相关推荐
- R语言分析蛋白质组学数据:飞行时间质谱(MALDI-TOF)法、峰值检测、多光谱比较...
全文链接:http://tecdat.cn/?p=30051 •研究生物体产生的全部蛋白质. • Foci:鉴定.结构测定.生物标志物.通路.表达(点击文末"阅读原文"获取完整代码 ...
- 教你用R语言分析招聘数据,求职/转行不求人~(附代码、数据集)
来源:R语言中文社区 作者:Joffy Zhong 本文共4500字,建议阅读8分钟. 本文针对招聘网站的数据分析岗位的数据进行分析与挖掘实战. 项目背景 在学习数据分析的路上,少不了经常逛知乎,这也 ...
- r语言pls分析_零基础学习R语言分析GEO
关于零基础用R语言分析GEO的视频已更新完,发布在B站,有兴趣的小伙伴可以移驾到B站,我的B站号:I_am_Becky 之前录制过一系列关于零代码分析GEO数据的,但是这样画出来的图太low了,所以学 ...
- 【视频】主成分分析PCA降维方法和R语言分析葡萄酒可视化实例|数据分享
最近我们被客户要求撰写关于主成分分析PCA的研究报告,包括一些图形和统计输出.降维技术之一是主成分分析 (PCA) 算法,该算法将可能相关变量的一组观察值转换为一组线性不相关变量.在本文中,我们将讨论 ...
- R语言量化:使用WindR下载Wind数据
在R语言:使用rvest包抓取新浪财经A股交易数据中我们介绍了如何使用rvest包爬取新浪财经的A股交易数据,但是新浪有一定的反爬虫措施,抓取数据多有不便.最近发现Wind有R语言的量化接口,而且对免 ...
- 如何用r语言分析数据
如果要使用 R 语言分析数据,通常需要以下步骤: 导入数据:可以从多种格式的数据文件(如 CSV,Excel 等)中导入数据,并将其存储为 R 中的数据框(data.frame). 数据清理:检查数据 ...
- R语言辅导高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告
降低维度有两个主要用例:数据探索和机器学习.它对于数据探索很有用,因为维数减少到几个维度(例如2或3维)允许可视化样本.然后可以使用这种可视化来从数据获得见解(例如,检测聚类并识别异常值).对于机器学 ...
- 【视频】KMEANS均值聚类和层次聚类:R语言分析生活幸福指数可视化|数据分享...
原文链接:http://tecdat.cn/?p=24198 聚类是将总体或数据点划分为多个组的任务,以使同一组中的数据点与同一组中的其他数据点更相似,而与其他组中的数据点不相似.它基本上是基于它们之 ...
- r语言 读服务器数据,R语言数据实战 | 安装R语言
原标题:R语言数据实战 | 安装R语言 1.R的获取和安装 获取和安装R很容易(这也是它"亲民"的地方),具体步骤如下: Step 1: 登陆R语言官方网站https://www. ...
最新文章
- linux生成md5指定文件名,linux 通过MD5监控指定路径文件的变动
- 简单html图片轮播_web前端入门到实战:简单的图片轮播
- 使用Java 8 Optional避免空指针异常
- STM32 基础系列教程 4 – 基本定时器
- 和我一起写矩阵类(一)
- 这些世界罕见的地质奇迹,你认识几个!
- CListControl的OnMouseMove和OnNcHitTest
- python实现带头结点的单链表的就地逆置_6-1 带头结点的单链表就地逆置 (10 分)...
- IDEA - Live Template
- 在java保存游戏状态_保存游戏状态的最佳方法是什么?
- WIN10平板 如何关闭自动更新
- xp共享文件win7访问时不能保存密码
- hyperledger fabric v2.4 默认区块大小 配置文件位置
- MNN量化—ADMM优化算法
- python字符画绘制代码_python图片转字符画代码是什么
- 图像处理农业应用sci_SCI征稿通知
- pytorch_lesson16.1 OpenCV索贝尔算子/拉普拉斯算子调用+pytorch中构建cnn+复现经典模型(LeNet5+AlexNet)
- 程序猿生存指南-1 初出茅庐
- 我的世界bukkit服务器开发教程第一章——开发环境
- 教孩子学习乘法和除法,我算是绞尽脑汁了