第三天:用dplyr处理数据框—— 管道符,summarise()和group_by()函数
####一,管道符 %>% 先记住→(快捷键ctrl +shift +M)
###有时候我们需要对数据进行一些列命令,后面的命令需要前面命令的结果。下面的例子中
把数据birthwt里面的变量age利用第二天学习的mutate()函数,添加新变量Age.group,在将Age.group转换成因子并给各个水平添加标签。
##载入MASS包中的数据
##加载包
data(birthwt,package ="MASS")
library(dplyr)A <- birthwt %>% mutate(Age.group = factor(case_when(age < 30 ~ "young",age > 30 ~ "old")) )str(A)###查看数据框中变量的类型'data.frame': 189 obs. of 11 variables:$ low : int 0 0 0 0 0 0 0 0 0 0 ...$ age : int 19 33 20 21 18 21 22 17 29 26 ...$ lwt : int 182 155 105 108 107 124 118 103 123 113 ...$ race : int 2 3 1 1 1 3 1 3 1 1 ...$ smoke : int 0 0 1 1 1 0 0 0 1 1 ...$ ptl : int 0 0 0 0 0 0 0 0 0 0 ...$ ht : int 0 0 0 0 0 0 0 0 0 0 ...$ ui : int 1 0 0 1 1 0 0 0 0 0 ...$ ftv : int 0 3 1 2 0 0 1 1 1 0 ...$ bwt : int 2523 2551 2557 2594 2600 2622 2637 2637 2663 2665 ...$ Age.group: Factor w/ 2 levels "old","young": 2 1 2 2 2 2 2 2 2 2 ...####不用管道符是这样子的B <- mutate(birthwt,Age.group = factor(case_when(age < 30 ~ "young",age > 30 ~ "old")) )
####使用summarise () 计算统计量
####summarise()可以计算数据框某变量的统计量。例如,计算变量Age的总和,均值和标准差
birthwt %>% summarise(mean_age = mean(age),tot_age=sum(age),sd_age = sd(age)
)mean_age tot_age sd_age
1 23.2381 4392 5.298678
####使用group_by () 拆解数据
####函数group_by() 可以将数据按照分类变量拆成对多个数据框,经常与summarise()函数联用
##例如按照race不同分组,求age的平均数,总和和标准差
birthwt %>% group_by(race) %>% summarise(mean_age = mean(age),tot_age=sum(age),sd_age =sd(age))race mean_age tot_age sd_age<int> <dbl> <int> <dbl>
1 1 24.3 2332 5.65
2 2 21.5 560 5.11
3 3 22.4 1500 4.54
第三天:用dplyr处理数据框—— 管道符,summarise()和group_by()函数相关推荐
- spark 数据框 删除列_pandas 常用的数据处理函数
在数据分析过程中,首先就是对数据进行清洗和处理,而使用 python 进行处理的朋友们,对 pandas 包肯定是熟悉不过的了.pandas 的功能很强大,基本的数据处理操作都可以找到对应函数去使用, ...
- 【python 数据框apply】数据框多列计算调用apply函数
自行创建文本文件score.txt,其中存储了如下所示若干学生的姓名.学号和3门考试课的成绩.编程将所有两门以上(含两门)课程不及格的学生信息输出到文件 fail.txt.其他学生信息输出到pass. ...
- R语言数据结构之数据框
数据框是特殊的二维列表.数据框每一列都有一个唯一的列名,长度都是相等的,同一列的数据类型需要一致,不同列的数据类型可以不一样. data.frame(..., row.names = NULL, ch ...
- 读书笔记之 数据框操作与常用函数
如何把列表转化为整齐的矩阵? mylist<-as.list(iris[,1:4]) result<-sapply(mylist,mean) result<-lapply(mylis ...
- R语言中的matrix(矩阵),list(列表),data.frame(数据框)总结
一.R语言中的矩阵matrix是一个二维的数组array,因此数组array的一些操作它也适用. ①它与array相比,特有的是矩阵的一些运算,例如: 求维度:dim(A) 转置:t(A) 求行列式: ...
- R语音--(5)--列表与数据框
列表 构造列表 list 列表是一种特别的对象集合,它的元素也是由序号(下标)区分,但是各元素的类型可以是任意对象,不同元素不必是同一类型. 元素本身允许是其它复杂数据类型,比如,列表的一个元素允许是 ...
- Pandas之数据框运算
Python数据分析博文汇总 Pandas重复值处理函数drop_duplicates() Pandas数据库缺失值处理函数dropna Pandas中slice函数字段抽取 python数据分析-D ...
- R语言实战 前三章 统计 数据框 经典画图
目录 导论 案例1 stat 案例2 packages 第一章 R语言介绍 基本的操作命令 保存图片 第二章 创建数据集 2.1. 合并 2.2. 向量 2.2.1. 赋值 2.2.2. 删除 2.2 ...
- 在R中子集化数据框的5种方法
由于微信不允许外部链接,你需要点击文章尾部左下角的 "阅读原文",才能访问文中链接. 通常,我们在使用大型数据集时,只会对其中的一小部分感兴趣,用以进行特定分析. 那么,我们应该如 ...
最新文章
- 控制器中添加DB类才可以操作数据库表中的数据
- 用select 语句中的START WITH...CONNECT BY PRIOR子句实现递归查询
- 【机器学习】三层神经网络
- Oracle 估算数据库大小的方法
- 面试心得与总结——BAT、网易、蘑菇街
- 7.1.16 jQueray的鼠标事件
- 3.Spring高级话题—3.计划任务
- HTTP1.0、HTTP1.1 、SPDY、HTTP2.0之演变过程和优化
- Android4.4的init进程
- 如何速成java_极*Java速成教程 - (2)
- 多选题spss相关分析_spss多选题的录入及分析
- android带投屏播放器,投屏播放器app下载
- 为什么看不起trap_【全国电子音乐交流中心】为什么年轻人全听Trap去了?
- 网络安全[脚本小子] -- SSI注入
- php 英文替换中文,php如何中英文符号替换?
- Mac启动台缺少已下载应用软件图标
- IIS MIME设置
- linux硬件设备操作函数 open(/dev/ietctl, O_RDWR|...)
- 服务器被入侵如何排查
- 数据库安全性 --- 控制