r语言 整理、处理数据步骤_R语言万能数据清洗整理包Tidyverse(一)
数据整理和清洗是任何统计分析的前提,也是最为困难的一个环节,很多软件也提供了数据整理和清洗的功能。甚至连我们常用的EXCEL也可以做这个工作,但是效率很低,而且容易出错,且无法完整保存清洗过程。R语言作为一种开源语言,在这个方面还是很有优势的。例如R语言中的 Tidyverse是一系列优秀R包的合集,其中最常用的7个package包括ggplot2/tibble/tidyr/readr/purrr/dplyr/stringr/forcat。
每个包的功能如下:
readr:
用于数据读取
tibble:
用于形成强化数据框
tidyr:
用于长宽表格转换,数据整洁,数据清理
dplyr:
用于数据操纵,数据整理
stringr:
用于处理字符串数据
forcats:
用于处理因子数据
ggplot2:用于数据可视化
下面我们使用示例数据进行一些演示:
library(nycflights13)
library(nycflights13)
flights
dim(flights)#查看数据框的维度,可以看出整个数据框有336776个观测,19个变量
这次我们想要选择以下变量进行分析:
year 航班日期-年
month 航班日期-月
day 航班日期-月
dep_delay 起飞延迟时间(分)
arr_delay 到达延迟时间(分)
distance 航行里程(英里)
dest 目的地
targetdfselect(flights,year,month, day,dep_delay,arr_delay,distance,dest)
targetdf#可以看出这样就筛选出来了目标变量
targetdfrename(targetdf,destination=dest)#变量重命名
targetdf filter(targetdf,!is.na(dep_delay),!is.na(arr_delay))#删除缺失值
targetdf#查看去除缺失值后的数据框
> targetdf#按照月份降序> targetdf
> groupby#按照destination分组> groupby#一共104个组
> delay_sum <- summarise(groupby, count = n(),#统计各分组目的地的航班数+ + dist = mean(distance, na.rm = TRUE),+ + delay = mean(arr_delay, na.rm = TRUE))> delay_sum
分别显示了104个分组的,航班数,平均航行距离以及平均延误时间。
> ggplot(data = delay_sum) ++ + geom_point(mapping = aes(x = dist, y = delay)) +#绘制平均航程(dist)和平均延误时间(delay)的散点图+ + geom_smooth(mapping = aes(x = dist, y = delay))
r语言 整理、处理数据步骤_R语言万能数据清洗整理包Tidyverse(一)相关推荐
- r语言 整理、处理数据步骤_R语言之数据处理(一)
在上一篇小文中,提到了关于R语言导入数据的一些方法,之后的重点就转向了数据的处理上.数据处理其实在整个数据分析项目中所占用的时间是比较多的,所以根据处理的目的不同,也有不同的处理方法.在R语言中,我通 ...
- r语言中进行数据可视化_R中的数据可视化
r语言中进行数据可视化 R programming was developed in 1993 for making graphs and producing statistical results. ...
- R 多变量数据预处理_R语言 数据管理与dplyr、tidyr | 第4讲
原创: 拴小林 数据驱动实践 6月11日 原文:R语言数据管理与dplyr.tidyr | 第4讲 往期回顾 R语言 | 第一部分:数据预处理 R语言|第2讲:生成数据 R语言常用的数据输入与输出方法 ...
- c语言字符型数据是,C语言字符型数据.doc
C语言字符型数据 2.5.1字符常量字符常量是指用一对单引号括起来的一个字符.如'a','9','!'.字符常量中的单引号只起定界作用并不表示字符本身.单引号中的字符不能是单引号(')和反斜杠(\), ...
- r语言变量长度不一致怎么办_R语言实现数据离散化方法总结
前言 在做数据挖掘模型的时候,我们有时会需要把连续型变量转型离散变量,这种转换的过程就是数据离散化,分箱就是离散化常用的一种方法. 数据离散化处理属于数据预处理的一个过程,R语言在数据处理上有天然的优 ...
- R 多变量数据预处理_R语言数据可视化之数据分布图(直方图、密度曲线、箱线图、等高线、2D密度图)...
作者:穆晨 来源:https://www.cnblogs.com/muchen/p/5310732.html 阅读目录 数据分布图简介 绘制基本直方图 基于分组的直方图 绘制密度曲线 绘制基本箱线图 ...
- r语言 面板数据回归_R语言——伍德里奇计量经济导论案例实践 第十三章 横截面与面板数据(一)...
哈喽,停更了大概有三周的计量笔记又要重新开始啦!虽然美国的疫情没有停歇的迹象,可是依旧阻挡不了大学开学的热情.从8月3号开始上课到现在,也经历了很多事情,每天都是抱着死猪不怕开水烫的心情,暗地里安慰自 ...
- r语言 面板数据回归_R语言_018回归
回归分析是统计学的核心.它其实是一个广义的概念,指那些用一个或多个预测变量来预测响应变量的方法.通常,回归分析可以用来挑选与响应变量相关的解释变量,可以描述两者的关系,也可以生成一个等式,通过解释变量 ...
- R 多变量数据预处理_R语言常用统计方法包+机器学习包(名称、简介)
上期帮大家盘点了一下R中常用的可视化包,这期将简要盘点一下关于统计分析与机器学习的R包,并通过简要介绍包的特点来帮助读者深入理解可视化包. 本文作者为"食物链顶端"学习群中的小伙伴 ...
最新文章
- 6426C Lab3 部署证书和管理注册
- 计算机视觉不可能凉!
- 【Netty】ByteBuf--Netty的数据容器
- jQuery:收集一些基于jQuery框架开发的控件/jquery插件2
- P4555-[国家集训队]最长双回文串【Manacher】
- 包装类java_Java 包装类
- Nginx实现通过不同的url前缀访问不同的前后端项目
- swagger: fetching resource list: http://localhost:8080/template/v2/api-docs?group=springboot-templat
- 算法总结之 一行代码求两个数的最大公约数
- 华为模拟器ensp代码错误2,41,40问题的解决
- 一文带你看网络协议之因特网中的转发和编址! | 原力计划
- 【Hive】数据导入方法
- C语言经典算法100例-021-猴子吃桃问题
- Smart Panels精彩系列面板_备份和恢复的具体步骤(2种方法)
- html页面实现右下角弹窗提示,JS 实现右下角弹窗
- Python中文文本分句
- STM32F103定时器详解
- fatal remote does not appear to be a git repository
- principal java_CAS 单点登录服务端 如何获取到principal
- 常用的三种线性模型算法--线性回归模型、岭回归模型、套索回归模型