数据整理和清洗是任何统计分析的前提,也是最为困难的一个环节,很多软件也提供了数据整理和清洗的功能。甚至连我们常用的EXCEL也可以做这个工作,但是效率很低,而且容易出错,且无法完整保存清洗过程。R语言作为一种开源语言,在这个方面还是很有优势的。例如R语言中的 Tidyverse是一系列优秀R包的合集,其中最常用的7个package包括ggplot2/tibble/tidyr/readr/purrr/dplyr/stringr/forcat。

每个包的功能如下:

readr:

用于数据读取

tibble:

用于形成强化数据框

tidyr:

用于长宽表格转换,数据整洁,数据清理

dplyr:

用于数据操纵,数据整理

stringr:

用于处理字符串数据

forcats:

用于处理因子数据

ggplot2:用于数据可视化

下面我们使用示例数据进行一些演示:

library(nycflights13)

 library(nycflights13)
flights

dim(flights)#查看数据框的维度,可以看出整个数据框有336776个观测,19个变量

这次我们想要选择以下变量进行分析:

year 航班日期-年

month 航班日期-月

day 航班日期-月

dep_delay 起飞延迟时间(分)

arr_delay 到达延迟时间(分)

distance 航行里程(英里)

dest 目的地

targetdfselect(flights,year,month, day,dep_delay,arr_delay,distance,dest)
targetdf#可以看出这样就筛选出来了目标变量

targetdfrename(targetdf,destination=dest)#变量重命名

targetdf filter(targetdf,!is.na(dep_delay),!is.na(arr_delay))#删除缺失值
targetdf#查看去除缺失值后的数据框

> targetdf#按照月份降序> targetdf

> groupby#按照destination分组> groupby#一共104个组

> delay_sum <- summarise(groupby, count = n(),#统计各分组目的地的航班数+                        +                        dist = mean(distance, na.rm = TRUE),+                        +                        delay = mean(arr_delay, na.rm = TRUE))> delay_sum

分别显示了104个分组的,航班数,平均航行距离以及平均延误时间。

> ggplot(data = delay_sum) ++     +     geom_point(mapping = aes(x = dist, y = delay)) +#绘制平均航程(dist)和平均延误时间(delay)的散点图+     +     geom_smooth(mapping = aes(x = dist, y = delay))

r语言 整理、处理数据步骤_R语言万能数据清洗整理包Tidyverse(一)相关推荐

  1. r语言 整理、处理数据步骤_R语言之数据处理(一)

    在上一篇小文中,提到了关于R语言导入数据的一些方法,之后的重点就转向了数据的处理上.数据处理其实在整个数据分析项目中所占用的时间是比较多的,所以根据处理的目的不同,也有不同的处理方法.在R语言中,我通 ...

  2. r语言中进行数据可视化_R中的数据可视化

    r语言中进行数据可视化 R programming was developed in 1993 for making graphs and producing statistical results. ...

  3. R 多变量数据预处理_R语言 数据管理与dplyr、tidyr | 第4讲

    原创: 拴小林 数据驱动实践 6月11日 原文:R语言数据管理与dplyr.tidyr | 第4讲 往期回顾 R语言 | 第一部分:数据预处理 R语言|第2讲:生成数据 R语言常用的数据输入与输出方法 ...

  4. c语言字符型数据是,C语言字符型数据.doc

    C语言字符型数据 2.5.1字符常量字符常量是指用一对单引号括起来的一个字符.如'a','9','!'.字符常量中的单引号只起定界作用并不表示字符本身.单引号中的字符不能是单引号(')和反斜杠(\), ...

  5. r语言变量长度不一致怎么办_R语言实现数据离散化方法总结

    前言 在做数据挖掘模型的时候,我们有时会需要把连续型变量转型离散变量,这种转换的过程就是数据离散化,分箱就是离散化常用的一种方法. 数据离散化处理属于数据预处理的一个过程,R语言在数据处理上有天然的优 ...

  6. R 多变量数据预处理_R语言数据可视化之数据分布图(直方图、密度曲线、箱线图、等高线、2D密度图)...

    作者:穆晨 来源:https://www.cnblogs.com/muchen/p/5310732.html 阅读目录 数据分布图简介 绘制基本直方图 基于分组的直方图 绘制密度曲线 绘制基本箱线图 ...

  7. r语言 面板数据回归_R语言——伍德里奇计量经济导论案例实践 第十三章 横截面与面板数据(一)...

    哈喽,停更了大概有三周的计量笔记又要重新开始啦!虽然美国的疫情没有停歇的迹象,可是依旧阻挡不了大学开学的热情.从8月3号开始上课到现在,也经历了很多事情,每天都是抱着死猪不怕开水烫的心情,暗地里安慰自 ...

  8. r语言 面板数据回归_R语言_018回归

    回归分析是统计学的核心.它其实是一个广义的概念,指那些用一个或多个预测变量来预测响应变量的方法.通常,回归分析可以用来挑选与响应变量相关的解释变量,可以描述两者的关系,也可以生成一个等式,通过解释变量 ...

  9. R 多变量数据预处理_R语言常用统计方法包+机器学习包(名称、简介)

    上期帮大家盘点了一下R中常用的可视化包,这期将简要盘点一下关于统计分析与机器学习的R包,并通过简要介绍包的特点来帮助读者深入理解可视化包. 本文作者为"食物链顶端"学习群中的小伙伴 ...

最新文章

  1. 6426C Lab3 部署证书和管理注册
  2. 计算机视觉不可能凉!
  3. 【Netty】ByteBuf--Netty的数据容器
  4. jQuery:收集一些基于jQuery框架开发的控件/jquery插件2
  5. P4555-[国家集训队]最长双回文串【Manacher】
  6. 包装类java_Java 包装类
  7. Nginx实现通过不同的url前缀访问不同的前后端项目
  8. swagger: fetching resource list: http://localhost:8080/template/v2/api-docs?group=springboot-templat
  9. 算法总结之 一行代码求两个数的最大公约数
  10. 华为模拟器ensp代码错误2,41,40问题的解决
  11. 一文带你看网络协议之因特网中的转发和编址! | 原力计划
  12. 【Hive】数据导入方法
  13. C语言经典算法100例-021-猴子吃桃问题
  14. Smart Panels精彩系列面板_备份和恢复的具体步骤(2种方法)
  15. html页面实现右下角弹窗提示,JS 实现右下角弹窗
  16. Python中文文本分句
  17. STM32F103定时器详解
  18. fatal remote does not appear to be a git repository
  19. principal java_CAS 单点登录服务端 如何获取到principal
  20. 常用的三种线性模型算法--线性回归模型、岭回归模型、套索回归模型

热门文章

  1. C++程序的多文件组成
  2. 欧拉回路【洛谷习题】无序字母对
  3. C#最小化到托盘+双击托盘恢复+禁止运行多个该程序
  4. python基础(7)-函数命名空间作用域闭包
  5. spring初始化相关
  6. Java 基础知识 练习
  7. 【转】关于Ubuntu的sources.list 的总结
  8. linux中如何查找文件中内容
  9. 每日英语:Relationship Repair: 10 Tips for Thinking Like a Therapist
  10. 多维数组(C# 编程指南)