数据分析帮助我们识别数据集中的模式,分析不同变量之间的相关性和关联。借助不同的可视化,我们可以确定数据是否试图讲述任何特定的故事。有不同类型的图表和绘图可用于分析和可视化数据。

创建不同类型的图和图表会消耗大量时间,因为我们需要根据列的数据类型确定有用的图形类型,并且我们还需要编写大量代码来创建这些图形。但是,如果我告诉您可以在一行代码中完成所有这些操作呢?

Dataprep 是一个开源 Python 库,有助于自动化探索性数据分析过程。它在创建数据分析报告时很有用,它还具有 3 个用于绘制图形、绘制缺失数字和数据相关性的功能。

在本文中,我们将探讨 Dataprep 提供的一些功能。

让我们开始吧…

安装所需的库

我们将首先使用 pip 安装 Dataprep 库。 下面给出的命令将执行此操作。

pip install -U dataprep

导入所需的库

在这一步中,我们将导入加载数据集和执行 EDA 操作所需的库。

from dataprep.datasets import load_dataset
from dataprep.eda import create_report
from dataprep.eda import plot, plot_correlation, plot_missing

加载数据集

对于本文,我们将使用Dataprep中预定义的著名的收入数据集。

df = load_dataset("adult")

创建EDA报告

现在我们将创建一个EDA报告,其中包含所有的可视化,相关性,缺失的图表等,这有助于分析数据集。

create_report(df).show_browser()

这是报告的首页,在这里你可以看到我们正在使用的数据的概述。同样,让我们看看如何创造不同的章节。

创建图表

在这个步骤中,我们将创建由Dataprep提供的不同的图。

1、Plot

该图表创建了所有数据变量的可视化。

plot(df)

2、plot_correlation

这张图创建了不同类型的相关图,显示了不同数据变量之间的相关性。

plot_correlation(df)

3、plot_missing

这是帮助创建显示缺失数据的表格和图表的最后一个图。

plot_missing(df)

在这里,我们探索了由Dataprep创建的报告,它对EDA非常有帮助,还创建了不同的图来理解数据和分析它的属性。

我们可以将这几个方法使用在不同的数据集上创建EDA报告和图来执行数据分析。

作者:Himanshu Sharma

使用Dataprep进行自动化的探索性数据分析相关推荐

  1. 提高EDA(探索性数据分析)效率的 3 个简单工具

    来源:DeepHub IMBA 本文约1000字,建议阅读5分钟 本文简单的介绍 3 个非常好用的的数据可视化和分析工具. 数据对于当今的每个行业都很重要,几乎每家公司都在收集数据并使用它们来做出数据 ...

  2. 精选10个Python库,几行代码轻松搞定探索性数据分析!

    点击上方"菜鸟学Python",选择"星标"公众号 超级无敌干货,第一时间送达!!! 探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一.在拿到一个 ...

  3. 区区几行代码,就能全面实现 Python 自动探索性数据分析

    探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一.在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息.自动化的EDA Python包可以用几行Python代码执 ...

  4. 泰坦尼克数据集预测分析_探索性数据分析—以泰坦尼克号数据集为例(第1部分)

    泰坦尼克数据集预测分析 Imagine your group of friends have decided to spend the vacations by travelling to an am ...

  5. iris数据集 测试集_IRIS数据集的探索性数据分析

    iris数据集 测试集 Let's explore one of the simplest datasets, The IRIS Dataset which basically is a data a ...

  6. 探索性数据分析(EDA)-不要问如何,不要问什么

    数据科学 , 机器学习 (Data Science, Machine Learning) This is part 1 in a series of articles guiding the read ...

  7. 会玩这18个免费的探索性数据分析工具,你才是数据分析家!

    每个人都有各自的天赋,发现它们并开始相信我们自己只是时间的问题.我们都有局限,但是我们应该止步不前吗?答案是不. 当我开始用R编程的时候,我很纠结.有时候不止一个人曾经这么想过.因为我在这一生中从未编 ...

  8. R语言单因素方差分析(One-Way ANOVA)实战:探索性数据分析(EDA)、单因素方差分析模型结果解读(检查模型假设)、分析不同分组的差异TukeyHSD、单因素方差分析的结果总结

    R语言单因素方差分析(One-Way ANOVA)实战:探索性数据分析(EDA).单因素方差分析模型结果解读(检查模型假设).分析不同分组的差异TukeyHSD.单因素方差分析的结果总结 目录 R语言 ...

  9. Python读取多个excel文件(删除字段、数据格式转换、dataframe多表合并)并写入ElasticSearch实战(自动创建索引、写入ElasticSearch、探索性数据分析)

    Python读取多个excel文件(删除字段.数据格式转换.dataframe多表合并)并写入ElasticSearch实战(自动创建索引.写入ElasticSearch.探索性数据分析) 目录

最新文章

  1. FileZilla Server简介及使用说明
  2. IPv6相比IPv4在那些方面做出了改进?IPv4 to IPv6过渡的三种tunnel技术各自的特性...
  3. VS2015使用小技巧
  4. 你会使用回调函数吗?
  5. Oracle之ROW_NUMBER() OVER函数
  6. Python编辑统一缩进(Pycharm)
  7. 希尔排序(Shell Sort)
  8. 2018年全球电动车销量破200万辆 特斯拉Model 3销量居首
  9. word分页保存_搞定office丨Word快捷技巧第3弹!
  10. c++课后题(2) 数组排序
  11. Git使用笔记[持续更新]
  12. 自建 CA 中心并签发 CA 证书
  13. 删除Word文档空白页的方法,日常必备!
  14. 从现在看未来,在未来看现在
  15. Tcp TimeWait处理流程
  16. 微服务--十个设计要点
  17. 微信小程序中的授权、登录注册token和code
  18. uni-app视频加图片轮播
  19. 如何修改HTML文件的显示图标呢?
  20. 人脸验证:DeepID(转)

热门文章

  1. java 下载文件模板
  2. 图像中米粒个数的识别(2)——如何从左到右依次给米粒计数
  3. python 包含语句_如何检查句子是否包含Python中的某个单词然后执行操作?
  4. 字符集、字符编码编码总结:ANSI、UNICODE、MBCS、ASCII等等
  5. java字符串分割split你用对了吗
  6. SecureCRT录制和添加自动登录脚本
  7. 如何批量注册推特账号
  8. 联想破局:给“双碳”插上智慧翅膀
  9. Windows 的默认共享
  10. 星际无限:协议实验室在Filecoin经济中的参与(二)