【Python】如何使用Pandas进行数据可视化?
如何使用Pandas进行数据可视化?
- 1. 如何创建简单图?
- 1.1 创建线型图
- 1.2 绘制直方图
- 1.3 绘制条形图
- 1.4 绘制饼图
- 1.5 绘制散点图
- 2. Plot方法有哪些?
- 3. 如何定制图表的样式和颜色?
- 4. 如何同时对多个DataFrame绘图?
- 5. 总结
- 参考资料
数据可视化对于理解数据具有重要的意义。Pandas是最常见的于数据分析的 Python 库,它基于 Matplotlib
扩展了一些常用的可视化图表,可以方便的调用。本文举出一些示例,供大家参考。这里我们使用Google的Colab notebook。
首先,导入依赖库和数据集:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")
我们使用泰坦尼克的示例数据集,包含有乘客的信息,包括他们的船舱等、年龄、票价和生存状态等信息。查看数据:
在本文中,我们介绍使用Pandas进行数据可视化的基础知识,包括创建简单图、自定义图以及使用多个DF进行绘图。
1. 如何创建简单图?
Pandas的plot方法提供了创建基本图(例如线图、条形图和散点图)的简单方法。举个例子:
1.1 创建线型图
线型图用于表示连续间隔或时间段内的数据趋势。要创建线型图,调用plot
方法时需要将kind
参数指定为line
。
# 线型图
df.plot(kind='line', x='age', y='fare')
1.2 绘制直方图
可以在字段后直接使用hist
方法来生成数据的直方图:
# 直方图
df.age.hist(figsize=(7.3,4),grid=False)
1.3 绘制条形图
条形图用于表示分类数据,其中每个条代表一个特定类别。要创建条形图,可以在pandas的DataFrame上使用plot
方法并将kind
参数指定为bar
。
# 条形图
df['class'].value_counts().plot(kind='bar')
1.4 绘制饼图
饼图与条形图类似,但是它主要来查看数据的占比:
# 饼图
df['embark_town'].value_counts().plot(kind='pie', rot=0)
1.5 绘制散点图
散点图用于表示两个连续变量之间的关系。要创建散点图使用plot
方法将kind
参数指定为scatter
。
# 散点图
df.plot(kind='scatter', x='age',y='fare')
2. Plot方法有哪些?
Pandas的可视化主要使用.plot()
方法,它有几个可选参数。其中最重要的是kind
参数,它可以接受11 个不同的字符串值,并根据这些值创建不同的图表:
- “area”面积图
- “bar”垂直条形图
- “barh”水平条形图
- “box”箱线图
- “hexbin” hexbin 图
- “hist”直方图。
- “kde”内核密度估计图表
- “density”是“kde”的别名
- “line”折线图
- “pie”饼图
- “scatter”散点图
如果不指定kind 参数,它的默认值为“line”。也就是折线图。如果不向.plot() 提供任何参数,那么它会创建一个线图,其中索引位于 x 轴上,所有数字列位于 y 轴上。虽然这对于只有几列的数据集来说是一个有用的默认值,但并不适用于大型数据集。
还有一种方法就是:将数据列名作为字符串传递画板函数,是上面给.plot()
的kind
传递参数的一种替代方法,DataFrame 对象有以下几种方法可用于创建上述各种类型的图:
.area()
.bar()
.barh()
.box()
.hexbin()
.hist()
.kde()
.density()
.line()
.pie()
.scatter()
在上面的直方图,我们就是使用的.hist方法。而不是kind=‘hist’。
3. 如何定制图表的样式和颜色?
可以通过使用不同的参数来自定义图表的外观,例如标记的颜色、大小和形状、标签和标题。
# 定制图表样式颜色
df.plot(kind="scatter", x="age", y="fare", color="red", alpha=0.5)
plt.xlabel("Age")
plt.ylabel("Fare")
plt.title("Relationship between Age and Fare")
plt.show()
Pandas绘图的底层是使用Matplotlib,所以这些参数都是与Matplotlib一致的,可以根据需要进行调整。
4. 如何同时对多个DataFrame绘图?
Pandas还没有提供多个DataFrame的方法,所以只能使用Matplotlib,就像下面这样:
# 多个DataFrame绘图
df_survived = df[df["survived"] == 1] # datafrane 1
df_not_survived = df[df["survived"] == 0] # dataframe 2plt.scatter(df_survived["age"], df_survived["fare"], color="green", label="Survived")
plt.scatter(df_not_survived["age"], df_not_survived["fare"], color="red", label="Not Survived")
plt.xlabel("Age")
plt.ylabel("Fare")
plt.title("Relationship between Age and Fare")
plt.legend()
plt.show()
5. 总结
作为最常用的数据分析库,Pandas提供了一种创建图表的简单方法,这种方法可以帮我们快速对数据集进行简单的分析,快速的了解数据集的情况。但是如果需要对数据进行更高级的可视化,可以使用Seaborn
、Plotly
等更高级的库。
参考资料
Pandas可视化手册:https://pandas.pydata.org/docs/user_guide/visualization.html
【Python】如何使用Pandas进行数据可视化?相关推荐
- 使用Python Seaborn和Pandas进行数据可视化
Hey, folks! Today we will be unveiling a very interesting module of Python - Seaborn Module and will ...
- 使用Seaborn和Pandas进行数据可视化
目录 介绍 在Python中比较可视化库 Seaborn可视化类型 创建一个条形图 创建Seaborn折线图 评论 有了我们的数据集之后,我们将快速查看可以使用流行的Python库从数据集轻松创建可视 ...
- python实现的电影票房数据可视化
代码地址如下: http://www.demodashi.com/demo/14275.html ##详细说明: Tushare是一个免费.开源的python财经数据接口包.主要实现对股票等金融数据从 ...
- Python爬虫实战,pyecharts模块,Python实现奥斯卡金像奖数据可视化
前言 利用Python实现奥斯卡金像奖数据可视化.废话不多说. 让我们愉快地开始吧~ 开发工具 Python版本: 3.6.4 相关模块: requests模块 pandas模块 pyecharts模 ...
- Python强大的Pandas库—数据艺术家
Python强大的Pandas库-数据艺术家 日期:2021/4/21 作者:就叫易易好了 pandas是Python中的一个库,是一个强大的分析结构化数据集. pandas中的常见的数据结构有两种: ...
- chatgpt赋能python:Python制表位:优化数据可视化与分析的利器
Python 制表位:优化数据可视化与分析的利器 在数据可视化和分析中,表格是一种常用的数据展示方式.Python 提供了丰富的用于构建表格的库,其中之一便是制表位(Tabulate).本文将介绍制表 ...
- Python爬虫实战,pyecharts模块,Python实现豆瓣电影TOP250数据可视化
前言 利用Python实现豆瓣电影TOP250数据可视化.废话不多说. 让我们愉快地开始吧~ 开发工具 Python版本: 3.6.4 相关模块: pandas模块 pyecharts模块: 以及一些 ...
- Python使用tsne进行高维数据可视化实战:二维可视化、三维可视化
Python使用tsne进行高维数据可视化实战:二维可视化.三维可视化 # 绘制二维可视化图像并添加标签字符函数 def plot_embedding(data, label, title):x_mi ...
- python与excel做数据可视化-Python的Excel操作及数据可视化
Excel表操作 python操作excel主要用到xlrd和xlwt这两个库,即xlrd是读excel,xlwt是写excel的库. 安装xlrd pip install xlrd 简单的表格读取 ...
最新文章
- Struts2中导入外部xml文件出现Included file cannot be found错误!
- linux 通过命令行获取本机外网IP
- 判断一个数是否是素数(质数)
- domino升级-602-651-851
- python中如何定义颜色_Python图像处理之颜色的定义与使用分析
- Oracle 11g安装步骤详谈
- 谈谈 Cookie 存取和IE页面缓存的问题
- SpringBoot启动流程是怎样的
- solidworks无法获得下列许可standard_SolidWorks2020安装无法获得下列许可SOLIDWORKS Standard怎么解决?...
- hadoop的idea连接配置_idea远程连接hadoop(macOS)
- python画布位置_如何调整tkinter画布的位置
- 想成为前端工程师,那么在大学期间应该如何规划?
- 基于libuv的TCP设计(二)
- Sicily 1156. Binary tree 解题报告
- linux(centos)系统安装activemq
- C# 遍历DLL导出函数
- linux软连接j,Linux(ubuntu)安装JLink 驱动
- Kubernetes 调整 nodePort 端口范围
- Dom及JavaScript图片库
- 树莓派书籍全方位推荐