pandas之透视表
说到透视表,我们可能更多的是想到excel的透视表格,实际上作为比excel更加强大的pandas一样也有透视表的操作,功能可能会更加强大,发现一个比较经典的关于透视表的示例(貌似是一篇翻译出来的),可以和大家一起分享一下。
介绍
也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为pivot_table。虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容,经常需要记住它的使用语法。所以,本文将重点解释pandas中的函数pivot_table,并教大家如何使用它来进行数据分析。
如果你对这个概念不熟悉,wikipedia上对它做了详细的解释。顺便说一下,你知道微软为PivotTable(透视表)注册了商标吗?其实以前我也不知道。不用说,下面我将讨论的透视表并不是PivotTable。
作为一个额外的福利,我创建了一个总结pivot_table的简单备忘单。你可以在本文的最后找到它,我希望它能够对你有所帮助。如果它帮到了你,请告诉我。
数据
使用pandas中pivot_table的一个挑战是,你需要确保你理解你的数据,并清楚地知道你想通过透视表解决什么问题。其实,虽然pivot_table看起来只是一个简单的函数,但是它能够快速地对数据进行强大的分析。
在本文中,我将会跟踪一个销售渠道(也称为漏斗)。基本的问题是,一些销售周期很长(可以想一下“企业软件”、“资本设备”等),而管理者想更详细地了解它一整年的情况。
典型的问题包括:
- 本渠道收入是多少?
- 渠道的产品是什么?
- 谁在什么阶段有什么产品?
- 我们年底前结束交易的可能性有多大?
很多公司将会使用CRM工具或者其他销售使用的软件来跟踪此过程。虽然他们可能拥有有效的工具对数据进行分析,但肯定有人需要将数据导出到Excel,并使用一个透视表工具来总结这些数据。
使用Pandas透视表将是一个不错的选择,应为它有以下优点:
- 更快(一旦设置之后)
- 自行说明(通过查看代码,你将知道它做了什么)
- 易于生成报告或电子邮件
- 更灵活,因为你可以定义定制的聚合函数
Read in the data
首先,让我们搭建所需的环境。
如果你想跟随我继续下去,那么可以下载这个Excel文件。
1 2 |
import pandas as pd import numpy as np |
版本提醒
因为Pivot_table API已经随着时间有所改变,所以为了使本文中示例代码能够正常工作,请确保你安装了最近版本的Pandas(>0.15)。本文示例还用到了category数据类型,而它也需要确保是最近版本。
首先,将我们销售渠道的数据读入到数据帧中。
1 2 |
df = pd.read_excel("../in/sales-funnel.xlsx") df.head() |
为方便起见,我们将上表中“Status”列定义为category,并按我们想要的查看方式设置顺序。
其实,并不严格要求这样做,但这样做能够在分析数据的整个过程中,帮助我们保持所想要的顺序。
1 2 |
df["Status"] = df["Status"].astype("category") df["Status"].cat.set_categories(["won","pending","presented","declined"],inplace=True) |
处理数据
既然我们建立数据透视表,我觉得最容易的方法就是一步一个脚印地进行。添加项目和检查每一步来验证你正一步一步得到期望的结果。为了查看什么样的外观最能满足你的需要,就不要害怕处理顺序和变量的繁琐。
最简单的透视表必须有一个数据帧和一个索引。在本例中,我们将使用“Name(名字)”列作为我们的索引。
1 |
pd.pivot_table(df,index=["Name"]) |
此外,你也可以有多个索引。实际上,大多数的pivot_table参数可以通过列表获取多个值。
1 |
pd.pivot_table(df,index=["Name","Rep","Manager"]) |
这样很有趣但并不是特别有用。我们可能想做的是通过将“Manager”和“Rep”设置为索引来查看结果。要实现它其实很简单,只需要改变索引就可以。
1 |
pd.pivot_table(df,index=["Manager","Rep"]) |
可以看到,透视表比较智能,它已经开始通过将“Rep”列和“Manager”列进行对应分组,来实现数据聚合和总结。那么现在,就让我们共同看一下数据透视表可以为我们做些什么吧。
为此,“Account”和“Quantity”列对于我们来说并没什么用。所以,通过利用“values”域显式地定义我们关心的列,就可以实现移除那些不关心的列。
1 |
pd.pivot_table(df,index=["Manager","Rep"],values=["Price"]) |
“Price”列会自动计算数据的平均值,但是我们也可以对该列元素进行计数或求和。要添加这些功能,使用aggfunc和np.sum就很容易实现。
1 |
pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],aggfunc=np.sum) |
aggfunc可以包含很多函数,下面就让我们尝试一种方法,即使用numpy中的函数mean和len来进行计数。
1 |
pd.pivot_table(df,index=["Manager","Rep"],values=["Price"],aggfunc=[np.mean,len]) |
如果我们想通过不同产品来分析销售情况,那么变量“columns”将允许我们定义一个或多个列。
列vs.值
我认为pivot_table中一个令人困惑的地方是“columns(列)”和“values(值)”的使用。记住,变量“columns(列)”是可选的,它提供一种额外的方法来分割你所关心的实际值。然而,聚合函数aggfunc最后是被应用到了变量“values”中你所列举的项目上。
1 2 |
pd.pivot_table(df,index=["Manager","Rep"],values=["Price"], columns=["Product"],aggfunc=[np.sum]) |
然而,非数值(NaN)有点令人分心。如果想移除它们,我们可以使用“fill_value”将其设置为0。
1 2 |
pd.pivot_table(df,index=["Manager","Rep"],values=["Price"], columns=["Product"],aggfunc=[np.sum],fill_value=0) |
其实,我觉得添加“Quantity”列将对我们有所帮助,所以将“Quantity”添加到“values”列表中。
1 2 |
pd.pivot_table(df,index=["Manager","Rep"],values=["Price","Quantity"], columns=["Product"],aggfunc=[np.sum],fill_value=0) |
有趣的是,你可以将几个项目设置为索引来获得不同的可视化表示。下面的代码中,我们将“Product”从“columns”中移除,并添加到“index”变量中。
1 2 |
pd.pivot_table(df,index=["Manager","Rep","Product"], values=["Price","Quantity"],aggfunc=[np.sum],fill_value=0) |
对于这个数据集,这种显示方式看起来更有意义。不过,如果我想查看一些总和数据呢?“margins=True”就可以为我们实现这种功能。
1 2 3 |
pd.pivot_table(df,index=["Manager","Rep","Product"], values=["Price","Quantity"], aggfunc=[np.sum,np.mean],fill_value=0,margins=True) |
下面,让我们以更高的管理者角度来分析此渠道。根据我们前面对category的定义,注意现在“Status”是如何排序的。
1 2 |
pd.pivot_table(df,index=["Manager","Status"],values=["Price"], aggfunc=[np.sum],fill_value=0,margins=True) |
一个很方便的特性是,为了对你选择的不同值执行不同的函数,你可以向aggfunc传递一个字典。不过,这样做有一个副作用,那就是必须将标签做的更加简洁才行。
1 2 |
pd.pivot_table(df,index=["Manager","Status"],columns=["Product"],values=["Quantity","Price"], aggfunc={"Quantity":len,"Price":np.sum},fill_value=0) |
此外,你也可以提供一系列的聚合函数,并将它们应用到“values”中的每个元素上。
1 2 3 |
table = pd.pivot_table(df,index=["Manager","Status"],columns=["Product"],values=["Quantity","Price"], aggfunc={"Quantity":len,"Price":[np.sum,np.mean]},fill_value=0) table |
也许,同一时间将这些东西全都放在一起会有点令人望而生畏,但是一旦你开始处理这些数据,并一步一步地添加新项目,你将能够领略到它是如何工作的。我一般的经验法则是,一旦你使用多个“grouby”,那么你需要评估此时使用透视表是否是一种好的选择。
高级透视表过滤
一旦你生成了需要的数据,那么数据将存在于数据帧中。所以,你可以使用自定义的标准数据帧函数来对其进行过滤。
如果你只想查看一个管理者(例如Debra Henley)的数据,可以这样:
1 |
table.query('Manager == ["Debra Henley"]') |
我们可以查看所有的暂停(pending)和成功(won)的交易,代码如下所示:
1 |
table.query('Status == ["pending","won"]') |
这是pivot_table中一个很强大的特性,所以一旦你得到了你所需要的pivot_table格式的数据,就不要忘了此时你就拥有了pandas的强大威力。
The full notebook is available if you would like to save it as a reference.
如果你想将其保存下来作为参考,那么这里提供完整的笔记(https://pbpython.com/pandas-pivot-table-explained.html)。
备忘单
为了试图总结所有这一切,我已经创建了一个备忘单,我希望它能够帮助你记住如何使用pandas的pivot_table。
图画的很经典,可以对比图,加强记忆,但是更好的是通过大量的实践来练习。
转载:https://www.cnblogs.com/onemorepoint/p/8425300.html
pandas之透视表相关推荐
- pandas pivot_table透视表、crosstab交叉表、aggfunc函数详解及实战
pandas pivot_table透视表.crosstab交叉表详解及实战 pivot_table透视表.crosstab交叉表的本质是一样的,都是通过对表格的透视或者重新排布.人为设置信息的行和列 ...
- Pandas简明教程:八、Pandas数据透视表
透视表(pivot)是由微软发明的一个概念,1993年微软注册了PivotTable这一商标,而他们又在2020年正式撤销了注册. 关于透视表的话题随便搜搜就是一大堆,而有些地方可能都吹得很神了.透视 ...
- pandas 数据透视表
pandas 数据透视表及逆透视 主要参数说明 pd.pivot_table(df,index= [] ,columns= [] ,values = [] , aggfunc={"Quant ...
- 对比Excel,学习pandas数据透视表
Excel中做数据透视表 ① 选中整个数据源: ② 依次点击"插入"-"数据透视表" ③ 选择在Excel中的哪个位置,插入数据透视表 ④ 然后根据实际需求,从 ...
- python数据透视、有的value不能同时输出_python – Pandas数据透视表ValueError:索引包含重复的条目,无法重新整形...
我有一个如下所示的数据帧(前3行): Sample_Name Sample_ID Sample_Type IS Component_Name IS_Name Component_Group_Name ...
- 第2关:Pandas创建透视表和交叉表
任务描述 本关任务:使用Pandas加载tip.csv文件中的数据集,分别用透视表和交叉表统计顾客在每种用餐时间.每个星期下的小费总和情况. 相关知识 透视表 透视表是各种电子表格程序和其他数据分析软 ...
- Pandas中透视表和交叉表
文章目录 一. 什么是透视表? 二.为什么要使用pivot_table? 三.pivot_table api认识 四.如何使用pivot_table? 4.1 读取数据 4.2 使用index参数 4 ...
- pandas数据透视表
pivot_table创建数据透视表 类似excel的数据透视表,可以实现一些groupby完成不了的操作 常用参数使用 # 第一个参数data表示我们要传入的数据,index表示索引,columns ...
- Pandas数据分析15——pandas数据透视表和交叉表
参考书目:<深入浅出Pandas:利用Python进行数据处理与分析> pandas对数据框也可以像excel一样进行数据透视表整合之类的操作.主要是针对分类数据进行操作,还可以计算数值型 ...
- python数据透视表计数去除重复_如何从pandas数据透视表中删除重复值?
因此,我试图将excel的一组指令复制到python中.问题是我对excel和正在发生的事情知之甚少.在 我有一个数据帧:no. name corrected no. corrected name 0 ...
最新文章
- R可视化散点图并绘制回归曲线
- Sketch 57.1 Mac中文版
- 模拟退火求解TSP问题
- 2020 年,为什么非要采用 DevOps 文化不可?
- Vue 3.0暂缓发布,前端同学暂时舒了一口气
- 爬虫—Requests高级用法
- 计算机四级网络工程师考点速查,计算机四级《网络工程师》考点习题
- call和calling的用法_call的用法及短语例句
- 撤销本地的commit
- mmap函数_Linux中的mmap映射 [二]
- python程序流程控制结构_Python程序控制结构 | 分支结构
- python视频转图片
- Scala学习笔记01
- 法拉科机器人接头_【发那科】图解FANUC机器人I/O信号板
- 【ROM制作工具】如何精简ROM?快速精简ROM详细教程!
- csgo显示无法更新服务器,csgo更新无法连接服务器
- C语言中字符型(char)的简单使用
- 一行代码得到全学科的北大核心期刊投稿方式
- 第八届Nuist程序设计大赛 题解
- ICMP协议(3层网络层协议:IP、ARP、ICMP)
热门文章
- html页面js跨域获取json数据,JS跨域获得Json的应用
- php office 在线预览,在线预览pdf和Office文档
- 惠普m128fn中文说明书_惠普M128fn使用教程
- 认识常见的显卡外接口
- oracle数据库报01033,oracle数据库报ORA-01033错误
- 欧拉-拉格朗日方程(Euler -Lagrange equation)
- 移动网站建设应注意哪些问题?
- 继电反馈法自整定_PID控制及整定算法
- hadoop原理示意图
- 并联串联混合的电压和电流_并联电阻的计算公式(附各种并联电阻网络图解)...