Excel和Python,作为数据分析的主流工具,在从效率提升到数据商业化的整个过程中,都起到了重要作用。不管是在Excel中通过鼠标点选实现,亦或是利用Python通过代码实现,数据分析中的很多基础功能都是相通的。

在数据量级大跃进的今天,对于从业者来说,熟练掌握用于数据处理的编程语言非常必要,通晓两者可以更增竞争力。而借助大家最为熟悉的Excel操作,对照学习相应的Python实现,可以帮助更快理解,轻松掌握。

都说Excel关键要掌握4个核心函数(vlookup,if,sum,sumif)和1个核心功能(数据透视表),本期我们就聚焦在广受喜欢的数据透视表和VLOOKUP的操作。

数据透视表

使用数据透视表,可以快速汇总数据,进而进行进一步的分析。

例如,对于一张简单的家庭开支列表,可以基于该列表制作数据透视表

1.Excel实现

使用数据透视表,在“插入”——“数据透视表”,选中需要创建数据透视表的数据。

我们可以看到如下界面:上半部分为数据透视表中的所有字段,下半部分为数据透视表的选项,把上方的字段拖入下方对应框中即可完成数据透视表。

这里使用2018年国内上市公司管理层报酬统计数据为例,以“公司行业”为行标签,“公司组织形式”为列标签,对“年度报酬总额(万元)”数据计算平均数,得到如下分类汇总和聚合计算。

2.Python实现

Python中数据透视表的实现原理与Excel类同,使用pandas库中的pivot_table()方法。data:要进行数据透视表操作的DataFrame对象

values:要进行值计算的列,对应Excel操作中“数值”框

index:行索引,对应Excel操作中“行标签”框

columns:列名,对应Excel操作中“列标签”框

aggfunc:设定对values要进行的计算类型

fill_value:对空值的填充值

margins:是否显示合计列

dropna:是否删除缺失值

margins_name:设置合计列的列名

当然,我们可以进行更多灵活操作,如对各类别的“前三名高管报酬总额”求中位数,对“年度报酬总额”求均值,这种对不同的值进行不同类型计算,可以通过aggfunc传入字典(键为列名,值为计算方式)来设定。

VLOOKUP

实际工作中,我们经常会需要用到查找功能,VLOOKUP很多时候是Excel用户学习的第一个查找函数,也是Excel最常使用的三个函数之一,被称为Excel中的效率之王。它应用非常广泛,比如可以将多表匹配、合并,达到对比、查漏等效果,甚至前段时间新诞生的xlookup也借着它的大名火了一把。

例如,在如下信息表中,我们可以查找到与ID号102完全匹配的姓氏,进行返回。

1.Excel实现

VLOOKUP这个名称中,v为vertical竖直的意思,lookup即为查找,它实现的是纵向按列查找,返回该列所需查询序列所对应的值。

函数表示:

即:VLOOKUP(你想要查找的内容, 要查找的范围, 包含要返回的值的区域中的列号, 返回近似或精确匹配)

这里我们继续使用2018年国内上市公司管理层报酬统计数据,需要查找指定的10家上市公司名称、年度报酬总额、前三名董事报酬总额,及前三名高管报酬总额。在Excel中,就可使用VLOOKUP函数实现,如L2的名称数据,是以J2为要进行查找的关键字,查找范围为A2:H3594,返回列数为2(表示查找范围的第2列,即“名称”),匹配模式为FALSE(表示精确匹配)而得到。

2.Python实现

Python中有多种方法可以实现该操作,推荐使用pandas库中的merge()函数,它是全功能、高性能的连接操作,在习惯上非常类似于SQL等关系数据库。left:参与合并的左侧DataFrame

right:参与合并的右侧DataFrame

how:合并方式,为inner,outer,left,right其中之一

on:用于连接的列名,必须存在于左右两侧数据

left_on:左侧DataFrame中用作连接键的列

right_on:右侧DataFrame中用作连接键的列

left_index:将左侧的行索引用作其连接键

right_index:将右侧的行索引用作其连接键

sort:根据连接键对合并后的数据进行排序

通过how进行设置的合并方法,主要取决于merge操作的目的:

若只需要查找到指定的10家上市公司数据,则可采用左连接,以放在左侧的avgs数据为基准;

若主要想对右侧salary数据中的3593家上市公司管理层报酬数据进行分析,仅是将已有的员工人均薪酬数据加入,则可考虑使用右连接;

若想保留同时出现在左右两侧的数据,则可考虑使用内连接,取键的交集;

若想将左右两侧数据都进行保留,则可考虑使用外连接,取键的并集。

除了使用on指定连接键,我们也可将代码设置为index,通过index作为连接键进行匹配

python分析excel数据-对照Excel使用Python进行数据分析,更快掌握相关推荐

  1. python中excel制作成绩报表,Python实现导出数据生成excel报表的方法示例

    本文实例讲述了Python实现导出数据生成excel报表的方法.分享给大家供大家参考,具体如下: #_*_coding:utf-8_*_ import MySQLdb import xlwt from ...

  2. Python读取数据库数据写入Excel

    Python读取数据库数据写入Excel 本文示例: 读取数据库数据 创建Excel文件,并创建指定名称的sheet页 将数据库数据写入创建的sheet页中 保存文件 示例代码: # -*- codi ...

  3. python保存dataframe数据到excel中,处理列宽数据格式等

    python保存dataframe数据到excel中,处理列宽数据格式等 前言 1,比较简单的datafame 生成excel代码 2,采用excelwriter 包进行数据列的改造 3,根据具体数据 ...

  4. 零基础小白如何使用Python分析调查数据

    进行调查和民意调查是收集数据和深入了解诸如客户为何离开我们网站等问题的最佳方法之一.还是为什么选民会吸引这位候选人?但是分析调查数据可能是一个真正的挑战! 在本教程中,我们将逐步介绍如何使用Pytho ...

  5. python大数据分析实例-如何用Python分析大数据(以Twitter数据挖掘为例)

    原标题:如何用Python分析大数据(以Twitter数据挖掘为例) 来源:艾翻译(http://www.itran.cc/) 原文标题:Twitter Data Mining: A Guide to ...

  6. LIGO 用 Python 分析引力波数据

    LIGO 用 Python 分析引力波数据 美国科学家11日宣布,他们去年9月首次探测到引力波.这一发现印证了物理学大师爱因斯坦100年前的预言.宣布这一发现的,是激光干涉引力波天文台(LIGO)的负 ...

  7. 如何去使用Python分析股票数据?学到就是赚到

    对于炒股的同学来说,必须会看懂数据才能避免入坑.今天小千就来教大家如何去使用Python分析股票数据,学到就是赚到.(小千提醒,股市有风险,请谨慎投资) 这次的美股例子就选择了美国显卡制造商英伟达,其 ...

  8. python sci数据_scanpy学习笔记:用Python分析单细胞数据

    Scanpy 是一个基于 Python 分析单细胞数据的软件包,内容包括预处理,可视化,聚类,拟时序分析和差异表达分析等.本文翻译自 scanpy 的官方教程 Preprocessing and cl ...

  9. python 分析大数据

    Python是一种高级编程语言,可用于分析大数据.常用的 Python 库如 Pandas 和 NumPy 可用于数据清洗.数据分析和数据可视化.此外,还有许多其他库,如 Scikit-learn.T ...

最新文章

  1. Datawhale组队学习周报(第012周)
  2. Science Bulletin:崔杰组发表了深浅海软甲纲动物比较病毒组学分析成果
  3. 全球及中国生物仿制药淋巴细胞调节剂行业需求潜力分析及及投资规划研究报告2021-2027年
  4. shell下数字和字符串比较操作命令
  5. blender 3d打印_如何在Blender中开始3D打印
  6. ab st语言编程手册_从零开始学习ST/SCL编程语言:一赋值及条件执行指令的讲解...
  7. HTTP权威协议笔记-6.代理
  8. iOS隐私权限的设置
  9. 关于传奇客户端及补丁文件相关合集
  10. 源码看JAVA【十】Short
  11. 批发记账本软件隐私政策
  12. 深度学习 warmup 策略
  13. linux php启动端口,linux中如何开放指定端口
  14. 安卓修改包名和Project
  15. ORA-02292: 违反完整约束条件 (***.FK_****) - 已找到子记录
  16. 吴恩达对话刘慈欣 预言AI未来20年
  17. IPv4 和 IPv6 报文格式详解
  18. 史诗级巨坑virtualbox使用心得1.0版
  19. IPv4协议中的UDP分片问题
  20. vue-cropper笔记

热门文章

  1. linux函数怎么判断文件已更改,Linux下使用md5sum查看文件及程序是否被修改
  2. 怎么用python爬取整个网站_5分钟学会Python爬取整个网站
  3. eolinker 相关
  4. RecyclerView Adapter 所使用的数据list发生变化需要注意的事情
  5. 搜索引擎——用户搜索意图的理解及其难点解析,本质是利用机器学习用户的意图分类...
  6. go语言笔记——还是大爱的我的python,开发效果高,tornado的性能也很不错
  7. wiretiger引擎支持行、列存储、LSM,mongodb用的哪个?
  8. go swagger
  9. flask gevent uwsgi nginx 联合高并发 部署
  10. JS中Base64的编码与解码