• pandas对象装配了一个常用数学、统计学方法的集合。其中大部分属于归约或汇总统计的类别,这些方法从DataFrame的行或列中抽取一个Series或一系列值的单个值(如总或平均值)。与NumPy数组中的类似方法相比,它们内建了处理缺失值的功能。考虑一个小型DataFrame:
  • 调用DataFrame的sum方法返回一个包含列上加和的Series:
  • 传入axis='columns’或axis=1,则会将一行上各个列的值相加:
  • 除非整个切片上(在本例中是行或列)都是NA,否则NA值是被自动排除的。可以通过禁用skipna来实现不排除NA值:
  • 下表是归约方法的常用可选参数列表。
  • 一些方法,比如idxmin和idxmax,返回的间接统计信息,比如最小值或最大值的索引值:
  • 除了归约方法外,有的方法是积累型方法:
  • 还有一类方法,既不是归约型方法也不是积累型方法。describe就是其中之一,它一次性产生多个汇总统计:
  • 对于非数值型数据,describe产生另一种汇总统计:
  • 下表是汇总统计及其相关方法的完整列表。

相关性和协方差

  • 一些汇总统计,比如相关性和协方差,是由多个参数计算出来的。考虑某些使用附加pandas-datareader库从Yahoo!Finance上获取的包含股价和交易量的DataFrame。如果你还没有安装它,可以通过conda或pip进行安装:
anaconda search -t conda pandas-datareader #详见https://blog.csdn.net/Quincylk/article/details/100582437
  • 为了获得一些股票行情,我使用pandas-datareader模块下载一些数据:(在jupyter中完成)

  • 现在我计算股价的百分比,还有一些时间序列操作将会在第11章中深入探索:
  • Series的corr方法计算的是两个Series中重叠的、非NA的、按索引对齐的值的相关性。相应的,cov计算的是协方差:
  • 由于MSFT是一个有效的Python属性,我们可以使用更为简洁的语法来获得这些数据:
  • 另一方面,DataFrame的corr和cov方法会分别以DataFrame的形式返回相关性和协方差矩阵:
  • 使用DataFrame的corrwith方法,你可以计算出DataFrame中的行或列与另一个序列或DataFrame的相关性。该方法传入一个Series时,会返回一个含有为每列计算相关性的Series:
  • 传入一个DataFrame时,会计算匹配到列名的相关性数值。在这里,我计算出交易量百分比变化的相关性:
  • 传入axis='columns’会逐行地进行计算。在所有例子中,在计算相关性之前,数据点已经按标签进行了对齐。

唯一值、计数和成员属性

  • 另一类相关的方法可以从一维Series包含的数值中提取信息。为了说明这些方法,请考虑这个例子:
  • 第一个函数是unique,它会给出Series中的唯一值:
  • 唯一值并不一定按照排序好的顺序返回,但是如果需要的话可以进行排序(uniques.sort())。相应的,value_counts计算Series包含的值个数:
  • 为了方便,返回的Series会按照数量降序排序。value_counts也是有效的pandas顶层方法,可以用于任意数组或序列:
  • isin执行向量化的成员属性检查,还可以将数据集以Series或DataFrame一列的形式过滤为数据集的值子集:

  • 与isin相关的Index.get_indexer方法,可以提供一个索引数组,这个索引数组可以将可能非唯一值数组转换为另一个唯一值数组:
  • 某些情况下,你可能想要计算DataFrame多个相关列的直方图,如下面的例子:
  • 将pandas.value_counts 传入DataFrame的apply函数可以得到:
  • 这里,结果中的行标签是所有列中出现的不同值,数值则是这些不同值在每个列中出现的次数。

利用Python进行数据分析笔记(基本功能--描述性统计的概述与计算)相关推荐

  1. 利用python进行数据分析 笔记_利用python进行数据分析--(阅读笔记一)

    原博文 2016-06-17 23:21 − 以此记录阅读和学习<利用Python进行数据分析>这本书中的觉得重要的点! 第一章:准备工作 1.一组新闻文章可以被处理为一张词频表,这张词频 ...

  2. 利用Python进行数据分析笔记-pandas建模(statsmodels篇)

    跟着教程学习了一段时间数据分析,越学感觉坑越多.于是花了一个星期仔细看了下<利用Python进行数据分析>.写在这里主要是记录下,方便自己查看. statsmodels简介 statsmo ...

  3. 利用python进行数据分析 笔记_利用python进行数据分析(O#039;Relly)学习笔记-一团网...

    利用python进行数据分析(O'Relly)学习笔记 1.第一个bug import pandas plot(arrange(10)) #报错name 'plot' is not defined. ...

  4. 利用Python进行数据分析笔记-pandas建模(Patsy篇)

    跟着教程学习了一段时间数据分析,越学感觉坑越多.于是花了一个星期仔细看了下<利用Python进行数据分析>.写在这里主要是记录下,方便自己查看. import numpy as np im ...

  5. python数据分析pandas_利用Python进行数据分析笔记-pandas建模(Patsy篇)

    跟着教程学习了一段时间数据分析,越学感觉坑越多.于是花了一个星期仔细看了下<利用Python进行数据分析>.写在这里主要是记录下,方便自己查看. import numpy as np im ...

  6. 利用Python进行数据分析(学习笔记)

    第壹章 准备工作 1.1 本书内容 1.1.1 什么类型的数据 1.2 为何利用Python进行数据分析 1.2.1 Python作为胶水 1.2.2 解决"双语言"难题 1.2. ...

  7. Pandas基础-利用python进行数据分析

    Pandas入门 git地址:https://github.com/codebysandwich/DataScience/tree/master/pandas pandas是数据分析时主要的工具,经常 ...

  8. 整理总结:利用Python进行数据分析及思维导图

    参考资料:机械工业出版社的<利用Python进行数据分析>(思维导图在最后面) 本篇目录 参考资料:机械工业出版社的<利用Python进行数据分析>(思维导图在最后面) 第一章 ...

  9. 《利用python进行数据分析》读书笔记

    <利用python进行数据分析>是一本利用python的Numpy.Pandas.Matplotlib库进行数据分析的基础介绍,非常适合初学者. 重要的python库 NumPy http ...

最新文章

  1. mysql查询并设置高亮_Thinkphp3.2.3设置MySql主从读写分离后,简单调用主数据库查询
  2. 详解shuffle过程(转载)
  3. WebKit 内核源码分析 (二) FrameLoader
  4. Ocelot-基于.NET Core的开源网关实现
  5. Qt工作笔记-SIGNAL之textChanged
  6. shell脚本基本使用
  7. 20200614每日一句
  8. Java实现贪吃蛇(汪汪队)游戏,自定义游戏背景音乐,背景图片和游戏图标
  9. FPGA智能网卡-HairPin功能
  10. ShuffleNet算法详解
  11. JK触发器波形图分析
  12. IIS PHP MYSQL出现问题_iis php mysql
  13. FPGA功耗那些事儿(转载)
  14. 不改一行代码!快速迁移 Koa 应用上云
  15. 【文献阅读】Federated Accelerated Stochastic Gradient Descent
  16. mac抹掉磁盘重装系统未能与服务器取得联系_macOS降级重装系统教程:手把手教你Mac降级不再难...
  17. JAVA之迷你DVD管理器
  18. 淘宝天猫商家运营推广,淘宝超级推荐是什么
  19. Gitlab-Runner原理与实现
  20. 极光推送小米手机不能查看logcat通知栏无法正确显示应用图标

热门文章

  1. windows 7 系统右小角图标变成空白的处理办法
  2. 第二十四章 项目管理英语
  3. 黑白图像自动上色(Colorization)
  4. JAVA 字符串详解
  5. 【转载】PHP开发框架的现状和展望
  6. Windows平台批处理命令教程
  7. python取整函数 向上取整 向下取整 四舍五入
  8. dropdownlist下拉框变透明_F.js 更新记录
  9. maven php mysql,Hibernate+maven+mysql
  10. 10 MySQL聚合函数数据分组