Pandas描述性统计简介

描述统计学(descriptive statistics)是一门统计学领域的学科,主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析。

Pandas 库正是对描述统计学知识完美应用的体现,可以说如果没有“描述统计学”作为理论基奠,那么 Pandas 是否存在犹未可知。下列表格对 Pandas 常用的统计学函数做了简单的总结:

从描述统计学角度出发,我们可以对 DataFrame 结构执行聚合计算等其他操作,比如 sum() 求和、mean()求均值等方法。

在 DataFrame 中,使用聚合类方法时需要指定轴(axis)参数。下面介绍两种传参方式:对行操作,默认使用 axis=0 或者使用 "index";对列操作,默认使用 axis=1 或者使用 "columns"。

也可以说,axis=0 表示按垂直方向进行计算,axis=1 表示按水平方向进行计算。

下面对pandas常用的统计学方法进行测试

若无显式的写出axis的取值,默认axis=0,即按垂直方向进行计算

首先创建一个DataFrame

import pandas as pd
import numpy as npdata = {'Name':pd.Series(['小明','小亮','小红','小华',\'老赵','小曹','小陈','老李',\'老王','小冯','小何','老张']),'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])
}df = pd.DataFrame(data)
df

输出:

目录

sum()方法

count()方法

mean()方法

median()方法

mode()方法

std()方法

describe()方法

cumsum()方法


sum()方法

df.sum()

若没有参数,默认axis=0,即对所有列进行求和

输出:

Name      小明小亮小红小华老赵小曹小陈老李老王小冯小何老张
Age                            382
Rating                       44.92
dtype: object

当然也可以选择某一列求和

df.Age.sum()

选择Age列,对Age列的全部属性值求和

输出:

382

当然也可以对行进行求和

df.sum(axis=1)

对各行中数据类型为数值型的数据求和

输出:

0     29.23
1     29.24
2     28.98
3     25.56
4     33.20
5     33.60
6     26.80
7     37.78
8     42.98
9     34.80
10    55.10
11    49.65
dtype: float64

count()方法

df.count()

将输出各个列的非空值数量

输出:

Name      12
Age       12
Rating    12
dtype: int64

mean()方法

df.mean()

将对数据类型为数值型的各个列中的数据求平均值

输出:

Age       31.833333
Rating     3.743333
dtype: float64

当然也可以选择某一列,对这一列的值求均值

df.Age.mean()

输出:

31.833333333333332

median()方法

df.median()

求数据类型为数值型的各个列中的中位数

输出:

Age       29.50
Rating     3.79
dtype: float64

mode()方法

df.Age.mode()

输出Age列中出现次数最多的数值

输出:

0    23
1    25
2    30
dtype: int64

由于数值23、25、30在Age列中均出现了2次,且出现次数是最多的,所以将这三个数输出

结果数据类型为Series

若某一列没有重复的数据,则将会输出全部数据

df.Rating.mode()

输出:

0     2.56
1     2.98
2     3.20
3     3.24
4     3.65
5     3.78
6     3.80
7     3.98
8     4.10
9     4.23
10    4.60
11    4.80
dtype: float64

std()方法

输出数据类型为数值型的各个列的标准差

df.std()

输出:

Age       9.232682
Rating    0.661628
dtype: float64

describe()方法

describe()函数输出平均值、std、和IQR(四分位距)等一系列统计信息

df.describe()

输出:

当然只计算数据类型为数值型的列

cumsum()方法

计算累计和

df.cumsum()

输出:

若将axis的值设置为1或者'columns',将会报错,因为str类型的数据不能与数值型的数据相加

[pandas基础] Python Pandas描述性统计基础内容相关推荐

  1. python pandas astype,Python Pandas DataFrame.astype()用法及代码示例

    Python是进行数据分析的一种出色语言,主要是因为以数据为中心的python软件包具有奇妙的生态系统. Pandas是其中的一种,使导入和分析数据更加容易. DataFrame.astype()方法 ...

  2. 【Pandas】Python Pandas 初学者教程 - AZ 指南

  3. python怎么计算总值_python小白系列Day2—python基础以及pandas基础

    最近恰逢过年期间,聚会太多,还有论文以及笔者年后的实习培训,时隔几天,笔者终于在第一天更文之后,继续写第二篇了. 打算写这个,主要是想记录自己从0到1的过程,欢迎拍砖. part one 思考部分 笔 ...

  4. 第一章 Pandas基础

    第一章 Pandas基础 导入pandas与numpy模块: import pandas as pandas import numpy as np 查看pandas的版本: print(pd.__ve ...

  5. Python Pandas模块教程

    Python Pandas模块 (Python Pandas Module) Pandas is an open source library in Python. It provides ready ...

  6. Python数据分析入门之pandas基础总结

    Pandas--"大熊猫"基础 Series Series: pandas的长枪(数据表中的一列或一行,观测向量,一维数组...) Series1 = pd.Series(np.r ...

  7. 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍 一、pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主

    利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍 一.pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目 ...

  8. Python数据分析实战基础 | 初识Pandas

    这是Python数据分析实战基础的第一篇内容,主要是和Pandas来个简单的邂逅.已经熟练掌握Pandas的同学,可以加快手速滑动浏览或者直接略过本文. 01  重要的前言 这段时间和一些做数据分析的 ...

  9. pandas 把某一列中字符串变数值_Python学习教程:Python数据分析实战基础 | 初识Pandas...

    这段时间和一些做数据分析的同学闲聊,我发现数据分析技能入门阶段存在一个普遍性的问题,很多凭着兴趣入坑的同学,都能够很快熟悉Python基础语法,好像自己什么都会了一点,然而实际操作起来既不知从何操起, ...

最新文章

  1. 查询oracle模式对象信息,ORACLE 模式和模式对象
  2. 一文读懂云计算、边缘计算、移动边缘计算和自动驾驶的前世今生!
  3. 给Arm生态添把火,腾讯Kona JDK Arm架构优化实践
  4. nginx虚拟目录实现两个后台使用
  5. Size Balanced Tree
  6. TensorFlow实战3——TensorFlow实现CNN
  7. 【AD】如何将喜欢的图案导出成为丝印层和PCB形状
  8. plsa的java实现_java在注解中绑定方法参数的解决方案
  9. HTTPS科普扫盲帖【转】
  10. PCL计算点云的法线
  11. (10)数据结构-后缀表达式实现
  12. 7-15 计算圆周率 (C语言)
  13. 2020年acm计算机比赛时间,最新!2020年五大学科竞赛时间安排汇总(建议收藏)...
  14. 这样用 lerna 也太爽了吧!
  15. 福寿园首席员工系列报道:一雕一琢 人生定格
  16. 字体压缩神器font-spider的使用
  17. 一个大神的twitter
  18. Python爬虫教程-16-破解js加密实例(有道在线翻译)
  19. 生物图像处理软件汇总(持续更新)
  20. iOS客户端公共WIFI解决方案

热门文章

  1. 工具-maya2014软件操作细节(持续更新……)
  2. 【Linux】Linux中的环境变量及其意义
  3. Android应用开发实践-茶树害虫识别App
  4. 客服通话文本摘要提取比赛基线
  5. 最新版phpStudy v8.1 的使用
  6. 巴菲特经常向年轻人讲述的一个关于精灵的寓言--《The Snow Ball》
  7. 修改npm镜像地址为国内淘宝镜像
  8. 小程序之私人心情语录-小程序源码分享
  9. 新装学校机房显示器抖动问题
  10. 苹果浏览器滚动会卡顿的问题