python pandas的统计方法

在学习pandas的时候接触到一些不了解的统计算法，查阅相关资料，总结和实例如下


#统计
idx =  "hello the cruel world".split()
val = [100, 200, None, 150]
t = pd.Series(val, index = idx)#求和
print t, "<- t"
print t.sum()  ,"   <- value累加"#求平均值
print t.mean(skipna=True),"   <- value均值"  #skipna跳过NaN值#求分位
print t.quantile(0.90)  ,"   <- value分位"
print t.quantile(0.75)  ,"   <- value分位"#统计数据
print t.describe()#最大值
print t.max()
print t.idxmax()#返回最大值的index#最小值
print t.min()
print t.idxmin()#返回最小值的index#平均绝对离差
print t.mad(), "\<- 平均绝对误差"#协方差
idx =  "hello the cruel world".split()
val = [1000, 201, 333, 104]
x = pd.Series(val, index = idx)
van = [1100, 221, 303, 84]
y = pd.Series(van, index = idx)
print x.cov(y) ," <- 协方差"#两个函数是否正相关,值为【+∞，-∞】#相关系数
print x.corr(y)  ," <- 相关系数"#变化幅度，值在【-1,1】#峰度
print x.kurt(), " <- 峰度"#偏度
print x.skew()," <- 偏度"#累计函数
print x.cumsum(), "\t<- 累积和"
print x.cumprod(), "\t<- 累计积"
print x.cummin(), "\t<- 累计最小值"
print x.cummax(), " <- 累计最大值"

4.协方差

公式简单翻译一下是：如果有X,Y两个变量，每个时刻的“X值与其均值之差”乘以“Y值与其均值之
差”得到一个乘积，再对这每时刻的乘积求和并求出均值（其实是求“期望”，但就不引申太多新
概念了，简单认为就是求均值了）。
协方差可以通俗的理解为两个变量变化的过程中是同向变化还是反方向变化，同向或者反向的程度如何
A变大，B也变大，说明两个变量是同向变化的，这是协方差的值为正
A变小，B变大，说明两个变量变化时方向的，这时协方差为负值，
如果协方差是0，则说明统计上两个变量不相关
从数值来看，协方差的数值越大，两个变量的同向程度越大，反之亦然
如情况二，两个函数变化时同向，但变化幅度不一致，求得的协方差的数值会非常大，此时用协方差不足以描述变量的关系，因此引入相关系数

print x.cov(y) ," <- 协方差"#两个函数是否正相关,值为【+∞，-∞】

5.相关系数

5.1标准差

 标准差是什么呢？就是偏离均值的幅度如果求得的是个负数，平方后，就可以把负号消除了。这样在后面求平均时，每一项数值才不会被正负抵消掉，最后求出平均值后并没有结束，因为刚才为了消除负号，把进行了平方，那最后肯定要把求出的均值开方所以标准差描述了变量在整体变化过程中偏离均值的幅度

df.std()

5.2相关系数

 协方差除以标准差，也就是把协方差中变量变化幅度对协方差的影响剔除掉，这样协方差也就标准化了，它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了。既然相关系数是协方差除以标准差，那么，当X或Y的波动幅度变大的时候，它们的协方差会变大，标准差也会变大，这样相关系数的分子分母都变大，其实变大的趋势会被抵消掉，变小时也亦然。于是，很明显的，相关系数不像协方差一样可以在＋到－间变化，它只能在＋1到－1之间变化总结一下，对于两个变量X、Y，当他们的相关系数为1时，说明两个变量变化时的正向相似度最大，即，你变大一倍，我也变大一倍；你变小一倍，我也变小一倍。也即是完全正相关随着他们相关系数减小，两个变量变化时的相似度也变小，当相关系数为0时，两个变量的变化过程没有任何相似度，也即两个变量无关。当相关系数继续变小，小于0时，两个变量开始出现反向的相似度，随着相关系数继续变小，反向相似度会逐渐变大。当相关系数为－1时，说明两个变量变化的反向相似度最大，即，你变大一倍，我变小一倍；你变小一倍，我变大一倍。也即是完全负相关有了上面的背景，我们再回到最初的变量X、Y的例子中，可以先看一下第一种情况的相关系数：X的标准差为Y的标准差为于是相关系数为说明第一种情况下，X的变化与Y的变化具有很高的相似度，而且已经接近完全正相关了，X、Y几乎就是线性变化的。那第二种情况呢？X的标准差为Y的标准差为于是相关系数为说明第二种情况下，虽然X的变化幅度比第一种情况X的变化幅度小了10000倍，但是丝毫没有改变“X的变化与Y的变化具有很高的相似度”这一结论。同时，由于第一种、第二种情况的相关系数是相等的，因此在这两种情况下，X、Y的变化过程有着同样的相似度。

    #相关系数
print x.corr(y)  ," <- 相关系数"#变化幅度，值在【-1,1】

6.偏度

 偏度（skewness），是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。偏度定义中包括正态分布（偏度=0），右偏分布（也叫正偏分布，其偏度>0），左偏分布（也叫负偏分布，其偏度<0）。Python代码实现方法：pandas的Series 数据结构可以直接调用skew()方法来查看

df.iloc[:,1].skew()

7.峰度

 峰度（peakedness；kurtosis）又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来，峰度反映了峰部的尖度。随机变量的峰度计算方法为：随机变量的四阶中心矩与方差平方的比值。峰度包括正态分布（峰度值=3），厚尾（峰度值>3），瘦尾（峰度值<3）。注意，个别的软件会将峰度值减3，ArcGIS默认正态分布的峰度为3。MS Excel的计算公式与上面略有不同。Python代码实现方法：pandas的Series 数据结构可以直接调用kurt()方法来查看

df.iloc[:,1].kurt()

python pandas的统计方法相关推荐

pandas——描述性统计方法和时间类型
1.pandas描述性统计方法 pandas提供了更加便利的方法来计算均值 ,如 detail['amounts'].mean() pandas还提供了一个方法叫作 describe,能够一次性得出 ...
100天精通Python（数据分析篇）——第62天：pandas常用统计方法大全（含案例）
文章目录一.常用统计方法与案例 1. 求和(sum) 2. 求平均值(mean) 3. 求最小值(min) 4. 求最大值(max) 5. 求中位数(median) 6. 求众数(mode) 7. ...
Python科学计算库 — Pandas数学统计方法
首先导入pandas库 import numpy as np import pandas as pd Pandas 常用的数学统计方法如下表: 方法说明 count 计算非NA值的数量 descri ...
python计算标准差函数_Python pandas，pandas常用统计方法，求和sum，均值mean，最大值max，中位数median，标准差std...
mean()平均值 median()中位数 max()最大值 min()最小值 sum()求和 std()标准差 Series类型独有的方法: argmax()最大值的位置 a ...
python pandas的read_html方法爬取网页表格
要爬取的网页:网址·http://www.cnipa.gov.cn/zfwq/zftjyfx/1144737.htm 长这样的表格爬取以上表格,保存为CSV格式. 代码实现: import pand ...
Python小练习2：pandas.Dataframe使用方法示例demo
pandas.Dataframe使用方法示例demo 本文通过一个实例来介绍pandas.Dataframe的各种常用操作,问题总结并修改自coursera上南京大学的课程:用Python玩转数据. ...
Python+pandas统计每个学生学习慕课总时长
推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷京东购买链接:https://item.jd.c ...
Pandas常用累计、同比、环比等统计方法实践案例
统计表中常常以本年累计.上年同期(累计).当期(例如当月)完成.上月完成为统计数据,并进行同比.环比分析.如下月报统计表所示样例,本文将使用Python Pandas工具进行统计. 其中: (本年)累 ...
python缺失值与异常值处理_pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)...
pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录常用数学统计方法总结读取或保存数据缺省值和异常值处理常用数学统计方法总结 count 计算非NA值的数量 de ...

python pandas的统计方法

python pandas的统计方法相关推荐

最新文章

热门文章