之前的文章和大家一起聊了聊统计学意义上的数据类型,以及每种数据类型适合的可视化图,对这部分感兴趣的同学可以去看看统计基础知识之数据类型(上),今天我们来聊聊不同数据类型适合的描述性统计量以及如何用Python去实现统计量的求解。

3.1 描述性统计

传统的统计量使用场景大致可以分为集中趋势离散趋势两种,对于不同的数据来说,可使用的统计方法也是不同的,结合不同的数据类型和使用场景选择合适的统计量也是很重要的,具体情况如下:

3.1.1 分类数据

集中趋势:频数、众数

对于分类数据来说,例如性别,只有男女,所以是不能计算均值方差的,只能利用频数和众数来观察集中趋势。

频数:变量所包含的每一类出现了多少次,比如性别,有多少个男性,就叫做性别为男的频数

众数:变量所包含的类别中出现次数最多的类,比如职业,假设我们的样本包含的职业共有工人、白领、医生三种,其对应的频数分别为100/200/300,那么我们就可以说职业这个变量的众数是医生

离散趋势:异众比率

异众比率:指的是非众数组的频数占总的频数的比例,还是上面的例子,比如职业,假设我们的样本包含的职业共有工人、白领、医生三种,其对应的频数分别为100/200/300,众数为医生,那么职业的异众比率=(工人+白领)/(工人+白领+医生)=300/600=0.5

异众比率越大,说明分子越大,也就是众数的频数相对来说越小,众数的代表性越差,数据越分散

3.1.2 顺序数据

顺序数据可以看做可排序的分类数据,比如:一等奖、二等奖这种,所以顺序数据也是可以计算频数和众数的,计算方法与上文相同

集中趋势:频数、众数、中位数、四分位数

中位数:就是将数据按照从小到大排序后,处于中间位置的数据

四分位数:四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%的数据,它们分别处于数据25%、50%、75%的位置:
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数据
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数据
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数据

离散趋势:四分位差

四分位差:第三四分位数与第一四分位数的差距(Q3-Q1),又称四分位距。四分位距其实就是箱线图中中间那块箱子的大小,四分位差越大,箱子越长,说明数据越分散

3.1.3 数值型数据

数值型数据是最为常见的数据类型,像是年龄、温度、收入都属于数值型数据

集中趋势:频数、众数、中位数、四分位数、均值

均值:就是我们平时说的平均数或者期望值

离散趋势:极差、方差、标准差

极差:最大值-最小值

3.2 Python实现统计量计算

3.2.1 导入各种包

import pandas as pd
import seaborn as sns
import numpy as np

3.2.2 使用泰坦尼克号数据

一共891个样本,特征有数值型数据、分类数据、顺序数据,用来演示操作真的太合适了O(∩_∩)O哈哈~

data = sns.load_dataset('titanic')  # 导入泰坦尼克号生还数据
data

3.2.3 频数

性别列计算频数后,有male、female两种,对应的频数分别是577和314

pinshu = data['sex'].value_counts()   # 频数

3.2.4 众数

male的频数大于female的频数,所以众数是male

zhongshu = data['sex'].mode()[0]   # 众数

3.2.5 异众比率

分子为非众数组的频数,分母为总样本量

yizhong = (pinshu.sum() - (data['sex'] == zhongshu).sum()) / pinshu.sum()   # 异众比率

3.2.6 中位数

特征pclass表示乘客票的等级数,类似一等座二等座的意思,1—一等座,2—二等座,3—三等座,是顺序变量,我们来用它求一个中位数是3,看来还是像我这种普通老百姓多啊,买不起一等座哈哈哈

np.median(data['pclass'])   # 中位数

3.2.7 四分位数

中位数是把数据排序后处于50%位置对应的数,上文求的中位数为3,上四分位数和下四分位数分别对应25%和75%的数据,分别求出为2和3,也就是说泰坦尼克号上买得起2等座的乘客已经超越了大概75%的人了

# 上四分位数、中位数、下四分位数
perc = np.percentile(data['pclass'], (25, 50, 75), interpolation='midpoint')   

3.2.8 四分位差

四分位差就是下四分位数-上四分位数,也就是3-2=1

perc[2] - perc[0]   # 四分位差

3.2.9 常用统计量

np.average(data['fare'])   # 均值
np.var(data['fare'])   # 方差
np.std(data['fare'])   # 标准差 方差开根号就是标准差
np.max(data['fare'])-np.min(data['fare'])   # 极差 极差就是最大值-最小值

本人才疏学浅,若有理解有误的地方,还请各路大佬批评指正♡♡♡

ok!感恩的心~

统计基础知识—数据类型(下)相关推荐

  1. 数学基础(2)~ 数理统计基础知识

    出处:http://www.cnblogs.com/fanling999/p/6708458.html 参考:盛骤, 谢式千, 潘承毅. 概率论与数理统计, 第四版[M]. 高等教育出版社, 2008 ...

  2. C语言基础知识-数据类型

    C语言基础知识-数据类型 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.常量与变量 1>.关键字 C的关键字共有32个.1>.数据类型关键字(12个)char,sh ...

  3. JDBC及衍生知识(下)

    JDBC及衍生知识(下) 前言 上一篇文章我们学习了JDBC,今天,我们乘胜追击来学习数据库连接池. 数据库连接池 概述 上篇我们使用JDBC的代码中,我们每一次访问都要去获取连接,再释放资源,每一次 ...

  4. 两向量叉乘的计算公式_高中数学知识背景下对向量叉乘运算的探讨(向东来)

    c b a θ 高中数学知识背景下对向量叉乘运算的探 讨 在高中数学的学习中,同学们接触到向量的概念,并了解其性质.线性运算.坐标表 示.数量积以及在实际问题中的应用.在此基础上,可进一步深化,引入向 ...

  5. 用计算机和手算标准差不一致,统计基础知识与统计实务学习指导(2015版).doc

    统计基础知识与统计实务学习指导(2015版) 统计基础知识与统计实务学习指导(2015版) 第一章 绪论 一.单项选择题 1.在实际应用中,统计的涵义是指( ).A.统计理论与统计实践 B.统计设计. ...

  6. 视频教程-2021软考系统集成项目管理工程师视频教程精讲 基础知识(下)-软考

    2021软考系统集成项目管理工程师视频教程精讲 基础知识(下) 河北师范大学软件学院优秀讲师,项目经理资质,担任操作系统原理.软件工程.项目管理等课程教学工作.参与十个以上百万级软件项目管理及系统设计 ...

  7. UA MATH564 概率论VI 数理统计基础3 卡方分布下 Cochran定理

    UA MATH564 概率论VI 数理统计基础3 卡方分布下 Cochran定理 多元正态随机变量二次型的分布 Cochran定理 这一讲介绍多元正态随机变量的二次型的相关性质以及非常常用的Cochr ...

  8. 视频教程-2020年软考信息系统项目管理师考试基础知识(下)新考纲视频培训课程-软考

    2020年软考信息系统项目管理师考试基础知识(下)新考纲视频培训课程 10年以上软考培训经验,线下培训学员过万人.培训过的课程有:网络规划设计师.网络工程师.信 息系统项目管理师.系统集成项目管理师. ...

  9. 统计基础知识之数据类型(上)

    1.概述 传统意义上,数据就是类似销量.平台曝光率或是身高体重性别之类的,但随着大数据时代的到来,大家对于数据的认识越来越深刻,数据也不再是传统意义上的定义,除了常见的数字是数据以外,文字是数据,图片 ...

最新文章

  1. 在西瓜数据集上训练_训练时间和参数量百倍降低,直接使用标签进行预测,性能竟超GNN...
  2. JavaScript入门第一天,js教程,js变量, 数据类型,数据转换,隐式转换
  3. 信息学奥赛一本通(1113:不与最大数相同的数字之和)
  4. RANet:MSDNet加强版!清华黄高团队提出分辨率自适应的高效推理网络RANet!
  5. 初始化_Linux的内存初始化
  6. Caused by: java.lang.IllegalArgumentException: Result Maps collection does not contain value for...
  7. Linux终端的概念
  8. [面试] C/C++ 语法(五) —— extern
  9. 【分享】电子科大第一位以第一作者在CVPR上发文的本科生,这个小哥哥用奋斗诠释优秀!...
  10. 2022年高处安装、维护、拆除理论题库及模拟考试
  11. firefox火狐浏览器显示多列书签菜单
  12. 计算机学院考勤管理办法,计算机学院软件学院考勤制度(试行).doc
  13. css中自适应字体问题等
  14. win2003服务器360修复漏洞打不开网页,win7电脑使用360浏览器打不开网页的有效恢复方法...
  15. NoSQLBooster for MongoDB延长使用时间
  16. Python爬虫-02 request模块爬取妹子图网站
  17. bch verilog代码_基于FPGA的多进制BCH编码
  18. 2021年全球与中国不锈钢反应堆行业市场规模及发展前景分析
  19. C# 2.0 泛型编程
  20. H ICPC Standings

热门文章

  1. Java-异常org.springframework.beans.factory.BeanCreationNotAllowedException
  2. Apace组态设计器-制作风车
  3. 关于处于托管模式时无法删除mcafee agent
  4. Mac Dashboard图标整理,图标按文件夹分类,APP归类,快速搜索
  5. 美妆类目如何开发和维护新老客户
  6. Python moviepy 一个快速视频剪辑编辑神器
  7. lisp画靶子 visual_求助:三点画矩形的LISP - AutoLISP/Visual LISP 编程技术 - CAD论坛 - 明经CAD社区 - Powered by Discuz!...
  8. 2.5操作系统(预防死锁 避免死锁 检测和解除死锁)
  9. redis 主从配置文件
  10. matlab画梅花,学生实习报告【2)(梅彦): 利用MATLAB进行简单曲线的缩放和旋转变换...