统计基础知识—数据类型(下)
之前的文章和大家一起聊了聊统计学意义上的数据类型,以及每种数据类型适合的可视化图,对这部分感兴趣的同学可以去看看统计基础知识之数据类型(上),今天我们来聊聊不同数据类型适合的描述性统计量以及如何用Python去实现统计量的求解。
3.1 描述性统计
传统的统计量使用场景大致可以分为集中趋势和离散趋势两种,对于不同的数据来说,可使用的统计方法也是不同的,结合不同的数据类型和使用场景选择合适的统计量也是很重要的,具体情况如下:
3.1.1 分类数据
集中趋势:频数、众数
对于分类数据来说,例如性别,只有男女,所以是不能计算均值方差的,只能利用频数和众数来观察集中趋势。
频数:变量所包含的每一类出现了多少次,比如性别,有多少个男性,就叫做性别为男的频数
众数:变量所包含的类别中出现次数最多的类,比如职业,假设我们的样本包含的职业共有工人、白领、医生三种,其对应的频数分别为100/200/300,那么我们就可以说职业这个变量的众数是医生
离散趋势:异众比率
异众比率:指的是非众数组的频数占总的频数的比例,还是上面的例子,比如职业,假设我们的样本包含的职业共有工人、白领、医生三种,其对应的频数分别为100/200/300,众数为医生,那么职业的异众比率=(工人+白领)/(工人+白领+医生)=300/600=0.5
异众比率越大,说明分子越大,也就是众数的频数相对来说越小,众数的代表性越差,数据越分散
3.1.2 顺序数据
顺序数据可以看做可排序的分类数据,比如:一等奖、二等奖这种,所以顺序数据也是可以计算频数和众数的,计算方法与上文相同
集中趋势:频数、众数、中位数、四分位数
中位数:就是将数据按照从小到大排序后,处于中间位置的数据
四分位数:四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%的数据,它们分别处于数据25%、50%、75%的位置:
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数据
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数据
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数据
离散趋势:四分位差
四分位差:第三四分位数与第一四分位数的差距(Q3-Q1),又称四分位距。四分位距其实就是箱线图中中间那块箱子的大小,四分位差越大,箱子越长,说明数据越分散
3.1.3 数值型数据
数值型数据是最为常见的数据类型,像是年龄、温度、收入都属于数值型数据
集中趋势:频数、众数、中位数、四分位数、均值
均值:就是我们平时说的平均数或者期望值
离散趋势:极差、方差、标准差
极差:最大值-最小值
3.2 Python实现统计量计算
3.2.1 导入各种包
import pandas as pd
import seaborn as sns
import numpy as np
3.2.2 使用泰坦尼克号数据
一共891个样本,特征有数值型数据、分类数据、顺序数据,用来演示操作真的太合适了O(∩_∩)O哈哈~
data = sns.load_dataset('titanic') # 导入泰坦尼克号生还数据
data
3.2.3 频数
性别列计算频数后,有male、female两种,对应的频数分别是577和314
pinshu = data['sex'].value_counts() # 频数
3.2.4 众数
male的频数大于female的频数,所以众数是male
zhongshu = data['sex'].mode()[0] # 众数
3.2.5 异众比率
分子为非众数组的频数,分母为总样本量
yizhong = (pinshu.sum() - (data['sex'] == zhongshu).sum()) / pinshu.sum() # 异众比率
3.2.6 中位数
特征pclass表示乘客票的等级数,类似一等座二等座的意思,1—一等座,2—二等座,3—三等座,是顺序变量,我们来用它求一个中位数是3,看来还是像我这种普通老百姓多啊,买不起一等座哈哈哈
np.median(data['pclass']) # 中位数
3.2.7 四分位数
中位数是把数据排序后处于50%位置对应的数,上文求的中位数为3,上四分位数和下四分位数分别对应25%和75%的数据,分别求出为2和3,也就是说泰坦尼克号上买得起2等座的乘客已经超越了大概75%的人了
# 上四分位数、中位数、下四分位数
perc = np.percentile(data['pclass'], (25, 50, 75), interpolation='midpoint')
3.2.8 四分位差
四分位差就是下四分位数-上四分位数,也就是3-2=1
perc[2] - perc[0] # 四分位差
3.2.9 常用统计量
np.average(data['fare']) # 均值
np.var(data['fare']) # 方差
np.std(data['fare']) # 标准差 方差开根号就是标准差
np.max(data['fare'])-np.min(data['fare']) # 极差 极差就是最大值-最小值
本人才疏学浅,若有理解有误的地方,还请各路大佬批评指正♡♡♡
ok!感恩的心~
统计基础知识—数据类型(下)相关推荐
- 数学基础(2)~ 数理统计基础知识
出处:http://www.cnblogs.com/fanling999/p/6708458.html 参考:盛骤, 谢式千, 潘承毅. 概率论与数理统计, 第四版[M]. 高等教育出版社, 2008 ...
- C语言基础知识-数据类型
C语言基础知识-数据类型 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.常量与变量 1>.关键字 C的关键字共有32个.1>.数据类型关键字(12个)char,sh ...
- JDBC及衍生知识(下)
JDBC及衍生知识(下) 前言 上一篇文章我们学习了JDBC,今天,我们乘胜追击来学习数据库连接池. 数据库连接池 概述 上篇我们使用JDBC的代码中,我们每一次访问都要去获取连接,再释放资源,每一次 ...
- 两向量叉乘的计算公式_高中数学知识背景下对向量叉乘运算的探讨(向东来)
c b a θ 高中数学知识背景下对向量叉乘运算的探 讨 在高中数学的学习中,同学们接触到向量的概念,并了解其性质.线性运算.坐标表 示.数量积以及在实际问题中的应用.在此基础上,可进一步深化,引入向 ...
- 用计算机和手算标准差不一致,统计基础知识与统计实务学习指导(2015版).doc
统计基础知识与统计实务学习指导(2015版) 统计基础知识与统计实务学习指导(2015版) 第一章 绪论 一.单项选择题 1.在实际应用中,统计的涵义是指( ).A.统计理论与统计实践 B.统计设计. ...
- 视频教程-2021软考系统集成项目管理工程师视频教程精讲 基础知识(下)-软考
2021软考系统集成项目管理工程师视频教程精讲 基础知识(下) 河北师范大学软件学院优秀讲师,项目经理资质,担任操作系统原理.软件工程.项目管理等课程教学工作.参与十个以上百万级软件项目管理及系统设计 ...
- UA MATH564 概率论VI 数理统计基础3 卡方分布下 Cochran定理
UA MATH564 概率论VI 数理统计基础3 卡方分布下 Cochran定理 多元正态随机变量二次型的分布 Cochran定理 这一讲介绍多元正态随机变量的二次型的相关性质以及非常常用的Cochr ...
- 视频教程-2020年软考信息系统项目管理师考试基础知识(下)新考纲视频培训课程-软考
2020年软考信息系统项目管理师考试基础知识(下)新考纲视频培训课程 10年以上软考培训经验,线下培训学员过万人.培训过的课程有:网络规划设计师.网络工程师.信 息系统项目管理师.系统集成项目管理师. ...
- 统计基础知识之数据类型(上)
1.概述 传统意义上,数据就是类似销量.平台曝光率或是身高体重性别之类的,但随着大数据时代的到来,大家对于数据的认识越来越深刻,数据也不再是传统意义上的定义,除了常见的数字是数据以外,文字是数据,图片 ...
最新文章
- 在西瓜数据集上训练_训练时间和参数量百倍降低,直接使用标签进行预测,性能竟超GNN...
- JavaScript入门第一天,js教程,js变量, 数据类型,数据转换,隐式转换
- 信息学奥赛一本通(1113:不与最大数相同的数字之和)
- RANet:MSDNet加强版!清华黄高团队提出分辨率自适应的高效推理网络RANet!
- 初始化_Linux的内存初始化
- Caused by: java.lang.IllegalArgumentException: Result Maps collection does not contain value for...
- Linux终端的概念
- [面试] C/C++ 语法(五) —— extern
- 【分享】电子科大第一位以第一作者在CVPR上发文的本科生,这个小哥哥用奋斗诠释优秀!...
- 2022年高处安装、维护、拆除理论题库及模拟考试
- firefox火狐浏览器显示多列书签菜单
- 计算机学院考勤管理办法,计算机学院软件学院考勤制度(试行).doc
- css中自适应字体问题等
- win2003服务器360修复漏洞打不开网页,win7电脑使用360浏览器打不开网页的有效恢复方法...
- NoSQLBooster for MongoDB延长使用时间
- Python爬虫-02 request模块爬取妹子图网站
- bch verilog代码_基于FPGA的多进制BCH编码
- 2021年全球与中国不锈钢反应堆行业市场规模及发展前景分析
- C# 2.0 泛型编程
- H ICPC Standings
热门文章
- Java-异常org.springframework.beans.factory.BeanCreationNotAllowedException
- Apace组态设计器-制作风车
- 关于处于托管模式时无法删除mcafee agent
- Mac Dashboard图标整理,图标按文件夹分类,APP归类,快速搜索
- 美妆类目如何开发和维护新老客户
- Python moviepy 一个快速视频剪辑编辑神器
- lisp画靶子 visual_求助:三点画矩形的LISP - AutoLISP/Visual LISP 编程技术 - CAD论坛 - 明经CAD社区 - Powered by Discuz!...
- 2.5操作系统(预防死锁 避免死锁 检测和解除死锁)
- redis 主从配置文件
- matlab画梅花,学生实习报告【2)(梅彦): 利用MATLAB进行简单曲线的缩放和旋转变换...