数据描述的第一个维度是数据的集中趋势描述。数据的集中趋势描述是寻找反应事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好反映事物目前所处的位置和发展水平,通过对事物集中趋势指标的多次测量和比较,还能够说明事物的发展和变化趋势。数据的集中趋势描述的形式主要有如下几种:

1.算数平均值

算术平均值是最常用的数据集中趋势指标,可以分为简单算术平均值和加权算术平均值。算术平均值主要用于定距数据,表示数据集合的集中趋势。也能用于定类数据和定序数据,决定算术平均值是否使用的前提条件是,求得的算术平均值是否具有现实意义。

1.1 简单算术平均值

简单算术平均值是最典型,最常用,最具有代表性的集中趋势指标。将数据集合的所有数据值相加的和除以数值个数就得到简单算术平均值。

1.2 加权算术平均值

因为简单算术平均值认为所有的数据都具有同等的重要性,所以每个数据值都具有相同的权重。但有些时候,每个数据值的权重是不一样的,需要用加权算术平均值来表示数据集合的集中趋势。

数学概念:

(1)若n个数  的权分别是  ,那么 叫做这n个数的加权平均值。

(2)此外,加权平均值也可用下图表示,其中  表示权数。理解方法:将原式看作  即可。

1.3 使用算术平均值的注意事项

算术平均值虽然是应用最广泛的集中趋势指标,受样本数据波动的影响最小,具有一定的稳定性,但是也有明显的缺陷。当数据集合中有极大值或极小值存在时,会对算术平均值产生很大的影响,其计算结果会掩盖数据集合的真实特征,这时算术平均值就失去了代表性。

2.几何平均值

有些数据之间的关系不是加减关系,而是乘除关系。此时,应该用几何平均值来表示由这样的数值组成的数据集合的集中趋势。

定义:

几何平均数是n个变量值连乘积的n次方根。

分为简单几何平均数与加权几何平均数。

1、简单几何平均数:

几何平均数示意图

2、加权几何平均数:

特点:

1、几何平均数受极端值的影响较算术平均数小;

2、如果变量值有负值,计算出的几何平均数就会成为负数或虚数;

3、它仅适用于具有等比或近似等比关系的数据;

4、几何平均数的对数是各变量值对数的算术平均数。

3.众数

数据集合中出现次数最多的数值被称为众数。如果在一个数据集合中,只有一个数值出现的次数最多,那么这个数值就是该数据集合的众数;如果有两个或多个数值出现的次数并列最多,那么这两个或多个数值都是该数据集合的众数;如果数据集合中所有数据值出现的次数相同,那么该数据集合没有众数。众数对定类数据,定序数据,定距数据和定比数据都是用,都能表示由它门组成的数据集合的数据集中趋势。

4.中位数

对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

定义:

中位数,又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小,这里用  来表示中位数。(注意:中位数和众数不同,众数指最多的数,众数有时不止一个,而中位数只能有一个。)

有一组数据:

将它按从小到大的顺序排序为:

则当N为奇数时,  ;当N为偶数时,  。

一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。

特点:

1)中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。

2)有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。

3)趋于一组有序数据的中间位置

总结来说,中位数与算术平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点,这个特点使其在数据集合的数据分布有较大偏斜时;能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势

数据统计分析(3):数据的集中趋势描述相关推荐

  1. 基于云服务创建离线数据统计分析服务(一)

    基于云服务创建离线数据统计分析服务 离线数据统计分析 使用数据工厂.数据计算服务产品,可对多源数据(DB,FILE)整合分析,制定周期性的调度任务,提供任务监控及预警.数据统计分析等功能,可对接BI报 ...

  2. 数据分析 python 用途-python数据统计分析

    1. 常用函数库 scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了.这个模块被重写并成为了现在 ...

  3. python数据分析-python数据统计分析

    1. 常用函数库 scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了.这个模块被重写并成为了现在 ...

  4. 数据统计分析(SPSS)【2】

    1.以下哪个是常见的聚类分析方法? A.层次聚类 B.曲线估计聚类 C.回归聚类 D.以上都不对 2.已知一批独立随机样本服从正态分布,要检验这批随机样本的均值是否与某总体分布的均值相同,则需要采用: ...

  5. 数据统计分析的16个基础概念

    来源:EasyShu 本文约11000字,建议阅读20分钟本文介绍了数据统计分析的16个基本概念. 一.描述统计 描述统计是通过图表或数学方法,对数据资料进行整理.分析,并对数据的分布状态.数字特征和 ...

  6. python数据统计分析

    1. 常用函数库   scipy包中的stats模块和statsmodels包是python常用的数据分析工具,scipy.stats以前有一个models子模块,后来被移除了.这个模块被重写并成为了 ...

  7. #统计分析基础-数据统计与图表

    未来几天我会推出几篇关于统计分析的基础性文章,也当做是一次对统计知识的温习呗~ part 1:数据统计 (一)统计学 统计学是在数据分析的基础上,自17世纪中叶产生并逐步发展起来的一门学科.它是研究如 ...

  8. 【CSDN软件工程师能力认证学习精选】python数据统计分析

    CSDN软件工程师能力认证(以下简称C系列认证)是由中国软件开发者网CSDN制定并推出的一个能力认证标准.C系列认证历经近一年的实际线下调研.考察.迭代.测试,并梳理出软件工程师开发过程中所需的各项技 ...

  9. 面试项目2:基于Spark2.x的电商大数据统计分析平台

    基于Spark2.x的电商大数据统计分析平台 0.版本&语言 1.数据介绍 1.1 数据来源 1.2 数据概览 2.用户访问session分析(Spark Sql) 2.1 需求 2.2 实现 ...

最新文章

  1. Gitlab CI更多内容学习(二)
  2. 卧槽,又一个Java面试神器!!!
  3. Ueditor1.4.3上传视频IE下无法播放的问题
  4. Allegro PCB Design GXL (legacy) 由零散的对象构成一个Shape
  5. java 搭建企业应用框架_java培训一般要学多久
  6. 刷爆AI圈!基于Transformer的DALL-E代码刚刚开源了
  7. 【mac apache】了解自带的apache
  8. ribbon基于接口配置超时_Spring Cloud Ribbon配置详解
  9. OpenCasCade——将鼠标点的位置转换为基于OCC三维坐标系中在某一面上的坐标
  10. 微信小程序|Springboot+Node+Vue实现学科竞赛管理系统
  11. 计算机网络>速率、带宽、吞吐量
  12. 51单片机用1602液晶屏实现可调时钟
  13. 输入一个整数n,按要求生成一个n*n的蛇形矩阵
  14. 小米/红米 手机内部存储空间其它文件怎么删除内部存储空间不足
  15. python监控linux运行程序_python linux监控程序
  16. 论文阅读 2021——SUNet: Symmetric Undistortion Network for Rolling Shutter Correction
  17. 图解分布式一致性协议 Paxos 算法【BAT 面试题宝库附详尽答案解析】
  18. On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models笔记
  19. 基于本地存储LVM新建虚机方案
  20. 2018硅谷巨头七大丑闻算总账

热门文章

  1. javase(2020) 老杜专属day05
  2. CentOS7下安装chrome浏览器
  3. Nowcoder《C语言刷题笔记》BC1-BC15
  4. python连接sqlServer,报错:[IM002] [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序
  5. 终于搞清楚开漏输出和推挽输出这个鬼东西
  6. 九州云加入中国联通5G车联网OpenLab开放实验室联合体
  7. css自动换行(css自动换行属性)
  8. 为什么需要ITIL服务目录
  9. div高度固定,内容区不换行,不要滚动条
  10. 2021-2-21:Java File MMAP 中,对 MappedByteBuffer 进行读写,为何最大只能2GB-1B?