详解集中量数（各类平均数：平均数、几何平均数、调和平均数）

本章节主要讲解一些常见的集中量数计算方法、意义及特点，计算方法，同时会给出R语言计算代码，向大家分享。

使用的教材是：

张厚粲《现代心理与教育统计学》第四版，对应着的是第三章

题主也是一个门外汉，去年下半年才开始接触R语言和统计学，如果内容存在问题（公式错误、表述错误、计算错误等），尽请提出，同时也欢迎大家讨论统计相关话题，谢谢~

0. 集中趋势VS离中趋势

集中趋势(central tendency)与离中趋势是次数分布的两个基本特征。

数据的集中趋势就是指数据分布中大量数据向某方向集中的程度；离中趋势是指数据分布中数据彼此分散的程度。

这两种量数一起共同描述或反映-组数据的全貌及其各种统计特征。

用于描述数据集中程度的统计量，即集中量数(measures ofcentral tendency)有多种，包括算术平均数、中数、众数、加权平均数、几何平均数、调和平均数等。

本章节主要介绍集中量数的性质、意义、计算工具以及应用。

1.1 算数平均数的意义

算术平均数(arithmetic average)，一般简称为平均数(average)或均数均值(mean)，论文中一般用“M”表示。

算术平均数只有在与其他几种平均数，如几何平均数、调和平均数、加权平均数相区别的时候，才把它叫做算术平均数。如果平均数是由X变量计算的，就记为

公式为：

平均数的概念比较好理解，因此就不赘述计算方法了，可以通过R语言的mean函数进行运算：

下面就介绍一下平均数的优缺点：

1.2 算术平均数的优缺点

优点：

1.反应灵敏。观测数据中任何一个数值或大或小的变化，甚至细微的变化，在计算平均数时，都能反映出来。

2.计算严密。计算平均数有确定的公式，不管何人在何种场合，只要是同一组观测数据，计算的平均数都相同。

3.计算简单。计算过程只是应用简单的四则运算。

4.简明易解。平均数概念简单明了，较少数学抽象容易理解

5.适合于进一步用代数方法演算。在求解其他统计特征值，如离均差、方差、标准差的计算时，都要应用平均数。

6.较少受抽样变动的影响。观测样本的大小或个体的变化，对计算平均数影响很小。在来自同一总体逐个样本的集中量数中，平均数的波动通常小于其他量数的波动，因此它总是最可靠、最正确的量数。

缺点：

1.易受极端数据的影响。由于平均数反应灵敏，因此当数据分布呈偏态(与“正态分布”相对，分布曲线左右不对称的数据次数分布)时，受极值(extreme value/score)的影响，平均数就不能恰当地描述分布的真实情况。在心理与教育方面的实验观测中，偶然因素十分复杂，经常会出现极端数目。

出现这类问题时，也可以使用修剪平均数来解决。修剪平均数(trimmed mean)也称截尾平均数，是从一组数据中去除一定百分比(如5%) 的最大值和最小值数据后，再次计算的算术平均值。

当希望在分析中剔除一部分数据计算平均数时，可以使用这种平均数。

在计算平均数时除去极端值，对数据集中趋势的估计效果会更好，特别是数据不属于正态分布(比如说偏态分布) ，这种方法更妥当。

在实际生活中，大家常常会看到各种知识竞赛或评比中，在计算某一选手的平均分时，经常会把多个评委评分中的最高分和最低分去掉，再算平均值，这种做法更科学。

2.若出现模糊不清的数据时，无法计算平均数。因为计算平均数时需要每一个数据都加人计算。在次数分布中只要有一个数据含糊不清，都无法计算平均数。在这种情况下，一般采用中数作为该组数据的代表值，描述其集中趋势。

根据以上对平均数优缺点的分析，可以明确，如果一组数据是比较准确，可靠又同质(总体是由同类数据所组成，使用同一个观测手段，采用相同的观测标准，能反映某一问题的同一方面特质的数据)，而且需要每一个数据都加入计算，同时还要作进一步代数运算时，这时就要用算术平均数表示其集中趋势。如果一组数据中出现两个极端的数目，或有一些数据不清楚，数据不同质时，就不宜使用算术平均数。除此之外，还有一些适用几何平均数或调和平均数的情境，也不宜用算术平均数。

另外，在报告平均数时，要按特别指定的单位来表达。在书写平均数时，习惯上平均数保留的小数位数要比原来的测量数据多一位数字。

1.3 平均数与标准差、方差结合的原则

平均数和标准差是用来描述数据总体特征的一对相互联系的统计指标。

平均数表现反映的是总体数据的集中趋势。

但平均数对于总体数据一般水平的代表性如何，要看各个数值之间差异的大小。

数据差异大，平均数的代表性就小;差异小，平均数的代表性就大;当差异为零时，平均数就具有完全代表性。

各个数值之间差异大小是通过标准差（SD）和方差（δ）来描述的。

标准差和方差反映总体的离中趋势，标准差越大，平均数的代表性就越小;

反之，平均数的代表性就越大。因此二者必须结合起来，才能全面、准确地反映全部数据的总体特征。

比如说如下一组数据（统计的是某套教材的数据，各数据数据数量相同，统计结果以百分制形式呈现）：

数据1

0.0168,0.0118,0.006,0.0179,0.0315,0.0194,0.0076,0.0158,0.0449,0.0409,0.0259,0.0184,0.0258,0.0013,0.0183,0.0133,0.0143,0.0115,0.0328,0.0556

M=0.02149 （2.15% ），σ=0.01341（1.34%）

数据2

0.0153,0.0096,0.0385,0.0076,0.0623,0.0136,0.0083,0.0352,0.0378,0.0014,0.0233,0.059,0.022,0.0088,0.0447,0.0106,0.0933,0.0369,0.0729,0.0498

M=0.03254（3.25%），σ=0.02454（2.45%）

数据3

0.0614,0.0295,0.0043,0.0072,0.059,0.0172,0.0722,0.0495,0.0085,0.0147,0.0482,0.0518,0.0383,0.0239,0.0724,0.0718,0.0524,0.0362,0.0388,0.0143

M=0.03858 （3.86%），σ=0.02222（2.22%）

数据4

0.0286,0.0448,0.0287,0.0236,0.0836,0.0429,0.0614,0.0515,0.0286,0.0485,0.038,0.0739,0.028,0.0291,0.0464,0.0417,0.0584,0.0384,0.0124,0.0157,

M=0.04121（4.12%），σ=0.01785（1.79%）

可以发现数据1的离中趋势（方差）最低，而数据2的最高，数据4的平均值（M）最高，且离中趋势介于数据1与数据2之间。

2、中数与众数

2.1 中数计算方法

中数(median)，又称中点数，中位数，中值，符号为Md或Mdn。中数是在一组经过排列的数据中居于中间位置的数，即在这组数据中，有一半的数据比它大，有一半的数据比它小。这个数可能是数据中的某一个，也可能根本不是原有的数。如果将数据依大小顺序排列，中数恰好位于中间，它将数据的数目分成较大的一半和较小的一半。

中数能描述一组数据的典型情况，心理与教育研究工作中经常应用它。

计算方法主要分为有重复值和无重复值两种情况：

（1）重复值

a)数据个数为奇数N个，中数为N/2+1位置所在的数

b)数据个数为偶数个，中数为N/2和N/2+1位置所在的数据之和/2

（2）一组数据中有重复值

a) 存在重复值，但是不在数列中间，与上述求法相同

b) 重复值在数列中间，数据为奇数

例：1，2，3，3，3，3，5，7，8，9，9

根据奇数（N+1）/2可知位置为6。

发现6号位是3，而一共有四个3。

我们将其理解为四个3占据了一个分数单位的全距，即四个3在2.5~3.5之间均匀分布。

所以将这一全距分为四份，即每份0.25。

6号位的3是第四个，所以是2.5+0.25X4=3.5

c) 重复值在数列中间，数据为偶数

例：1，2，3，3，3，3，5，7，8，9

在(b)中的数据上删去一个9，N/2=5。

因此第五个数是上限，第六个是下限，而数列第五个数在重复值中位列第三

即2.5+0.25X3=3.25

2.2 中数优缺点

优点：

中数计算简单，容易理解，概念简单明白。

缺点：

中数的计算不是每个数据都纳入计算，其大小不受制于全体数据;

反应不够灵敏，极端值的变化对中数不产生影响;

中数受抽样影响较大，不如平均数稳定;

计算时需要对数据先排列大小;

中数不能作进一步代数运算

等等……

因此，在一般情况下，中数不被普遍应用。

但在一些特殊情况下，它的应用受到重视。

当一组观测结果中出现两个极端数目时。这种情况在心理与教育科研实验中常常出现，因为心理与教育实验中的偶然因素非常复杂，有时实验中为了平衡各种误差，经常是同一种观测要在同一个被试身上反复进行多次，而只取一个代表值作为对该被试的观测结果。这时若出现两极端的数目，又不能确定这些极端数目是否由错误观测造成，因而不能随意舍去，在这种情况下，只能用中数作为该被试的代表值，这样做，并不影响进一步的统计分析。因为求中数不受极大值与极小值的影响，而决定中数的关键是居中的那几个数据的数值大小。

当次数分布的两端数据或个别数据不清楚时，只能取中数作为集中趋势的代表值。在心理与教育实验中，经常会出现个别被试不能坚持继续进行实验这一现象，有时只知个别被试的观测结果是在分布的哪一端，但具体数值不清楚，这种情况下就只能取中数，而不能计算平均数。

当需要快速估计一组数据的代表值时，也常用中数。

2.3 众数

众数(mode)，又称为范数，密集数、通常数等，常用符号Mo。表示众数是指在次数分布中出现次数最多的那个数的数值。它也是一种集中量数，也可用来代表一组数据的集中趋势。

众数可以通过直接观察法和公式进行求解：

直接观察法：

数据整理成次数分布表后，观察次数最多的那个分组区间的组中值为众数。

R语言可以使用median函数进行求解：

2.4 众数的优缺点

优点：

众数的概念简单明了，容易理解。

计算时不需每一个数据都加人，因而较少受极端数目的影响，但反应不够灵敏。

缺点：

不稳定，受分组影响，亦受样本变动影响。

用观察法得到的众数，不是经过严格计算而来，用公式计算所得众数亦只是一个估计值。

众数不能作进一步代数运算。

由此可见，众数不是一个优良的集中量数，应用也不广泛。

3、平均数、中数与众数三者之间的关系

在一个正态分布中，平均数、中数、众数三者相等，因此在数轴上三个集中量完全重合，在描述这种次数分布时，只需报告平均数即行。

在正偏态分布中M>Md>Mo，在负偏态分布中M<Md<Mo。

在偏态分布中，平均数永远位于尾端。

中数位于把分布下的面积分成两等份的点值上。它在一边的数据个数等于在它另一边的数据个数。

描述偏态分布时，应报告平均数与中数。

3.1 三者关系图示

原书66页：

3.2 偏态计算

这里引用一下一个统计学术语网站上的图文示例：http://www.pinzhi.org/Minitab/Statistical_Glossary/cn.html

正或向右偏斜分布

对正偏斜或向右偏斜的数据这样命名是因为分布的“尾部”指向右侧，且因为其偏度值将大于 0（即为正）。

负或向左偏斜分布

此处是向左偏斜或负偏斜数据的示例（分布的尾部指向左侧，且产生负偏度值）。

偏态计算方法：

其中，X为各项值，μ为算术平均数，σ为标准差

R语言计算方法：

可以看出，这组数据（-0.47）为负偏态的中等偏态分布。

*小科普：

偏度描述的是某总体取值分布的对称性。偏度为0表示其数据分布形态与正态分布的偏斜程度相同；偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏，即有一条长尾巴拖在右边，数据右端有较多的极端值；偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏，即有一条长尾拖在左边，数据左端有较多的极端值，绝对值数值越大表示其分布形态的偏斜程度越大。

偏度的取值范围为##(-∞,+∞)偏度系数大于1或者小于-1，被称为高度偏态分布，偏度系数在0.5~1或-0.5~-1范围内，被称为中等偏态分布。

4、加权平均数

有些测量中所得数据，其单位权重(weight)并不相等。这时若要计算平均数，就不能用算术平均数，而应该使用加权平均数(weighted mean)

4.1 计算公式

计算公式如下:

公式中 Wi为权数。所谓权数，是指各变量在构成总体中的相对重要性。

每个变量的权数大小，由观测者依据一定的理论或实践经验而定。

在教育心理研究中，时常会遇到对测量数据进行加权的情况。

4.2 加权平均数的应用

例如，在考试时教师共出 10 道考题。由于各题的大小不同，难易程度不同，在总分为100的条件下，绝不能每题都以 10分来计分，而是有的题5分，有的题 10分、20 分，甚至 30 分。

加权的道理不难理解，但有时却容易被人忽略。例如，用每个学生得分多少比较各人的差异。这里就产生了一个问题:这些分数是等距的吗?譬如有一个学生对很多题目做不出，但对于某此题目却能用多种方法做出，远远地超过他人，从得分总数看，虽然可能仍低于他人，但你能据此说他思维能力不如别人吗?显然不能。这里的问题就在于每使用一种解题方法，不应该得相同的分数，而是应该考虑加权。

加权的多少需要根据经验和理论进行分析。

5、几何平均数

几何平均数(geometric mean)，记作

（或用GM）。

5.1 计算公式

计算的基本公式如下:

N为数据个数，

为数据值。

R语言计算代码为：

5.2 几何平均数的应用

一组实验数据中有少数数据偏大或偏小，数据的分布呈偏态。

这时若计算算术平均数也会出现偏大或偏小，平均数就不能很好地反映一组数据的典型情况。

而用几何平均数表示集中趋势，就比算术平均数优越。

在心理与教育实验中，有部分数据变异较大的情况经常出现这种场合除应用中数或众数外，时常应用几何平均数。而在心理物理学的等距与等比量表实验中，只能用几何平均数。

6、调和平均数

调和平均数(harmonic mean)，用符号MH表示。因在计算中先将各个数据取倒数平均，然后再取倒数，故又称倒数平均数。计算公式是:

N为数据个数,Xi为变量值。

6.1 计算公式

R语言代码为：

6.2 调和平均数的应用

在心理与教育研究方面的应用，主要是用来描述学习速度方面的问题调和平均数作为一种集中量数，在描述速度方面的集中趋势时，优于其他集中量数。

在有关研究学习速度的实验设计中，反应指标一般常取两种形式:是工作量固定，记录各被试完成相同工作所用的时间。二是学习时间一定记录一定时间内各被试完成的工作量。由于反应指标不同，在计算学习速度时也不一样，这是应用调和平均数要特别注意的地方。