机器学习中的统计学基础

一、什么是统计学

是一门收集、整理和分析统计数据的方法科学
其目的是探索数据内在的数据规律性，以达到对客观事物的科学认识
统计学研究随机现象，以推断为特征，“由部分及全体”的思想贯穿于统计学的始终

二、统计学的分类

统计学可分为描述统计学和推断统计学

描述统计学（Descriptive Statistics）

研究如何取得反映客观现象的数据
并通过图表形式对所收集的数据进行加工处理和显示
进而通过综合概括与分析得出反映客观现象的规律性数量特征。

推断统计学（Inferential Statistics）

研究如何根据样本数据去推断总体数量特征的方法
它是对样本数据进行描述的基础上
对统计总体的未知数量特征做出以概率形式表述的推断

三、数据描述的数值方法

在统计学中，数据描述的数值方法，主要从集中趋势、离散程度、分布的形状，三个方面去描述。

1.集中趋势

集中趋势：一组数据向其中心值靠拢的倾向和程度
集中趋势测度：寻找数据的水平代表值或中心值。
常用的集中趋势测度指标：均值、中位数、众数

（1）均值

定义：是指在一组数据中所有数据之和再除以数据的个数
它是反映数据集中趋势的一项指标
数学表达式：

（2）中位数

又称为中值，对于有限的数集，可以通过把所有观察值按高低排序后找出正中间的一个数字作为中位数
注：如果观察值有偶数个，通常去最中间的两个数值的平均数作为中位数。

（3）众数（Mode）

定义：是一组数据中出现次数最多的数值，叫众数
注1：一组数据中，可能会存在多个众数，也可能不存在众数
注2：众数不仅适用于数值型数据，对于非数值型数据也同样适用

2.离散程度

比较下面两组数据：A：1 2 5 8 9 B：3 4 5 6 7 两组数的均值都为5。

描述集中趋势的统计量不够，需要有描述数据的离散程度的统计量。

离散程度：反映各变量远离其中心值的程度。
常用指标：极差方差

（1）极差

极差：最大值-最小值，简单地描述数据的范围大小。还以上面A、B两组数为例：

A的极差为：9-1=8 ，B的极差为：7-3=4

同样的5个数，A的极差比B的极差要大，所以也比B的分散。

（2）方差

定义：描述一组数据离散程度的度量。用来计算机每个变量与总体均值之间的差异。

表达式：S^2= ∑（X- u） ^2 / （n-1）

注：Xi表示数据集中在第i个数据的观察值，u表示数据集的均值。

3.分布的形状

（1）偏态（skewness）

偏态：数据分布的不对称性称作偏态。
偏态系数：对数据分布的不对称性（即偏斜程度）的测度。
偏态系数有多种计算方法，在统计软件中通常采用以下公式：

偏态主要有下面三种:左偏分布（也称负偏分布）、对称分布、右偏分布（也称正偏分布）

（2）峰度（Kurtosis）

峰度：数据分布的扁平或尖峰程度
峰度系数：数据分布峰度的度量值，对数据分布尖峰或扁平程度的测度，一般用K表示。
统计软件中常用以下公式计算：

峰度主要有以下两种：扁平分布和尖峰分布

四、机器学习中的方差和偏差

观察下面这组图：

红色的靶心区域：学习算法完美的正确预测值。

蓝色点：每个数据集所训练出的模型对样本的预测值。

观察结果：

离散层度：两幅图中蓝色点比较集中，另外两幅中比较分散，它们描述的是方差情况。比较集中的属于方差小的，比较分散的属于方差大的情况。

蓝色与红色靶心区域的位置关系：靠近红色靶心的属于偏差较小的情况，远离靶心的属于偏差较大的情况。

泛化误差

以回归任务为例，学习算法的平方预测误差期望为：

x:测试样本，f（x,D）:由训练集D学得的模型f对x的预测输出

使用样本数相同的不同训练集产生的方差为:

方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。

偏差：期望预测与真实标记的误差被称为偏差（bias）。为了方便起见，我们直接去偏差的平方：

偏差度量了学习算法的期望预测与真实结果的偏离程序，即刻画了学习算法本身的拟合能力。

噪声：真实标记与数据集中的实际标记间的偏差：

噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。

（1）欠拟合的情况：偏差大，方差小

给定一个学习任务，在训练初期，

由于训练不足，学习器的拟合能力不够强，偏差比较大
也是由于拟合能力不强，数据集的扰动也无法使学习器产生显著变化。

（2）过拟合情况：偏差小，方差大

随着训练程度的加深：

学习器的拟合能力逐渐增强，训练数据的扰动也能够渐渐被学习器学到
充分训练后，学习器的拟合能力非常强
训练数据的轻微扰动都会导致学习器发生显著变化
当训练数据本身的、非全局的特征被学习器学到了，则将发生