前言

假设检验是推断统计的一项重要内容，它是先对总体参数提出一个假设值，然后利用样本信息来判断这个假设是否成立。本章主要介绍了假设检验的基本原理和如何针对不同的数据集选择合适的检验方法。

假设检验的基本原理

基本概念

假设检验先对总体参数提出某种假设，然后利用样本信息来判断假设是否成立的统计方法，称为假设检验

假设一般包含两种假设：原假设和备择假设。
研究者想搜集证据和资料来推翻的假设称为原假设，用H0H_0H0，而备择假设是研究者心里面所支持的假设，通常用H1H_1H1表示。而假设检验的第一步，就是明确一个问题的原假设和备择假设是什么？

例如，某品牌的洗衣粉产品说明书上称：平均净含量不少于500克。从消费者利益出发，有关人员需要通过抽取其中一部分样品来验证该洗衣粉厂家所说是否正确？

假设uuu是该洗衣粉平均净含量，则作为研究员我们的目的是验证这个洗衣粉存在问题，即u<500gu<500gu<500g，所以此时的备择假设就是该洗衣粉有问题，原假设是该洗衣粉没有问题，作为研究员我们需要抽取洗衣粉的样本信息来证明原假设不成立。

明确什么是原假设和什么是备择假设在假设检验中非常重要。有几个需要注意的点：

建立假设时，首先确定备择假设，然后再确定原假设，原因是备择假设是我们关心的内容；
在假设检验中，等号===总是放在原假设上，这样做的目的是原假设的内容总是表示参数没有差异或者没有改变，或变量间没有关系；
原假设和备择假设的确定实际上有一部分主观色彩；
原假设从设立开始就是默认成立的，我们的目的就是搜集资料证明原假设不成立；

检验又分为单侧检验和双侧检验，具体定义如下：

备择假设具有特定的方向性，并含有符号">“或“<”的假设i季铵盐，称为单侧检验或单尾检验；
备择假设没有特定的方向性，并含有符号”≠\ne="的假设检验，称为双侧检验或者双尾检验；

显著性水平

假设检验的目的就是搜集证据证明原假设不成立，但是在搜集过程中我们或多或少的会出现错误，比如事实上原假设是正确的，但是我们判断出来要拒绝原假设，这种情况称为第一例错误，也叫弃真错误，当原假设错误时没有拒绝原假设，所犯的错误称为第二类错误，又叫取伪错误。针对这两种错误我们给出两个概率α\alphaα和β\betaβ，分别代表了犯第一类错误和第二类错误的概率，而发生第一类错误的概率通常也被用于检验结论可靠性的度量（原假设的错误概率是人为控制的），我们称其为显著性水平。
显著性并不是指“重要的”，而是指“非偶然的”，如果样本提供的数据拒绝原假设，则称检验的结果是显著的，相反不显著。另一种说法是显著性水平是指当原假设成立时，检验统计量落在拒绝域的概率，英国统计学家Ronald Fisher在研究中把显著性水平定为0.05，于是后人在假设检验的时候会习惯性的把显著性水平定为0.05，其实该值还可以取0.1或者0.01。

检验统计量和拒绝域

在前面我们说了，研究者的目的就是搜索相关信息来推翻原假设，那么如何证明原假设是错误的呢，这就需要引入检验统计量，它是根据观测结果得到的。
标准化检验统计量=点估计量−假设值点估计量的抽样标准差标准化检验统计量 = \frac{点估计量-假设值}{点估计量的抽样标准差}标准化检验统计量=点估计量的抽样标准差点估计量−假设值
随着不同的样本，该统计量也是不同的，但只要固定住样本观测数据，检验统计量也就唯一确定了。
假设检验的基本原理还可以叙述为：

根据假设检验统计量建立一个准则，依据这个准则和计算得到的检验统计量值，研究者可以决定是否拒绝原假设。但是哪些值是拒绝原假设的统计量取值呢？这就需要引入拒绝域。

拒绝域： 能够拒绝原假设的检验统计量的所有可能的取值，称为拒绝域；
确定什么范围是拒绝域需要根据显著性水平，对于给定的显著性水平值确定的拒绝域的边界值，我们称为临界值。在实际操作中，给定显著性水平α\alphaα后，计算具体的临界值一般是通过软件计算的，将检验统计量的值与临界值进行比较，就可做拒绝或不拒绝原假设的决策。

其实到这里就可以得到一个初步的检验步骤：
假设检验步骤一：

陈述原假设H0H_0H0和备择假设H1H_1H1；

从研究的总体中抽出一个随机样本；

确定一个适当的检验统计量，并用样本数据算出其具体的数值；

确定一个适当的显著性水平，并计算其临界值，指定拒绝域；

将统计量的值与临界值进行比较，并作出决策，若统计量落在拒绝域内，则拒绝原假设H0H_0H0，否则不拒绝原假设H0H_0H0;

我的理解是，首先面对一个问题，给出原假设，然后我们要搜集数据证明原假设不成立，只要我们计算的数据在原假设存在错误的拒绝域内，就认为原假设是不成立的。

PPP值

上面介绍的检验方法是传统的假设检验，这种方法存在很大的弊端，那就是我们不能比较两种拒绝原假设的情况下的拒绝力度大小，即我们只能判断是还是否，没法给出是多少，否多少。为了解决这个问题，引入PPP的概念。
P值： 如果原假设H0H_0H0是正确的，所得到的样本结果会像实际观测结果那么极端或者更极端的概率，称为PPP值。
PPP值不是估计原假设错误得概率，它与原假设错误不错误没有直接关系。PPP值是假设原假设正确的情况下得到观测数据的概率。由PPP值可知，假设原假设正确，这样的样本数据出现的概率为PPP，如果这样的样本出现的概率很小，则说明我们的原假设不合理。PPP值反映实际观测到的数据与原假设H0H_0H0之间不一致的程度的一个概率值，PPP值越小，说明实际观测到的数据与H0H_0H0之间不一致的程度就越大，检验的结果也就越显著。
我们便得到基于PPP值得检验方法，如果PPP值过小，表明在原假设为真时得到目前这一得一个样本结果的可能性小，应该拒绝原假设。至于多小的PPP值才会默认拒绝原假设，我们需要在检验开始前设定一个默认值。

PPP值的计算过程，这里只针对单侧检验来举例，其它的情况都时类似的，假设符号zzz表示检验统计量，zcz_czc表示根据样本数据得到的检验统计量。对于左侧检验有：
左侧检验：H0:μ≥μ0；H1:μ≤μ0H_0:\mu\ge\mu_0；H_1:\mu\le\mu_0H0:μ≥μ0；H1:μ≤μ0
当μ=μ0\mu=\mu_0μ=μ0时，检验统计量小于或等于实际观测样本数据计算得到的统计量的概率P(z≤zc∣μ=μ0)P(z\le z_c|\mu=\mu_0)P(z≤zc∣μ=μ0)

深入理解显著性水平

显著性水平是事先所要求的用于拒绝原假设的概率，即PPP值，事实上，对于事先给定的一个显著性水平，实际上就是说所求的PPP值小到什么程度才能称为显著性水平，这个事先给定的显著性水平称为α\alphaα，当我们求得的PPP值小于给定的α\alphaα值时，才能拒绝原假设。至于为什么要用PPP，这是因为使用PPP来决策不仅仅可以得到是否拒绝原假设，还可以得到一个具体的值，利用这个值可以比较拒绝的力度大小，而在之前的利用α\alphaα来判断是否拒绝原假设也只是知道犯错误的可能性是α\alphaα，但究竟是多少却不知道。而PPP值则是算出的犯第一类错误的实际概率。与其为了确定合适的α\alphaα值，不如直接把真正的α\alphaα算出来。

基于PPP我们可以得到第二中假设检验的步骤：

陈述原假设H0H_0H0和备择假设H1H_1H1；

从研究的总体中抽出一个随机样本；

确定一个适当的检验统计量，并用样本数据算出其具体的数值；

确定一个显著性水平α\alphaα，并利用统计检验量计算概率PPP值；

将PPP值与显著性水平α\alphaα进行比较，并作出决策，若PPP小于α\alphaα，则拒绝原假设H0H_0H0，否则不拒绝原假设H0H_0H0;

注意：在假设检验时，如果原假设被拒绝，则称检验结果是“统计上显著的”；如果不拒绝原假设，则称检验结果是“统计上不显著的”。

总体均值的检验

前面一节详细介绍了假设检验的主要步骤，我们知道所有的假设检验都需要确定一个检验统计量，在对总体均值进行假设检验时，采用什么检验步骤和检验统计量取决于所抽取样本是大样本（n>30）还是小样本(n<30)，此外，还需要区分总体是否服从正态分布，总体方差是否已知。

大样本的检验方法

在大样本的情况下，样本均值的抽样分布近似服从正态分布，其抽样标准差为σn\sigma \sqrt nσn，将样本均值x‾\overline xx经过标准化后即可得到检验统计量。
假设总体样本均值为μ\muμ，总体方差σ2\sigma^2σ2已知时，总体均值检验统计量为：
z=x‾−μ0σ/nz=\frac{\overline x-\mu_0}{\sigma / \sqrt n}z=σ/nx−μ0
当总体方差σ2\sigma^2σ2未知时，可以用样本方差x2x^2x2来代替总体方差，此时总体均值检验统计量为：
z=x‾−μ0s/nz=\frac{\overline x-\mu_0}{s/\sqrt n}z=s/nx−μ0
在计算检验统计量之后，我们就可以计算PPP值，这个过程一般都是计算机来计算的。

小样本的检验方法

小样本(n<30)情况下，检验统计量的选择与总体是否服从正太分布、总体方差是否已知有着密切关系。我们这里所介绍的所有小样本情况，都是基于总体服从正太分布，如果无法确定总体是否服从正态分布，那么可以考虑将小样本的数据量增大到30以上，然后按照大样本的方法进行检验。
当小样本的总体方差σ2\sigma^2σ2也是已知时，这个时后任然可以用大样本方差已知情况下的检验方法进行检验，下面着重考虑小样本总体方差未知的情况下均值检验方法。
对于小样本，当总体方差σ2\sigma^2σ2未知时，需要用样本方差s2s^2s2代替总体方差，此时计算的检验统计量不在服从正态分布，而是服从自由度为n-1的ttt分布。因此需要采用ttt分布来检验总体均值，通常称为t检验t检验t检验，检验统计量为：
t=x‾−μ0s/nt=\frac{\overline x-\mu_0}{s/\sqrt n}t=s/nx−μ0

要知道在什么情况下使用什么方法，需要弄清楚各种方法的适用场合。

总体比例的检验

总体比例检验是指总体中具有某种相同特征的个体所占的比例，这些特征可以是数值型数据，也可以是类别型数据。总体比例检验和总体均值检验基本上是相同的，区别只在于参数和检验统计量的形式不同。
假设总体比例为π\piπ，样本比例ppp，在大样本情况下统计量ppp近似服从正态分布，而统计量为：
z=p−π0π0(1−π0)nz=\frac{p-\pi_0}{\sqrt {\frac{\pi_0(1-\pi_0)}{n}}}z=nπ0(1−π0)p−π0
则近似服从标准正态分布。

假设检验的内容远远不止这么点，本文介绍的都是假设检验最基础的方法。

机器学习笔记-假设检验相关推荐

【机器学习笔记】：大话线性回归（二）拟合优度和假设检验
大家好,我是东哥. 前一篇文章给大家介绍了线性回归的模型假设,损失函数,参数估计,和简单的预测.具体内容请看下面链接:[机器学习笔记]:大话线性回归(一) 但其实还有很多问题需要我们解决:这个模型的效 ...
一份520页的机器学习笔记！附下载链接
点击上方"视学算法",选择"星标"公众号第一时间获取价值内容近日,来自SAP(全球第一大商业软件公司)的梁劲(Jim Liang)公开了自己所写的一份 52 ...
700 页的机器学习笔记火了！完整版开放下载
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散作者梁劲(Jim Liang),来自SAP(全球第一大商业软件公司). 书籍特点条理清晰 ...
机器学习笔记十四：随机森林
在上一篇机器学习笔记十三:Ensemble思想(上)中,简要的提了一下集成学习的原理和两种主要的集成学习形式. 而在这部分要讲的随机森林,就算是其中属于bagging思路的一种学习方法.为了篇幅,b ...
机器学习笔记七：损失函数与风险函数
一.损失函数回顾之前讲过的线性回归模型,我们为了要学习参数使得得到的直线更好的拟合数据,我们使用了一个函数这个函数就是比较模型得到的结果和"真实值"之间的"差距&qu ...
吴恩达机器学习笔记55-异常检测算法的特征选择（Choosing What Features to Use of Anomaly Detection）
吴恩达机器学习笔记55-异常检测算法的特征选择(Choosing What Features to Use of Anomaly Detection) 对于异常检测算法,使用特征是至关重要的,下面谈谈 ...
Python机器学习笔记：sklearn库的学习
自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学习算法.还包括了特征提取,数据 ...
神经网络与机器学习笔记—LMS（最小均方算法）和学习率退火
神经网络与机器学习笔记-LMS(最小均方算法)和学习率退火 LMS算法和Rosenblatt感知器算法非常想,唯独就是去掉了神经元的压制函数,Rosenblatt用的Sgn压制函数,LMS不需要压制 ...
神经网络与机器学习笔记—基本知识点（下）
神经网络与机器学习笔记-基本知识点(下) 0.1 网络结构: 神经网络中神经元的构造方式与用于训练网络的学习算法有着密切的联系,有三种基本的网络结构: 0.7 知识表示 ...

机器学习笔记-假设检验

前言