统计学④——置信区间怎么算

统计学系列目录（文末有惊喜彩蛋）：
统计学①——概率论基础及业务实战
统计学②——概率分布（几何，二项，泊松，正态分布）
统计学③——总体与样本
统计学⑤——假设验证

上一篇写了如何通过样本的均值和方差，也叫点估计量，去估计总体的均值和方差，给出的是一个精确值。但是仅仅依靠一个样本得出的假设就一定可靠吗？虽然我们已经尽量抽取无偏样本了，得到的结果已经是最佳的点估计量，但是也只能说很接近总体的真值，但是有多接近也不知道。

因此，在给总体估计参数时，不是给一个精确值，而是一个范围，而且能保证总体参数有多大把握在这个范围，会比给一个精确值能令人信服的多，风险性也较小，这就是置信区间。

一、置信区间如何求？

1、选择总体统计量
2、求出其抽样分布
3、决定置信水平
4、求出置信区间上下限

一般来说，只要知道抽样分布，就可以求出置信区间，比如均值抽样分布和比例抽样分布，就是经常需要求置信区间的。

二、均值求置信区间实例（大样本）

问题：求总体均值的95%的置信区间
1、总体统计量：μ
2、求抽样分布
假设总体的均值为μ（未知），σ^2(未知），则样本均值的抽取分布为：

总体σ^{2未知，可以用样本的点估计量s}2近似，这样均值的抽样分布的均值和方差为：

求出了均值和方差后，要知道符合哪种分布才能求置信区间，上一节介绍了中心极限定理，不管总体是否符合正态分布，当抽取的样本足够大时，样本均值可以近似为正态分布，本次假设是大样本，因此可以得到分布如下：

3、决定置信水平
题目是求95%的置信度，那就表示总体均值处于置信区间的概率为95%

4、求出置信区间上下限
得到分布后，可以通过标准化转化为标准分，通过查表就可以得到概率。再将概率=95%的C值求出，代入可得到置信区间

其实并不用每一次都这么麻烦，这里提供了一些简便算法：

三、均值求置信区间实例（小样本）

如果是小样本的情况下，总体均值的置信区间求法会有一点点不同，在于均值的抽样分布不能近似为正态分布，原因是在总体方差未知时，是要用样本方差来估计总体方差的，但是小样本会带来较大的误差——比使用大样本大得多，会导致得到的置信区间不够精准。

这时会采用T分布，是一种外形光滑，对称的曲线，确切形状取决于样本大小，当样本很大时，T分布外形就很像正态分布，当样本很小时，曲线较为扁平，有两条粗粗的尾巴。它只有一个参数：ν，v=n-1，n为样本大小。

T分布与正态分布一样，通过均值和标准差转化成标准分，再通过t分布概率表查询概率即可

其它步骤与大样本一样了。

总体比例的置信区间与均值基本一致，这里就不多说啦

本人互联网数据分析师，目前已出Excel，SQL，Pandas，Matplotlib，Seaborn，机器学习，统计学，个性推荐，关联算法，工作总结系列。

微信搜索并关注 " 数据小斑马" 公众号，回复“统计”可以免费获取下方深入浅出统计学、统计学原理、赤裸裸的统计学等9本统计学入门到精通必备经典教材