机器学习的核心概念置信度和置信区间，我用这个例子把它讲明白

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

1 引出概念

今天，讲一个数据分析或机器学习里非常重要的概念，置信度和置信区间。为什么说置信度和置信区间非常重要？举个例子。

拿到一个电影数据集，为了挑选出喜剧类型的电影，在豆瓣上评分前10名。这看似并不困难，使用pandas几行代码差不多就能完成分析，给出一个结果。

但是，当回过头来仔细检查时，却发现，选出的10部电影，竟然有5部电影只有一个人评分，并且都是给了10分。

基于这种情况，评选出的前10名，自然不能服众，不具有很强的说服力。

我们更期望的是，一部电影被众多观影者打分，然后从这些电影中，挑选得分更高的电影。

这里就能引出：置信度和置信区间的概念。

一部电影被众多人打分，最后平均得分为8.5，那么这部电影的得分在8.2~8.8分，置信度将会很高，假设为90%；

相反，一部电影只有两个人打分，尽管最后平均分为9.5分，但是在区间：9.2~9.8分的置信度，可能就没那么高，预估为50%吧。言外之意，这个置信区间9.2~9.8被否的可能性会更大，毕竟只有50%吗。

2 理论解释

如果我们叫无数个观影者给某部电影打分，下面的图就是总体分布图，其平均得分为 μ ，标准差为 σ ：

如果我们已经得出μ 和 σ ，我们可以说约 68％的样本会落在红色区域：平均得分在上下两个 σ内的置信度就是95%.

假设样本无穷大，这样得到某部电影的平均得分就是总体分布得分，平均分为0.65分(满分为1分)，标准差为0.03.

那么这部电影的平均得分在置信区间0.62~0.68 分的置信度约为95%.

所以，为了增强结果的说服力，可以过滤掉那些被评分较少的电影，那么到底少于多少就应该被过滤掉，这里也有说法。

3 求95%置信度对应样本个数

已知样本标准差，Z值，置信区间的长度，根据公式，便能计算出样本个数，具体计算公式大家自行查询，在此不列出。

表格参考如上，如果我们按照95%的置信度，允许误差为5%的话，需要的样本个数至少为385.

所以，我们的问题已经解决了，要找出至少有385次被评分的所有电影，按照喜剧的平均分依次从大到小排序，选出前10.

因为用到Z值，在此说明下Z值的求法，作为知识扩充。

4 求95%置信度对应的Z值

允许电影评分有左右各有误差，即0.05/2=0.025。此时要查尾部面积是0.025时的Z值。

查Z值表时要在表中间找到0.975。从这一行水平往左得到1.9，往上对得到0.06，把两个数加起来就是1.96。

5 求95%置信度对应的置信区间

计算置信区间：

第一步，已知样本，求样本平均值、标准差和标准误差。样本标准误差：

第二步，确定置信度（置信水平），常用的置信度是95%。

第三步，求置信区间[a,b]上下限，Z值求法参考上面，所以容易得出：

a = 总体平均值 - Z*标准误差

b = 总体平均值 + Z*标准误差

以上这些知识点，相信大家在网上也能搜出来，但是学习最重要的是知识逻辑梳理。一个一个的知识点这就好比放到那里的一个一个的珠子，而知识的逻辑体系就好比那一根线，它把一个一个的珠子串联起来，这根线就是逻辑线。我更希望通过辛苦总结，形成这样一根串珠子的线，这才是最大的价值所在，而像珠子的知识获取手段目前从来都不匮乏。

好消息！

小白学视觉知识星球

开始面向外开放啦

机器学习的核心概念置信度和置信区间，我用这个例子把它讲明白相关推荐

机器学习一些核心概念的解读文档汇总
这里我找了别人的一些博客,都是机器学习方面的重点名词.在此膜拜各位大佬: 0/1 loss http://www.csuldw.com/2016/03/26/2016-03-26-loss-funct ...
什么是机器学习？有哪些分类？到底有什么用？终于有人讲明白了
导读:在业界,近些年来机器学习在人机对弈.语音识别.图像识别等场景下取得了蓬勃发展,引发了人们对人工智能改造未来社会的无限热情和期待.但在学界,却有不少科学家指出了机器学习的发展局限.加拿大滑铁卢大学 ...
互联网搜索的哪些环节机器学习_什么是机器学习？有哪些分类？到底有什么用？终于有人讲明白了...
导读:在业界,近些年来机器学习在人机对弈.语音识别.图像识别等场景下取得了蓬勃发展,引发了人们对人工智能改造未来社会的无限热情和期待.但在学界,却有不少科学家指出了机器学习的发展局限.加拿大滑铁卢大学 ...
短小精悍-机器学习核心概念、模型、基础知识点简明手册-免费分享
该手册只有130页,整理了几乎所有关机机器学习的概念.模型.基础知识点,它将帮助读者快速回顾关于机器学习相关的核心知识点和重要公式.模型.概念.涉及概率模型.处理离散数据的生成模型.高斯模型.贝叶斯模 ...
机器学习核心概念、常用术语整理（建议收藏）
[转]机器学习核心概念完全解析(建议收藏) 原文链接:https://mp.weixin.qq.com/s/wEpmF1gdvsIimnvXrxKdRw AI干货知识库刚接触机器学习框架 Tenso ...
机器学习算法 09-02 TensorFlow核心概念 TensorFlow基础代码、TensorFlow线性回归解析解和BGD求法
目录 1 核心概念 2 代码流程 3 基础代码: 3.1 tf的版本定义常量理解tensor 了解session 3. 2 指定设备. Variable 初始化 . with块创建sess ...
看懂这25个核心概念，就没有啃不动的机器学习论文
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 内容来自AI科技评论: 机器学习领域的研究进展迅速,研究者既要及时跟进最新研究,也要不时地回顾经典.寒假开始,各位机器学习er在度假之余 ...
重拾强化学习的核心概念_强化学习的核心概念
重拾强化学习的核心概念 By Hannah Peterson and George Williams (gwilliams@gsitechnology.com) 汉娜·彼得森 ( Hannah Pet ...
3sigma模型案例分析彻底搞懂置信度与置信区间
学习机器学习算法时,经常会碰到数理统计中置信区间.置信度,虽然学习过相关课程,但是每次遇到它总是懵懵懂懂,似懂非懂.为了对这两个概念有深入的了解,这里做了相关的介绍.为了不老是纠缠于数理统计理论,或者 ...

机器学习的核心概念置信度和置信区间，我用这个例子把它讲明白

机器学习的核心概念置信度和置信区间，我用这个例子把它讲明白相关推荐

最新文章

热门文章