点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

1 引出概念

今天,讲一个数据分析或机器学习里非常重要的概念,置信度和置信区间。为什么说置信度和置信区间非常重要?举个例子。

拿到一个电影数据集,为了挑选出喜剧类型的电影,在豆瓣上评分前10名。这看似并不困难,使用pandas几行代码差不多就能完成分析,给出一个结果。

但是,当回过头来仔细检查时,却发现,选出的10部电影,竟然有5部电影只有一个人评分,并且都是给了10分。

基于这种情况,评选出的前10名,自然不能服众,不具有很强的说服力。

我们更期望的是,一部电影被众多观影者打分,然后从这些电影中,挑选得分更高的电影。

这里就能引出:置信度和置信区间的概念。

一部电影被众多人打分,最后平均得分为8.5,那么这部电影的得分在8.2~8.8分,置信度将会很高,假设为90%;

相反,一部电影只有两个人打分,尽管最后平均分为9.5分,但是在区间:9.2~9.8分的置信度,可能就没那么高,预估为50%吧。言外之意,这个置信区间9.2~9.8被否的可能性会更大,毕竟只有50%吗。

2 理论解释

如果我们叫无数个观影者给某部电影打分,下面的图就是总体分布图,其平均得分为 μ ,标准差为 σ :

如果我们已经得出μ 和 σ ,我们可以说约 68% 的样本会落在红色区域:平均得分在上下两个 σ内的置信度就是95%.

假设样本无穷大,这样得到某部电影的平均得分就是总体分布得分,平均分为0.65分(满分为1分), 标准差为0.03.

那么这部电影的平均得分在置信区间0.62~0.68 分的置信度约为95%.

所以,为了增强结果的说服力,可以过滤掉那些被评分较少的电影,那么到底少于多少就应该被过滤掉,这里也有说法。

3 求95%置信度对应样本个数

已知样本标准差,Z值,置信区间的长度,根据公式,便能计算出样本个数,具体计算公式大家自行查询,在此不列出。

表格参考如上,如果我们按照95%的置信度,允许误差为5%的话,需要的样本个数至少为385.

所以,我们的问题已经解决了,要找出至少有385次被评分的所有电影,按照喜剧的平均分依次从大到小排序,选出前10.

因为用到Z值,在此说明下Z值的求法,作为知识扩充。

4 求95%置信度对应的Z值

允许电影评分有左右各有误差,即0.05/2=0.025。此时要查尾部面积是0.025时的Z值。

查Z值表时要在表中间找到0.975。从这一行水平往左得到1.9,往上对得到0.06,把两个数加起来就是1.96。

5 求95%置信度对应的置信区间

计算置信区间:

第一步,已知样本,求样本平均值、标准差和标准误差。样本标准误差:

第二步,确定置信度(置信水平),常用的置信度是95%。

第三步,求置信区间[a,b]上下限,Z值求法参考上面,所以容易得出:

a = 总体平均值 - Z*标准误差

b = 总体平均值 + Z*标准误差

以上这些知识点,相信大家在网上也能搜出来,但是学习最重要的是知识逻辑梳理。一个一个的知识点这就好比放到那里的一个一个的珠子,而知识的逻辑体系就好比那一根线,它把一个一个的珠子串联起来,这根线就是逻辑线。我更希望通过辛苦总结,形成这样一根串珠子的线,这才是最大的价值所在,而像珠子的知识获取手段目前从来都不匮乏。

好消息!

小白学视觉知识星球

开始面向外开放啦

机器学习的核心概念置信度和置信区间,我用这个例子把它讲明白相关推荐

  1. 机器学习一些核心概念的解读文档汇总

    这里我找了别人的一些博客,都是机器学习方面的重点名词.在此膜拜各位大佬: 0/1 loss http://www.csuldw.com/2016/03/26/2016-03-26-loss-funct ...

  2. 什么是机器学习?有哪些分类?到底有什么用?终于有人讲明白了

    导读:在业界,近些年来机器学习在人机对弈.语音识别.图像识别等场景下取得了蓬勃发展,引发了人们对人工智能改造未来社会的无限热情和期待.但在学界,却有不少科学家指出了机器学习的发展局限.加拿大滑铁卢大学 ...

  3. 互联网搜索的哪些环节 机器学习_什么是机器学习?有哪些分类?到底有什么用?终于有人讲明白了...

    导读:在业界,近些年来机器学习在人机对弈.语音识别.图像识别等场景下取得了蓬勃发展,引发了人们对人工智能改造未来社会的无限热情和期待.但在学界,却有不少科学家指出了机器学习的发展局限.加拿大滑铁卢大学 ...

  4. 短小精悍-机器学习核心概念、模型、基础知识点简明手册-免费分享

    该手册只有130页,整理了几乎所有关机机器学习的概念.模型.基础知识点,它将帮助读者快速回顾关于机器学习相关的核心知识点和重要公式.模型.概念.涉及概率模型.处理离散数据的生成模型.高斯模型.贝叶斯模 ...

  5. 机器学习核心概念、常用术语整理(建议收藏)

    [转]机器学习核心概念完全解析(建议收藏) 原文链接:https://mp.weixin.qq.com/s/wEpmF1gdvsIimnvXrxKdRw AI干货知识库 刚接触机器学习框架 Tenso ...

  6. 机器学习算法 09-02 TensorFlow核心概念 TensorFlow基础代码、TensorFlow线性回归解析解和BGD求法

    目录 1 核心概念 2 代码流程 3 基础代码: 3.1 tf的版本 定义常量 理解tensor 了解session 3. 2   指定设备.  Variable 初始化 .  with块创建sess ...

  7. 看懂这25个核心概念,就没有啃不动的机器学习论文

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 内容来自AI科技评论: 机器学习领域的研究进展迅速,研究者既要及时跟进最新研究,也要不时地回顾经典.寒假开始,各位机器学习er在度假之余 ...

  8. 重拾强化学习的核心概念_强化学习的核心概念

    重拾强化学习的核心概念 By Hannah Peterson and George Williams (gwilliams@gsitechnology.com) 汉娜·彼得森 ( Hannah Pet ...

  9. 3sigma模型案例分析彻底搞懂置信度与置信区间

    学习机器学习算法时,经常会碰到数理统计中置信区间.置信度,虽然学习过相关课程,但是每次遇到它总是懵懵懂懂,似懂非懂.为了对这两个概念有深入的了解,这里做了相关的介绍.为了不老是纠缠于数理统计理论,或者 ...

最新文章

  1. Nature:人类肠道微生物组的肠型
  2. 取消默认html打开文档,怎么取消mac默认打开文档方式
  3. 软工随堂练 找出和值最小的子数组 尹亚男 赵静娜
  4. const数组,strstr,strstr,
  5. YBTOJ:比赛得分(期望)
  6. LF 第一模块 考试总结
  7. linux生成手机号码字典,Linux下的字典生成工具Crunch 创造自己的专属字典
  8. LINUX下载编译opusfile/opus-tools
  9. Rust游戏数据查询、Rust服务器清档时间表
  10. 在入口文件main.js引入styl报错,不断修改后运行正常了
  11. proxifier中文汉化版
  12. 铁通dns服务器地址是多少,电信/网通/铁通dns服务器地址大全
  13. 浅析json_encode
  14. 编译原理 C-Minus 语法分析(Flex / Bison)
  15. 【LensFlare镜头光晕】Unity3D奇葩实现
  16. 金融风控项目(数据分析最后阶段精华总结很久!)
  17. Java-茴香豆研究(一)
  18. 普罗旺斯的花海。薰衣草的花语,是等待爱情
  19. 【毕业设计】机器学习二维码识别检测系统 - python opencv 机器视觉
  20. 又闹分裂?Node.js 被 fork 出一个项目 Ayo.js

热门文章

  1. 5.25 力扣 排序(冒泡、快速、桶) 二分
  2. 基于SSM框架的宠物交易平台的设计与实现
  3. oracle 掩码,oracle RAC 修改子网掩码如何计算subnet
  4. Golang实现进制转换计算器
  5. 分布式体系架构与分布式计算相关问题
  6. “扔瓶子”有套路?日本高中生开发机器人,手残党们有救了
  7. 内达培训python多少钱
  8. 在Unisys 英特尔Itanium已死
  9. 互联时代,直播,短视频成为知识付费成长的良好土壤
  10. 信捷plc和台达变频器通信程序通过信捷xc3的modbus通信控制台达vfd-m变频器的正转