机器学习的核心概念置信度和置信区间,我用这个例子把它讲明白
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
1 引出概念
今天,讲一个数据分析或机器学习里非常重要的概念,置信度和置信区间。为什么说置信度和置信区间非常重要?举个例子。
拿到一个电影数据集,为了挑选出喜剧类型的电影,在豆瓣上评分前10名。这看似并不困难,使用pandas几行代码差不多就能完成分析,给出一个结果。
但是,当回过头来仔细检查时,却发现,选出的10部电影,竟然有5部电影只有一个人评分,并且都是给了10分。
基于这种情况,评选出的前10名,自然不能服众,不具有很强的说服力。
我们更期望的是,一部电影被众多观影者打分,然后从这些电影中,挑选得分更高的电影。
这里就能引出:置信度和置信区间的概念。
一部电影被众多人打分,最后平均得分为8.5,那么这部电影的得分在8.2~8.8分,置信度将会很高,假设为90%;
相反,一部电影只有两个人打分,尽管最后平均分为9.5分,但是在区间:9.2~9.8分的置信度,可能就没那么高,预估为50%吧。言外之意,这个置信区间9.2~9.8被否的可能性会更大,毕竟只有50%吗。
2 理论解释
如果我们叫无数个观影者给某部电影打分,下面的图就是总体分布图,其平均得分为 μ ,标准差为 σ :
如果我们已经得出μ 和 σ ,我们可以说约 68% 的样本会落在红色区域:平均得分在上下两个 σ内的置信度就是95%.
假设样本无穷大,这样得到某部电影的平均得分就是总体分布得分,平均分为0.65分(满分为1分), 标准差为0.03.
那么这部电影的平均得分在置信区间0.62~0.68 分的置信度约为95%.
所以,为了增强结果的说服力,可以过滤掉那些被评分较少的电影,那么到底少于多少就应该被过滤掉,这里也有说法。
3 求95%置信度对应样本个数
已知样本标准差,Z值,置信区间的长度,根据公式,便能计算出样本个数,具体计算公式大家自行查询,在此不列出。
表格参考如上,如果我们按照95%的置信度,允许误差为5%的话,需要的样本个数至少为385.
所以,我们的问题已经解决了,要找出至少有385次被评分的所有电影,按照喜剧的平均分依次从大到小排序,选出前10.
因为用到Z值,在此说明下Z值的求法,作为知识扩充。
4 求95%置信度对应的Z值
允许电影评分有左右各有误差,即0.05/2=0.025。此时要查尾部面积是0.025时的Z值。
查Z值表时要在表中间找到0.975。从这一行水平往左得到1.9,往上对得到0.06,把两个数加起来就是1.96。
5 求95%置信度对应的置信区间
计算置信区间:
第一步,已知样本,求样本平均值、标准差和标准误差。样本标准误差:
第二步,确定置信度(置信水平),常用的置信度是95%。
第三步,求置信区间[a,b]上下限,Z值求法参考上面,所以容易得出:
a = 总体平均值 - Z*标准误差
b = 总体平均值 + Z*标准误差
以上这些知识点,相信大家在网上也能搜出来,但是学习最重要的是知识逻辑梳理。一个一个的知识点这就好比放到那里的一个一个的珠子,而知识的逻辑体系就好比那一根线,它把一个一个的珠子串联起来,这根线就是逻辑线。我更希望通过辛苦总结,形成这样一根串珠子的线,这才是最大的价值所在,而像珠子的知识获取手段目前从来都不匮乏。
好消息!
小白学视觉知识星球
开始面向外开放啦
机器学习的核心概念置信度和置信区间,我用这个例子把它讲明白相关推荐
- 机器学习一些核心概念的解读文档汇总
这里我找了别人的一些博客,都是机器学习方面的重点名词.在此膜拜各位大佬: 0/1 loss http://www.csuldw.com/2016/03/26/2016-03-26-loss-funct ...
- 什么是机器学习?有哪些分类?到底有什么用?终于有人讲明白了
导读:在业界,近些年来机器学习在人机对弈.语音识别.图像识别等场景下取得了蓬勃发展,引发了人们对人工智能改造未来社会的无限热情和期待.但在学界,却有不少科学家指出了机器学习的发展局限.加拿大滑铁卢大学 ...
- 互联网搜索的哪些环节 机器学习_什么是机器学习?有哪些分类?到底有什么用?终于有人讲明白了...
导读:在业界,近些年来机器学习在人机对弈.语音识别.图像识别等场景下取得了蓬勃发展,引发了人们对人工智能改造未来社会的无限热情和期待.但在学界,却有不少科学家指出了机器学习的发展局限.加拿大滑铁卢大学 ...
- 短小精悍-机器学习核心概念、模型、基础知识点简明手册-免费分享
该手册只有130页,整理了几乎所有关机机器学习的概念.模型.基础知识点,它将帮助读者快速回顾关于机器学习相关的核心知识点和重要公式.模型.概念.涉及概率模型.处理离散数据的生成模型.高斯模型.贝叶斯模 ...
- 机器学习核心概念、常用术语整理(建议收藏)
[转]机器学习核心概念完全解析(建议收藏) 原文链接:https://mp.weixin.qq.com/s/wEpmF1gdvsIimnvXrxKdRw AI干货知识库 刚接触机器学习框架 Tenso ...
- 机器学习算法 09-02 TensorFlow核心概念 TensorFlow基础代码、TensorFlow线性回归解析解和BGD求法
目录 1 核心概念 2 代码流程 3 基础代码: 3.1 tf的版本 定义常量 理解tensor 了解session 3. 2 指定设备. Variable 初始化 . with块创建sess ...
- 看懂这25个核心概念,就没有啃不动的机器学习论文
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 内容来自AI科技评论: 机器学习领域的研究进展迅速,研究者既要及时跟进最新研究,也要不时地回顾经典.寒假开始,各位机器学习er在度假之余 ...
- 重拾强化学习的核心概念_强化学习的核心概念
重拾强化学习的核心概念 By Hannah Peterson and George Williams (gwilliams@gsitechnology.com) 汉娜·彼得森 ( Hannah Pet ...
- 3sigma模型案例分析彻底搞懂置信度与置信区间
学习机器学习算法时,经常会碰到数理统计中置信区间.置信度,虽然学习过相关课程,但是每次遇到它总是懵懵懂懂,似懂非懂.为了对这两个概念有深入的了解,这里做了相关的介绍.为了不老是纠缠于数理统计理论,或者 ...
最新文章
- Nature:人类肠道微生物组的肠型
- 取消默认html打开文档,怎么取消mac默认打开文档方式
- 软工随堂练 找出和值最小的子数组 尹亚男 赵静娜
- const数组,strstr,strstr,
- YBTOJ:比赛得分(期望)
- LF 第一模块 考试总结
- linux生成手机号码字典,Linux下的字典生成工具Crunch 创造自己的专属字典
- LINUX下载编译opusfile/opus-tools
- Rust游戏数据查询、Rust服务器清档时间表
- 在入口文件main.js引入styl报错,不断修改后运行正常了
- proxifier中文汉化版
- 铁通dns服务器地址是多少,电信/网通/铁通dns服务器地址大全
- 浅析json_encode
- 编译原理 C-Minus 语法分析(Flex / Bison)
- 【LensFlare镜头光晕】Unity3D奇葩实现
- 金融风控项目(数据分析最后阶段精华总结很久!)
- Java-茴香豆研究(一)
- 普罗旺斯的花海。薰衣草的花语,是等待爱情
- 【毕业设计】机器学习二维码识别检测系统 - python opencv 机器视觉
- 又闹分裂?Node.js 被 fork 出一个项目 Ayo.js