关于证明PAC可学习
关于证明PAC可学习
- 参考文章
最近在学习statistical learning,学习到了《深入理解机器学习:从算法到原理》这本书,其中有对PAC进行了详细的介绍,在做题的时候对PAC的证明十分的困惑,这里基本想清楚后做一个总结,如有错误的还请指出。
首先来明确一个概念,PAC可学习是针对什么而言的,我的理解是 对于我们的假设类H(通俗点说就是分类器的集合) 可以找到一个近似正确的分类器,这个分类器满足
其中定义m个sample组成S空间,其中每个sample服从D分布,并且互相独立;
如果存在一个算法A,在m(sample个数)有限的情况下,找到假设h;
使得对于任意两个数ε,δ,(ε,δ都大于0小于1)概率P(h对S中sample预测错误次数大于ε) < δ;
现在我们有一个分类器集合R,我们想证明R是PAC可学习的,因此我们找到一个包含所有positive examples(这里是蓝色的点)最小的R’,来证明R’可以满足我上面所说过的不等式,即完成了R是PAC可学习的证明。(换句话说,由于我们找到了近似正确的分类器R’,所以R是PAC可学习的)
现在我们的目标是证明R’满足上面说过的不等式,这里我们做一个转换:
我们由R向内扩展出4个小矩形:r1,2,3,4。每个r的概率x/4。(这里所说的概率是指当我们做测试集测试时的蓝色点落入r而形成的错误概率,因为蓝色点落入了r中,会被R’归类为红色的点所以形成错误;而对于R’,它的错误率相当于R’和R的补集)
所以,当R(R‘)>ε时,R’必须错过至少一个ri,1<=i<=4。
因为,当R’不相交于任何一个r时,R‘的错误率就大于等于ε,这里解释是这样的,当R’与ri,1<=i<=4,都相切时,R‘的错误率=ε,而R’与任何一个ri都不相交时,r上的错误率ε加上R’与r之间会空出一部分空间所形成的错误率==>R‘的错误率就大于ε。
R’与r都相交时,R‘的错误率就小于ε,这个很好理解就不过多解释了。
而当R’与r中的1个相交时,我们可能会有疑问,为什么此时R‘的错误率仍然大于ε呢? 这是因为,正如上图所示,R’与r2相交了一部分,但是和其他三个r没有相交,对于与r1,3,4没有相交而空出来的那部分空间,我们仍然可以用人为的方式来使得空出的空间大于R’与r2相交的空间,并保证错误率仍然大于ε。(对于其他的相交情况是同理的)
因此我们可以得出我们的不等式了:
(因为这里我们是想求错误率大于ε的这个概率的一个上界,所以我们取R’与任何一个r都不相交的概率为上界。)
由于并集的概率小于各自概率的和:
由于S中的每个sample的独立分布的,并且落在r1中的概率为x/4,所以
由于我们要求错误个数大于x的概率小于y,所以可以定义如下的不等式。
推导出m的下限。
这就说明只需要有限个实例就能满足上面的概率不等式。
这就说明了,上面这个平面图形中学习矩形的问题是PAC可学习的。
证明过程适用与《深入理解机器学习》这本书的习题2.3和3.3,希望可以给还在迷惑的同学一些帮助
参考文章
本人比较懒,所以图片和部分推导过程引用了:PAC学习框架 https://www.cnblogs.com/alphablox/p/5935826.html 这篇文章
本文也是针对该文章基础上具体了细节和新增了一些个人理解,如有侵权,立刻删除侵权的内容。
关于证明PAC可学习相关推荐
- 可能近似正确(probably approximately correct,PAC)学习模型
1 问题框架 假定数据按照某概率分布P从X中随机产生,一般D可为任意分布,并且它对学习型算法是未知的.对于P,所要求的是它的稳定性,即该分布不会随时间变化(不然我们就没有学习的意义了).训练数据的由P ...
- 「LSTM 之父」亲笔万字长文,只为向世人证明:深度学习不是在母语为英语的地方被发明的
导语:最重要的并不是谁发明了某项技术,而是技术本身对于人类文明发展所具有的无上价值! 雷锋网 AI 科技评论按:毫无疑问,深度学习是影响当今世界科技发展的最重要的技术之一.2018 年,深度学习「三巨 ...
- 鸽巢原理分析、实用技巧、部分定理证明以及组合数学学习心路历程
鸽巢原理 天上有十个鸽子,这十个鸽子要飞到九个鸽巢里,无论怎样飞,我们会发现至少会有一 个鸽巢里面放两个鸽子,这一现象就是我们所说的"鸽巢原理".鸽巢定理由狄里克利于1834 ...
- PAC bounding学习记录
1 PAC定义 参考: https://jeremykun.com/2014/01/02/probably-approximately-correct-a-formal-theory-of-learn ...
- 想要学好C++,必看,能看完,证明你有学习C++的潜质,否则趁早放弃。
[C++概述] C++这个词在中国大陆的程序员圈子中通常被读做"C加加",而西方的程序员通常读做"C plus plus","CPP". 它 ...
- 想要学好C++,必看,能看完,证明你有学习C++的潜质,否则趁早放弃
[C++概述] C++这个词在中国大陆的程序员圈子中通常被读做"C加加",而西方的程序员通常读做"C plus plus","CPP". 它 ...
- 【机器学习基础】理解为什么机器可以学习1——PAC学习模型
引言 自从下定决心认真学习机器学习理论开始,接触到很多基本问题,但其实都不是很理解,比如损失函数.风险函数.经验结构最小化.结构风险最小化.学习方法的泛化能力.VC维等,这些概念在学习中都纯属空泛的概 ...
- PAC(probably approximately correct) 学习架构介绍
PAC学习框架(模型) 学习框架背景: PAC 模型的作者是Leslie Valiant ,因此获得2010 年图灵奖. 最初PAC(probably approximately correct)学习 ...
- 机器学习之PAC学习框架
当大家通过示例设计并分析算法的时候,有没有可能对以下几个问题产生疑虑: 什么样的算法能够有效地学习数据特征? 学习起来的困难是什么? 用多少示例去训练算法才能叫成功的训练算法? 存在普遍的模型去学 ...
最新文章
- 利用System.EventHandler来实现两个窗体间的事件调用
- 【Android 安装包优化】WebP 应用 ( Android 中使用 libwebp.so 库编码 WebP 图片 )
- 计算机科学和机器学习中的代数学、拓扑学、微积分以及最优化理论
- map集合遍历_java---map集合获取元素与存储元素
- 剖析入侵技术 嗅探软件了解
- notes from《classification and regression trees》
- asp.net页面事件:顺序与回传
- 使用OpenCV获取图像中某一点的像素值和修改某一点的像素值
- 【优秀作业】人工鱼群优化算法
- Linux性能优化(十三)——CPU性能测试
- RocKey4加密狗复制软件及教程
- Java——Arrays 类
- 思维导图-第三章-存货
- 小运营征战大市场,手游运营也需”千人千面” ——DT时代手游精细化运营解析
- ZoomIt、Snipaste、Typora 三剑客 - 屏幕讲演日常学习赞不绝口的利器
- 前端学习之路, 记录前端小白成长历程, 学习总结, 工具汇总, 打造开箱即用的学习体验
- BlazeFace:一种非典型专用检测器
- 正在获取服务器信息,正在获取远程列表服务器信息
- 蒙特卡洛算法及简单应用
- 解决Java记事本输出中文乱码问题
热门文章
- Python扫码登录保存和验证cookies值——网易云音乐篇(九)
- 软考高级软件架构师学习笔记一(软件架构设计)
- $.each与$().each
- 新辰:健身会所不是大人的菜 90后创业两年净赚20万
- 关键路径法(Critical Path Method, CPM)
- 青龙面板 Bot配置教程
- python打印日历_Python实战练习——打印日历教程
- el-date-picker的时间段限制(只允许选择当月的最后一天和下月的第一天)
- 关于CSS九宫格展示图片写法
- 大学一级课题c语言报告,c语言一级课题总结(16页)-原创力文档