在预测问题中,给定一个新的数据点,预测错误的期望是多少?
假设数据是独立同分布地从一个潜在固定的概率分布中获取的,假设其分布函数为 P ( &lt; x , y &gt; ) = P ( x ) P ( y ∣ x ) P(&lt;\textbf{x},y&gt;) = P(\textbf{x})P(y|\textbf{x}) P(<x,y>)=P(x)P(y∣x),我们的目标就是对任意给定的数据点 x x x, 求出 E P [ ( y − h ( x ) ) 2 ∣ x ] , E_P[(y−h(\textbf{x}))^2|\textbf{x}], EP​[(y−h(x))2∣x],其中,y 是数据集中 x \textbf{x} x 对应的值,期望是针对所有数据集,下标 P 表示所有数据集是从同一分布 P 中获取的。形式上,该值是某一点 x \textbf{x} x 在多个数据集上的预测错误的均值(期望)。
对于给定的假设集,我们可以计算出模型的真实错误(true error),也称泛化错误、测试错误 ∑ x E P [ ( y − h ( x ) ) 2 ∣ x ] P ( x ) , \sum_{\textbf{x}}E_P[(y−h(\textbf{x}))^2|\textbf{x}]P(\textbf{x}), x∑​EP​[(y−h(x))2∣x]P(x),即为 所有数据点 在那个输入数据的潜在固定分布上的预测错误的期望。如果 x \textbf{x} x 为连续变量,则上述求和转化成积分形式。
我们接下来将把 真实错误(true error) 一分为三: 真实错误 = 偏差 + 方差 + 噪声。 \textbf{真实错误 = 偏差 + 方差 + 噪声。} 真实错误 = 偏差 + 方差 + 噪声。
关于方差和期望的基本结论:
E [ X 2 ] = ( E [ X ] ) 2 + V a r [ X ] E ( X Y ) = E ( X ) E ( Y ) + C o v ( X , Y ) E[X^2] = (E[X])^2 + V ar[X]\\E(XY) = E(X)E(Y) + Cov(X,Y) E[X2]=(E[X])2+Var[X]E(XY)=E(X)E(Y)+Cov(X,Y)
先做一个简单展开:
E P [ ( y − h ( x ) ) 2 ∣ x ] &ThinSpace; = E P [ ( h ( x ) ) 2 − 2 y h ( x ) + y 2 ∣ x ] &ThinSpace; = E P [ ( h ( x ) ) 2 ∣ x ] + E P [ y 2 ∣ x ] − 2 E P [ y ∣ x ] E P [ h ( x ) ∣ x ] , … … ( 1 ) E_P[(y−h(\mathbf{x}))^2|\mathbf{x}] \\\,\\= E_P [(h(\mathbf{x}))^2 − 2yh(\mathbf{x}) + y^2|\mathbf{x}]\\\,\\=E_P [(h(\mathbf{x}))^2|\mathbf{x}] +E_P[y^2|\mathbf{x}] -2E_P[y|\mathbf{x}]E_P[h(\mathbf{x})|\mathbf{x}],……(1) EP​[(y−h(x))2∣x]=EP​[(h(x))2−2yh(x)+y2∣x]=EP​[(h(x))2∣x]+EP​[y2∣x]−2EP​[y∣x]EP​[h(x)∣x],……(1)
上式中包含三项。令 h ‾ ( x ) = E P [ h ( x ) ∣ x ] \overline{h}(\mathbf{x})=E_P[h(\mathbf{x})|\mathbf{x}] h(x)=EP​[h(x)∣x],表示点 x 在不同数据集上(分布P上)预测的均值(期望),则

第一项
运用方差的结论:平方的期望=期望的平方+方差
E P [ ( h ( x ) ) 2 ∣ x ] = ( h ‾ ( x ) ) 2 + E P [ ( h ( x ) − h ‾ ( x ) ) 2 ∣ x ] 。 … … ( 2 ) E_P [(h(\mathbf{x}))^2|\mathbf{x}]=(\overline{h}(\mathbf{x}))^2+E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}]。……(2) EP​[(h(x))2∣x]=(h(x))2+EP​[(h(x)−h(x))2∣x]。……(2)
第二项
运用方差的结论:平方的期望=期望的平方+方差
E P [ y 2 ∣ x ] = ( E P ( y ∣ x ) ) 2 + E P [ ( y − f ( x ) ) 2 ∣ x ] E_P [y^2|\mathbf{x}]=(E_P(y|\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] EP​[y2∣x]=(EP​(y∣x))2+EP​[(y−f(x))2∣x]
注意到 E P ( y ∣ x ) = E P ( f ( x ) + ϵ ∣ x ) = f ( x ) E_P(y|\mathbf{x}) = E_P(f(\mathbf{x})+\epsilon|\mathbf{x})=f(\mathbf{x}) EP​(y∣x)=EP​(f(x)+ϵ∣x)=f(x),其中 ϵ ∼ N ( 0 , σ ) \epsilon\sim N(0,\sigma) ϵ∼N(0,σ),故上式化为
E P [ y 2 ∣ x ] = ( f ( x ) ) 2 + E P [ ( y − f ( x ) ) 2 ∣ x ] 。 … … ( 3 ) E_P [y^2|\mathbf{x}]=(f(\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}]。……(3) EP​[y2∣x]=(f(x))2+EP​[(y−f(x))2∣x]。……(3)

将(2)(3)代入(1),得 E P [ ( y − h ( x ) ) 2 ∣ x ] &ThinSpace; = E P [ ( h ( x ) ) 2 ∣ x ] + E P [ y 2 ∣ x ] − 2 f ( x ) h ‾ ( x ) &ThinSpace; = ( h ‾ ( x ) ) 2 + E P [ ( h ( x ) − h ‾ ( x ) ) 2 ∣ x ] + ( f ( x ) ) 2 + E P [ ( y − f ( x ) ) 2 ∣ x ] − 2 f ( x ) h ‾ ( x ) &ThinSpace; = E P [ ( h ( x ) − h ‾ ( x ) ) 2 ∣ x ] + ( f ( x ) − h ‾ ( x ) ) 2 + E P [ ( y − f ( x ) ) 2 ∣ x ] 。 … … ( ∗ ) E_P[(y−h(\mathbf{x}))^2|\mathbf{x}] \\\,\\=E_P [(h(\mathbf{x}))^2|\mathbf{x}] +E_P[y^2|\mathbf{x}] -2f(\mathbf{x})\overline{h}(\mathbf{x}) \\\,\\=(\overline{h}(\mathbf{x}))^2+E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] \\+ (f(\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] \\-2f(\mathbf{x})\overline{h}(\mathbf{x}) \\\,\\=E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] +(f(\mathbf{x})-\overline{h}(\mathbf{x}))^2 + E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] 。……(*) EP​[(y−h(x))2∣x]=EP​[(h(x))2∣x]+EP​[y2∣x]−2f(x)h(x)=(h(x))2+EP​[(h(x)−h(x))2∣x]+(f(x))2+EP​[(y−f(x))2∣x]−2f(x)h(x)=EP​[(h(x)−h(x))2∣x]+(f(x)−h(x))2+EP​[(y−f(x))2∣x]。……(∗)
大功告成!!!!!!!!!!!!!!!!!!!!!!!!!!!!

  • E P [ ( h ( x ) − h ‾ ( x ) ) 2 ∣ x ] E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] EP​[(h(x)−h(x))2∣x] 为 预测的 方差
  • ( f ( x ) − h ‾ ( x ) ) 2 (f(\mathbf{x})-\overline{h}(\mathbf{x}))^2 (f(x)−h(x))2 为 平方偏差
  • E P [ ( y − f ( x ) ) 2 ∣ x ] E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] EP​[(y−f(x))2∣x] 为 噪声

机器学习中的方差偏差分析(Bias-variance analysis)相关推荐

  1. 一文读懂机器学习中的模型偏差

    一文读懂机器学习中的模型偏差 http://blog.sina.com.cn/s/blog_cfa68e330102yz2c.html 在人工智能(AI)和机器学习(ML)领域,将预测模型参与决策过程 ...

  2. 机器学习中的方差与偏差

    方差与偏差的定义 方差:不同的训练数据集训练出的模型输出值之间的差异. 偏差:用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异. 方差与偏差的数学公式 首先,以回归为例 ...

  3. 机器学习中的方差和偏差理解

    一.Bias(偏差) & Variance(方差) 偏差:描述的是预测值(估计值)的期望与真实值之间的差距.偏差越大,越偏离真实数据,如下图第二行所示. 方差:描述的是预测值的变化范围,离散程 ...

  4. 偏见方差的权衡(Bias Variance Tradeoff)

    统计学习中有一个重要概念叫做residual sum-of-squares RSS看起来是一个非常合理的统计模型优化目标.但是考虑k-NN的例子,在最近邻的情况下(k=1),RSS=0,是不是

  5. 深入理解机器学习——偏差(Bias)与方差(Variance)

    分类目录:<深入理解机器学习>总目录 偏差(Bias)与方差(Variance)是解释学习算法泛化性能的一种重要工具.偏差方差分解试图对学习算法的期望泛化错误率进行拆解,我们知道,算法在不 ...

  6. 2.5 数据不匹配时,偏差和方差的分析-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 2.4 在不同的划分上进行训练并测试 回到目录 2.6 定位数据不匹配 数据不匹配时,偏差和方差的分析 (Bias and Variance with Mismatched ...

  7. 机器学习中的统计学基础

    一.什么是统计学 是一门收集.整理和分析统计数据的方法科学 其目的是探索数据内在的数据规律性,以达到对客观事物的科学认识 统计学研究随机现象,以推断为特征,"由部分及全体"的思想贯 ...

  8. 机器学习中的7种数据偏见

    作者 | Hengtee Lim 翻译 | Katie,责编 | 晋兆雨 出品 | AI科技大本营 头图 | 付费下载于视觉中国 机器学习中的数据偏差是一种错误,其中数据集的某些元素比其他元素具有更大 ...

  9. 什么是3D偏差分析?浩辰3D偏差分析应用技巧

    3D偏差分析又称挣得值法或偏差分析法,是对项目进度和费用进行综合控制的一种有效方法.偏差分析的价值在于将项目的进度和费用进行综合度量,从而能准确描述项目的进展状态.由浩辰CAD公司研发的浩辰3D设计软 ...

最新文章

  1. docker制作镜像篇(基于容器)
  2. 图神经网络学习一(浅谈embedding)
  3. 按键精灵文字识别插件_按键精灵——如何实现办公自由(二)
  4. java 正则表达式 Pattern
  5. 别怀疑,孩子在家里也能学编程!
  6. SQL Server 触发器--备忘
  7. eos操作系统_【EOS币资讯】EOS币与以太坊有什么不同?
  8. 集成阿里云视频播放器
  9. 掌握这4个Word小技巧, 助您论文排版事半功倍~
  10. html引用less文件报错,vue-cli import less文件报错
  11. 希捷、西数、日立4TB硬盘大乱斗
  12. [软件更新]vidalia 0.2.0.32
  13. 脑袋里是浆糊时的c++程序
  14. 什么是 docker?docker和虚拟机有什么差别和不同?
  15. 微信文章如何自动排版
  16. 在 linux 中管理罗技优联接收器
  17. (四十二)模态框的使用
  18. 【CTO论道】京东商城李大学:京东研发团队管理经验谈
  19. 设计模式-责任型模式(责任链模式)
  20. java 截屏 效率_Java:在Windows里实现快速截图

热门文章

  1. iptv酒店解决方案
  2. TI高精度实验室-运算放大器-第九节-低失真运算放大器的设计
  3. kanzi studio显示性能hud
  4. pick pick_使用Pick&Zip从您的Facebook帐户下载图片
  5. elementui 双击el-table表格展示输入框修改数据
  6. Java面向对象三大特性(封装、继承、多态)
  7. 美容美发店会员系统管理方案
  8. 好书推荐--《态度》-吴军著
  9. catia如何将曲面加厚变为实体_catia中如何将封闭曲面做成实体?
  10. V免签PHP二开版源码兼容所有易支付接口系统