概念

偏差: 描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据集。

(Ps:假设靶心是最适合给定数据的模型,离靶心越远,我们的预测就越糟糕)

方差: 描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,预测结果数据的分布越散。

基于偏差的误差: 所谓基于偏差的误差是我们模型预期的预测与我们将要预测的真实值之间的差值。偏差是用来衡量我们的模型的预测同真实值的差异。

基于方差的误差: 基于方差的误差描述了一个模型对给定的数据进行预测的可变性。比如,当你多次重复构建完整模型的进程时,方差是,在预测模型的不同关系间变化的多少。

接下来,我们把四张图合并起来:

解释:
左上:低偏差,低方差。表现出来就是,预测结果准确率很高,并且模型比较健壮(稳定),预测结果高度集中。

右上:低偏差,高方差。表现出来就是,预测结果准确率较高,并且模型不稳定,预测结果比较发散。

左下:高偏差,低方差。表现出来就是,预测结果准确率较低,但是模型稳定,预测结果比较集中。

右下:高偏差,高方差。表现出来就是,预测结果准确率较低,模型也不稳定,预测结果比较发散。

举个例子,让你二次开窍

想象你开着一架黑鹰直升机,得到命令攻击地面上一只敌军部队,于是你连打数十梭子,结果有一下几种情况:

1.子弹基本上都打在队伍经过的一棵树上了,连在那棵树旁边等兔子的人都毫发无损,这就是方差小(子弹打得很集中),偏差大(跟目的相距甚远)。

2.子弹打在了树上,石头上,树旁边等兔子的人身上,花花草草也都中弹,但是敌军安然无恙,这就是方差大(子弹到处都是),偏差大(跟目的相距甚远)。

3.子弹打死了一部分敌军,但是也打偏了些打到花花草草了,这就是方差大(子弹不集中),偏差小(已经在目标周围了)。

4.子弹一颗没浪费,每一颗都打死一个敌军,跟抗战剧里的八路军一样,这就是方差小(子弹全部都集中在一个位置),偏差小(子弹集中的位置正是它应该射向的位置)。

方差,是形容数据分散程度的,算是“无监督的”,客观的指标,偏差,形容数据跟我们期望的中心差得有多远,算是“有监督的”,有人的知识参与的指标。

三次理解

偏差(bias):对象是单个模型, 期望输出与真实标记的差别。

方差(Variance):对象是多个模型,表示多个模型差异程度。

以上图为例:
1. 左上的模型偏差最大,右下的模型偏差最小;
2. 左上的模型方差最小,右下的模型方差最大

为了理解第二点,可以看下图。蓝色和绿色分别是同一个训练集上采样得到的两个训练子集,由于采取了复杂的算法去拟合,两个模型差异很大。如果是拿直线拟合的话,显然差异不会这么大。

一般来说,偏差、方差和模型的复杂度之间的关系如下图所示:

越复杂的模型偏差越小,而方差越大。

我们用一个参数少的,简单的模型进行预测,会得到低方差,高偏差,通常会出现欠拟合。

而我们用一个参数多的,复杂的模型进行预测,会得到高方差,低偏差,通常出现过拟合。


实际中,我们需要找到偏差和方差都较小的点。从上图可以看出在偏差和方差都较小的点处,total Error是最少的。

XGBOOST中,我们选择尽可能多的树,尽可能深的层,来减少模型的偏差;
通过cross-validation,通过在验证集上校验,通过正则化,来减少模型的方差从而获得较低的泛化误差。

拓展

数学上的定义:

我们定义我们要预测的变量为Y,协变量为X,我们假设有Y=f(X)+ϵ,其中误差项服从均值为0的正态分布.
我们用线性回归或者别的模型来估计f(X) 为.其中,对x来说,误差为:

将上式展开,然后用偏差和方差表述:

注意:最后一项为噪声,是无法通过模型降低的。

通过上面的式子也可看出,要使得误差低,就要使得偏差和方差都要低。

参考文献

为了帮助理解,尤其是拓展部分,可以参考一下参考文献

  1. 理解机器学习中的偏差与方差
  2. Understanding the Bias-Variance Tradeoff

高/低方差、高/低偏差相关推荐

  1. 什么是高/低方差、高/低偏差、(推荐阅读)

    2021071 https://www.pianshen.com/article/71161696005/ 方差是对多个样本集的比较而言? 摘要:在现实任务中,我们往往有多种学习算法可供选择,甚至对同 ...

  2. matlab哈明窗带阻,基于matlabFIR低通,高通,带通,带阻滤波器设计.doc

    基于matlabFIR低通,高通,带通,带阻滤波器设计 课 程 设 计 报 告 课程名称: DSP 设计名称:FIR 低通.高通带通和带阻数字滤波器的设计 姓 名: 学 号: 班 级: 指导教师: 起 ...

  3. 【3d建模】零基础入门要学的这些中模阶段、高模阶段、低模阶段和贴图

    ​3d游戏建模次世代角色模型制作整个制作的流程分为:原画设定阶段.中模阶段.高模阶段.低模阶段和贴图. 原画设定阶段 关于此阶段的审核 此阶段需要自我审核,如果有疑问需要和组长.负责人以及主美进行沟通 ...

  4. MurmurHash算法:高运算性能,低碰撞率的hash算法

    MurmurHash算法:高运算性能,低碰撞率,由Austin Appleby创建于2008年,现已应用到Hadoop.libstdc++.nginx.libmemcached等开源系统.2011年A ...

  5. 计算机语言低下限高上限,原神双雷阵容厉不厉害

    原神游戏的玩法多种多样,并且还有许多未知的世界等待玩家们探索.很多朋友想知道原神双雷阵容怎么样?下面小编为大家准备了详细的内容,快来跟我一起看看吧! 原神双雷队使用效果分享 双雷队建队核心:北斗+菲谢 ...

  6. 到底什么是面向对象,面试中怎么回答。面向过程和面向对象的区别是什么。java跨平台特性以及java和C++的区别。面向对象的三大特性——封装、继承和多态。面向对象的高拓展性以及低耦合度怎么体现?

    Java语言具有的特点:面向对象.跨平台.多线程以及网络编程 1. 和C++的区别 1.1 Java隐蔽了C++的指针,避免指针直接操作,程序更加安全. 1.2 Java类继承只能单继承,避免了C++ ...

  7. webpack 4.14.0 版本太高,无法执行相关指令,(将webpack高版本切换到低版本)--直接覆盖

    (1)问题: webpack 4.14.0 版本太高,无法执行相关指令, (2) 解决办法:将高版本切换到低版本 (3)实现 webpack 4.14.0 版本太高,无法执行相关指令,指令不熟悉,高版 ...

  8. 如果淘宝双十一架构用. Net Core,如何“擒住”高并发、高可用、低延迟?

    电商的秒杀和抢购,对我们来说,都不是一个陌生的东西.然而,从技术的角度来说,这对于Web系统是一个巨大的考验.当一个Web系统,在一秒钟内收到数以万计甚至更多请求时,系统的优化和稳定至关重要. 缓存技 ...

  9. Java应该是更高级别还是更低级别?

    总览 Java 8带来了许多简化的功能,例如Lambda表达式, 类型注释和虚拟扩展 . 尽管此功能很重要:a)有价值,b)赶上较凉的语言,但是这些更丰富,更高级的功能是Java应当重点关注的领域. ...

最新文章

  1. poj2305-Basic remains(进制转换 + 大整数取模)
  2. 安装rocketmq并配置管理界面
  3. hdu1999 不可摸数 好题.
  4. me21n增强BADI:ME_PROCESS_PO_CUST之process_account
  5. linux下怎么退出telnet
  6. 从运维角度浅谈MySQL数据库优化
  7. pip 安装模块时报“pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonh”
  8. 《计算机网络基础》第一套作业,东财在线21春《计算机网络基础》第一套作业【标准答案】...
  9. js对象写入键值对_41 利用字面量创建对象
  10. CISA 已遭利用漏洞列表新增17项
  11. eclipse中设置java注释模板
  12. SQL Server 2012安装错误案例:Error while enabling Windows feature: NetFx3, Error Code: -2146498298...
  13. for update引发了血案
  14. 【spring Boot】spring boot获取资源文件的三种方式【两种情况下】
  15. Python pdf 转jpg/png工具
  16. 用python做股票因子分析_关于SPSS因子分析的几点总结
  17. LayIM 3.9.1与ASP.NET SignalR实现Web聊天室快速入门(一)之效果展示与关键技术简介
  18. renderTo和applyTo的区别
  19. 02:一文全解:利用谷歌深度学习框架Tensorflow识别手写数字图片(初学者篇)
  20. tcp/ip详解卷一总结

热门文章

  1. Google如何识别重复内容的主要版本
  2. ubuntu/centos下安装bcompare
  3. windows 7 下cuda 9.0 卸载、cuda8.0 安装
  4. js 动态控制 input 框 的只读属性
  5. 经历一周的远程办公,你还期待天天在家上班吗?
  6. linux上tomcat版本信息,Linux 查看Tomcat版本信息
  7. Windows Phone 8.1 新特性 - 控件之列表选择控件
  8. 木块砌墙算法(C#源码)
  9. 【软件测试】QQ登录测试用例+水杯测试用例+微信发红包测试用例
  10. 市场正被ERP软件厂商涸泽而渔