过度拟合

什么是过度拟合?

线性回归的过度拟合

在线性回归问题中,我们用了直线方程,二次方程,高次方程来拟合数据集,如图:

显然直线方程没有很好的拟合数据集,是欠拟合,存在着高误差

二次方程 是一个很好的拟合模型。

高次方程虽然经过每一个数据样本,但曲线过于曲折,并不认为它是一个好的模型。 称为过拟合。另一个描述该问题的术语是:高方差

高方差: 我们用一个函数拟合数据样本时,这个函数能很好的拟合训练集,能够拟合几乎所有的训练数据,这就可能面临函数太过庞大的问题,变量过多,同时如果我们没有足够的数据去约束变量过多的模型,那么这就是过度拟合

概括的讲,过度拟合在变量过多的时候发生,这时候训练出来的方程总能很好的拟合训练数据,所有你的代价函数,实际上可能非常接近于0,这样就导致方程无法泛化到新的数据样本中,以至于无法预测新样本的价格

泛化指的是一个假设模型能够引用到新样本的能力。

逻辑回归的过度拟合

以下面这个数据集样本为例:

显然,用直线作为逻辑回归函数时同样存在欠拟合,假设模型存在高偏差

图二中添加了二次项后正好能够很好的拟合数据集。

而添加更多的高此项后,拟合过度,函数模型自身曲线扭曲,并不能很好的预测新样本。即不能泛化到新样本。

如何解决过度拟合的问题:

可以通过绘画函数图形来绘制合适的多项式阶次。但当有很多个变量的时候,画函数图形并不是很好的方法。

第一个办法是尽量减少选取变量的数量,具体而言,我们可以人工检查变量的条目,并以此决定哪些变量更为重要,然后决定哪些变量应该保留,哪些应该舍弃。

第二个方法计算正则化。正则化中将保留所有的特征变量。但是我们将减少数量级或参数数值的大小。这是一个很好的方法,因为每一个变量我们都使用到了。
————————————————————

机器学习 学习总结 第五章 在监督学习中什么是过度拟合问题?相关推荐

  1. 吴恩达机器学习学习笔记第七章:逻辑回归

    分类Classification分为正类和负类 (规定谁是正谁是负无所谓) 吴恩达老师举例几个例子:判断邮箱是否是垃圾邮箱 一个在线交易是否是诈骗 一个肿瘤是良性的还是恶性 如果我们用之前学习的lin ...

  2. 李弘毅机器学习笔记:第十五章—半监督学习

    李弘毅机器学习笔记:第十五章-半监督学习 监督学习和半监督学习 半监督学习的好处 监督生成模型和半监督生成模型 监督生成模型 半监督生成模型 假设一:Low-density Separation Se ...

  3. Programming Entity Framework-dbContext 学习笔记第五章

    ### Programming Entity Framework-dbContext 学习笔记 第五章 将图表添加到Context中的方式及容易出现的错误 方法 结果 警告 Add Root 图标中的 ...

  4. 《Go语言圣经》学习笔记 第五章函数

    <Go语言圣经>学习笔记 第五章 函数 目录 函数声明 递归 多返回值 匿名函数 可变参数 Deferred函数 Panic异常 Recover捕获异常 注:学习<Go语言圣经> ...

  5. 《SysML精粹》学习记录--第五章

    <SysML精粹>学习记录 第五章:用例图(Use Case Diagram) 用例图简介 用例图外框 小结 第五章:用例图(Use Case Diagram) 用例图简介   用例图可以 ...

  6. 李弘毅机器学习笔记:第五章—分类

    李弘毅机器学习笔记:第五章-分类 例子(神奇宝贝属性预测) 分类概念 神奇宝贝的属性(水.电.草)预测 回归模型 vs 概率模型 回归模型 其他模型(理想替代品) 概率模型实现原理 盒子抽球概率举例 ...

  7. eclipse学习(第三章:ssh中的Hibernate)——7.Hibernate使用注释开发

    eclipse学习(第三章:ssh中的Hibernate)--7.Hibernate中的注释 前言 项目实践 1.初始化项目及jar包拉取 2.mysql数据结构 3.创建hibernate.cfg. ...

  8. Visual C++ 2008入门经典 第十五章 在窗口中绘图

    /*第十五章 在窗口中绘图 主要内容: 1 Windows为窗口绘图提供的坐标系统 2 设置环境及其必要性 3 程序如何以及在窗口中绘图 4 如何定义鼠标消息的处理程序 5 如何定义自己的形状类 6 ...

  9. 《Dreamweaver CS6 完全自学教程》笔记 第五章:网页中的图像编辑

    文章目录 第五章:网页中的图像编辑 5.1 图像占位符 5.1.1 插入图像占位符 5.1.2 将图像占位符替换为图像 技术专题:预览网页时不显示图像的问题 5.2 交互式图像 实战:创建网页导航条 ...

最新文章

  1. 1057 Stack
  2. 信息系统监理师题库_信息系统监理题库
  3. 字节二面,让写一个LFU缓存策略算法,懵了
  4. CodeForces999E 双dfs // 标记覆盖 // tarjan缩点
  5. SAP CRM WebClient UI Excel Export的运行时执行明细
  6. nodejs开发 过程中express路由与中间件的理解 - pyj063 - 博客园
  7. method=post 怎么让查看源代码看不到_网上文档无法复制怎么办?试试这几个方法!...
  8. 在vmware中创建共享磁盘
  9. 腾讯广告X中科院计算所WWW2021论文:在线广告中的探索与优化
  10. nginx - 性能优化
  11. 【Unity】第5章 3D坐标系和天空盒
  12. Maven3生命周期和插件
  13. [2018.09.05 T1] Lyk Love painting
  14. Android和iPhone浏览器大战,第1部分,WebKit抢救
  15. html+jQuery实现拖动滑块图片拼图验证码插件,移动端适用
  16. knockoutjs三 text和apperance的绑定
  17. efficientNet论文心得
  18. 机械制造技术类毕业论文文献都有哪些?
  19. Android 暗黑模式适配
  20. 上海流浪汉沈_流浪汉,木偶和Mozilla,我的天哪

热门文章

  1. Keil代码自动排版配置工具AStyle
  2. 《恒盛策略》政策利好叠加增长态势向好 电信运营商估值或迎持续重塑
  3. 华为手机 roomba_如何设置Wi-Fi连接的Roomba
  4. 成长中必须知道的10个故事 也是做人,做营销必须知道的故事
  5. 如何打开sqllite的.db文件方法
  6. 服务器系统家用是否合适,服务器主机好还是家用主机好
  7. 英伟达NVIDIA JETSON新品推出Jetson Orin NX
  8. 蓝桥杯 The Great Wall Game Java 二分图 KM算法
  9. linux ascii与字符相互转换,ascii 字符串和16进制相互转换
  10. JZOJ-senior-5945. 【NOIP2018模拟11.02】昆特牌(gwent)