机器学习 学习总结 第五章 在监督学习中什么是过度拟合问题?
过度拟合
什么是过度拟合?
线性回归的过度拟合
在线性回归问题中,我们用了直线方程,二次方程,高次方程来拟合数据集,如图:
显然直线方程没有很好的拟合数据集,是欠拟合,存在着高误差,
二次方程 是一个很好的拟合模型。
高次方程虽然经过每一个数据样本,但曲线过于曲折,并不认为它是一个好的模型。 称为过拟合。另一个描述该问题的术语是:高方差
高方差: 我们用一个函数拟合数据样本时,这个函数能很好的拟合训练集,能够拟合几乎所有的训练数据,这就可能面临函数太过庞大的问题,变量过多,同时如果我们没有足够的数据去约束变量过多的模型,那么这就是过度拟合。
概括的讲,过度拟合在变量过多的时候发生,这时候训练出来的方程总能很好的拟合训练数据,所有你的代价函数,实际上可能非常接近于0,这样就导致方程无法泛化到新的数据样本中,以至于无法预测新样本的价格
泛化指的是一个假设模型能够引用到新样本的能力。
逻辑回归的过度拟合
以下面这个数据集样本为例:
显然,用直线作为逻辑回归函数时同样存在欠拟合,假设模型存在高偏差。
图二中添加了二次项后正好能够很好的拟合数据集。
而添加更多的高此项后,拟合过度,函数模型自身曲线扭曲,并不能很好的预测新样本。即不能泛化到新样本。
如何解决过度拟合的问题:
可以通过绘画函数图形来绘制合适的多项式阶次。但当有很多个变量的时候,画函数图形并不是很好的方法。
第一个办法是尽量减少选取变量的数量,具体而言,我们可以人工检查变量的条目,并以此决定哪些变量更为重要,然后决定哪些变量应该保留,哪些应该舍弃。
第二个方法计算正则化。正则化中将保留所有的特征变量。但是我们将减少数量级或参数数值的大小。这是一个很好的方法,因为每一个变量我们都使用到了。
————————————————————
机器学习 学习总结 第五章 在监督学习中什么是过度拟合问题?相关推荐
- 吴恩达机器学习学习笔记第七章:逻辑回归
分类Classification分为正类和负类 (规定谁是正谁是负无所谓) 吴恩达老师举例几个例子:判断邮箱是否是垃圾邮箱 一个在线交易是否是诈骗 一个肿瘤是良性的还是恶性 如果我们用之前学习的lin ...
- 李弘毅机器学习笔记:第十五章—半监督学习
李弘毅机器学习笔记:第十五章-半监督学习 监督学习和半监督学习 半监督学习的好处 监督生成模型和半监督生成模型 监督生成模型 半监督生成模型 假设一:Low-density Separation Se ...
- Programming Entity Framework-dbContext 学习笔记第五章
### Programming Entity Framework-dbContext 学习笔记 第五章 将图表添加到Context中的方式及容易出现的错误 方法 结果 警告 Add Root 图标中的 ...
- 《Go语言圣经》学习笔记 第五章函数
<Go语言圣经>学习笔记 第五章 函数 目录 函数声明 递归 多返回值 匿名函数 可变参数 Deferred函数 Panic异常 Recover捕获异常 注:学习<Go语言圣经> ...
- 《SysML精粹》学习记录--第五章
<SysML精粹>学习记录 第五章:用例图(Use Case Diagram) 用例图简介 用例图外框 小结 第五章:用例图(Use Case Diagram) 用例图简介 用例图可以 ...
- 李弘毅机器学习笔记:第五章—分类
李弘毅机器学习笔记:第五章-分类 例子(神奇宝贝属性预测) 分类概念 神奇宝贝的属性(水.电.草)预测 回归模型 vs 概率模型 回归模型 其他模型(理想替代品) 概率模型实现原理 盒子抽球概率举例 ...
- eclipse学习(第三章:ssh中的Hibernate)——7.Hibernate使用注释开发
eclipse学习(第三章:ssh中的Hibernate)--7.Hibernate中的注释 前言 项目实践 1.初始化项目及jar包拉取 2.mysql数据结构 3.创建hibernate.cfg. ...
- Visual C++ 2008入门经典 第十五章 在窗口中绘图
/*第十五章 在窗口中绘图 主要内容: 1 Windows为窗口绘图提供的坐标系统 2 设置环境及其必要性 3 程序如何以及在窗口中绘图 4 如何定义鼠标消息的处理程序 5 如何定义自己的形状类 6 ...
- 《Dreamweaver CS6 完全自学教程》笔记 第五章:网页中的图像编辑
文章目录 第五章:网页中的图像编辑 5.1 图像占位符 5.1.1 插入图像占位符 5.1.2 将图像占位符替换为图像 技术专题:预览网页时不显示图像的问题 5.2 交互式图像 实战:创建网页导航条 ...
最新文章
- 1057 Stack
- 信息系统监理师题库_信息系统监理题库
- 字节二面,让写一个LFU缓存策略算法,懵了
- CodeForces999E 双dfs // 标记覆盖 // tarjan缩点
- SAP CRM WebClient UI Excel Export的运行时执行明细
- nodejs开发 过程中express路由与中间件的理解 - pyj063 - 博客园
- method=post 怎么让查看源代码看不到_网上文档无法复制怎么办?试试这几个方法!...
- 在vmware中创建共享磁盘
- 腾讯广告X中科院计算所WWW2021论文:在线广告中的探索与优化
- nginx - 性能优化
- 【Unity】第5章 3D坐标系和天空盒
- Maven3生命周期和插件
- [2018.09.05 T1] Lyk Love painting
- Android和iPhone浏览器大战,第1部分,WebKit抢救
- html+jQuery实现拖动滑块图片拼图验证码插件,移动端适用
- knockoutjs三 text和apperance的绑定
- efficientNet论文心得
- 机械制造技术类毕业论文文献都有哪些?
- Android 暗黑模式适配
- 上海流浪汉沈_流浪汉,木偶和Mozilla,我的天哪
热门文章
- Keil代码自动排版配置工具AStyle
- 《恒盛策略》政策利好叠加增长态势向好 电信运营商估值或迎持续重塑
- 华为手机 roomba_如何设置Wi-Fi连接的Roomba
- 成长中必须知道的10个故事 也是做人,做营销必须知道的故事
- 如何打开sqllite的.db文件方法
- 服务器系统家用是否合适,服务器主机好还是家用主机好
- 英伟达NVIDIA JETSON新品推出Jetson Orin NX
- 蓝桥杯 The Great Wall Game Java 二分图 KM算法
- linux ascii与字符相互转换,ascii 字符串和16进制相互转换
- JZOJ-senior-5945. 【NOIP2018模拟11.02】昆特牌(gwent)