李宏毅机器学习2022.07.15--误差
1.误差
误差的来源一般来自于偏值与方差
f^ 为真实的模型,f为理想模型。f是f^ 的一个预估。而二者之间的差距是由偏值和方差所产生的。
1.2 偏差的评估
假设 x的平均值是μ,方差为 σ^2 。
在计算M组N个样本点的平均值后,对于M的期望值等于其μ,也称为无偏值估计,如下式:
当N越小时,则越离散。分布距离取决于
而σ^2取决于样本的数量。
1.3 方差的评估
先预测M后,再计算S^2估测样本的σ ^2。如下
而S^2的期望值普遍比σ ^2小的多,如果N增大,则分布距离会变小。
1.4 不同的模型的偏差和方差
1.4.1 不同模型的方差
一次模型分布方差较小,分布也比较集中。而对于多次模型方差较大,分布也比较分散。
1.4.2 不同模型的偏差
简单的模型有较大的偏差,分布也比较紧密,而对于复杂的模型偏差较小,分布也比较广。复杂模型在分布区域可能更为接近目标真实函数。
1.5 过拟合和欠拟合
过拟合:即训练样本效果较好,而测试样本效果却比较差。方差过大容易导致过拟合现象。
欠拟合:模型训练训练样本效果差,即偏差太大。
1.5.1 过拟合的解决办法
1.增加数据,或根据问题的理解去制造更多的数据
2.调整数据集。一般来说参数越小越好,曲线越平滑越好。
1.5.2 欠拟合的解决办法
总体来说需要重新设计模型,
1.增加更多的输入特征
2.考虑更复杂模型
1.6 模型的选择
不要根据模型的测试样本效果就想当然的选择模型。可能会导致实际的测试样本效果偏差大于之前的测试样本值。
1.6.1交叉验证
模型的选择需要较差验证。将训练集分为训练集和测试集,用训练集来训练模型,用测试集来验证。确定好最佳的模型后。再使用全部的训练集去训练最佳模型,在使用测试集进行训练查看效果。
如果担心拆分训练集之后影响到效果,可以考虑N-交叉验证
1.6.2 N-交叉验证
将训练集差分成N份,N-1份训练集,1份验证集。对于不同的模型的误差求各模型的平均值来判断最佳模型。再使用训练集来训练最佳模型。
李宏毅机器学习2022.07.15--误差相关推荐
- 李宏毅机器学习2022 HW1
李宏毅机器学习2022版 Homework1 新冠阳性人数预测,根据前四天的数据,预测第五天的阳性人数.(回归) 首先下载数据集 !gdown --id '1kLSW_-cW2Huj7bh84YTdi ...
- 【李宏毅机器学习】03:误差Error
李宏毅机器学习03:误差Error 文章目录 李宏毅机器学习03:误差Error 一.Bias & Variance 偏差和方差 1.误差的来源 2.偏差和方差的理解 3.偏差和方差出现的原因 ...
- 李宏毅机器学习2022年春季班马上开始,深度学习圣经《深度学习》下载。
李宏毅(Hung-yi Lee)目前任台湾大学电机工程学系和电机资讯学院的助理教授,他曾于2010 年和2012 年分别获得台湾大学硕士和博士学位,并于 2013 年赴麻省理工学院(MIT)计算机科学 ...
- 李宏毅机器学习-explainable machine learning(机器学习的可解释性)及代码
目录 为什么需要机器学习的可解释性? Interpretable VS Powerful 什么叫做好的 Explanation explainable ML的分类 Local Explanation( ...
- 【李宏毅机器学习2021】Task01 机器学习介绍
[李宏毅机器学习2021]本系列是针对datawhale<李宏毅机器学习-2022>的学习笔记.本次是对机器学习介绍的学习总结.本节通过学习视频了解到李老师对机器学习课程的整体安排,介绍了 ...
- 【知识索引】【李宏毅机器学习】
李宏毅机器学习知识索引 本文为[李宏毅机器学习]知识索引 文章目录 李宏毅机器学习知识索引 1.[李宏毅机器学习]01:机器学习介绍 Introduction 2.[李宏毅机器学习]02:回归Regr ...
- 【李宏毅机器学习2021】Task04 深度学习介绍和反向传播机制
[李宏毅机器学习2021]本系列是针对datawhale<李宏毅机器学习-2022 10月>的学习笔记.本次是对深度学习介绍和反向传播机制的学习总结.本节针对上节课内容,对batch.梯度 ...
- 李宏毅svm_【李宏毅机器学习笔记】 18、支持向量机(Support Vector Machine,SVM)...
[李宏毅机器学习笔记]1.回归问题(Regression) [李宏毅机器学习笔记]2.error产生自哪里? [李宏毅机器学习笔记]3.gradient descent [李宏毅机器学习笔记]4.Cl ...
- 【李宏毅机器学习笔记】 23、循环神经网络(Recurrent Neural Network,RNN)
[李宏毅机器学习笔记]1.回归问题(Regression) [李宏毅机器学习笔记]2.error产生自哪里? [李宏毅机器学习笔记]3.gradient descent [李宏毅机器学习笔记]4.Cl ...
最新文章
- 软件测试2019:第二次作业
- 网络营销——网站在网络营销优化中不收录了怎么办呢?
- effective c++ 条款20:宁以pass-by-reference-to-const替换pass-by-value
- 【第四周作业】参加项目开发之后的一些体会
- ucinet使用手册_ucinet使用手册
- swift加密_如何使用Swift和Laravel创建加密跟踪应用程序的后端
- 初学者python笔记(hashlib加密、logging日志模块、configparser配置文件)
- Cocos2d-html5 2.2.2的屏幕适配方案
- 【linux系统学习笔记】Linux系统初识
- 3.数据库操作相关术语,Oracle认证,insert into,批量插入,update tablename set,delete和truncate的差别,sql文件导入...
- java并发编程实战电子书,王者笔记!
- hadoop基础【Shuffle全部流程、OutputFormat输出、ReduceJoin案例实操】
- 嵌入式单片机学习入门到大牛
- [渝粤教育] 西南交通大学 土木工程试验与量测技术 参考 资料
- 什么是uclinux?
- 我用Python爬取美食网站3032个菜谱并分析,真香!
- AlphaZero登上Science封面:从小白开始制霸多个游戏
- Centos jenkins 插件安装失败
- 制作启动U盘后出现“CD驱动器”问题
- Linux云计算虚拟化-使用rancher搭建k8s集群并发布电商网站