机器学习提纲 模型评估和选择
【只是提纲,不完整,有空更新】
1.错误率、精度。
2.误差:学习器的实际预测输出和真实输出的差异。学习器在训练集上的误差称为训练误差或者经验误差。在新样本上的误差称为泛化误差。由于新样本是未知的,我们实际能做的是最小化经验误差。
3.经验误差为0是不是我们的目标呢?当然不是!这样就发生了过拟合。
过拟合(overfitting):很可能把一些属于样本自身的特点学习到了,当作所有潜在样本的一般性质,泛化能力下降。
欠拟合(underfitting):对训练样本的一般特性尚未学好。
4.过拟合可否消除?当然不可能!只能缓解。ML的问题大多是NP-hard问题,而有效的学习算法必然是在多项式时间内完成,如果认为可以避免过拟合,那也就意味着经验误差最小化获得最优解,也就是说构造性地证明了P=NP。
5.模型选择(Model Selection):不同参数、不同学习算法就会有不同模型。那我们要如何选择呢?
6.模型评估:
主要思想:将数据集分成训练集S和测试集T。
主要方法:
(a)留出法(hold-out):将数据集D划分成两个互斥集合S和T。注意点:
1)采用分层抽样(stratified sampling)。让正样本和负样本在S和T的比例大致相同,保持数据分布的一致性,避免数据划分引入额外偏差。
2)重复实验取平均值。由于集合划分有多种,单次使用留出法的结果往往不可靠,因此采用多次随机划分、多次实验评估取平均值作为评估结果。
3)一般采用1/3-1/5的样本作为测试集。
(b)交叉验证(cross validation):将数据集D划分成k个大小相似的互斥子集,每次选择其中1个作为测试集T,剩余k-1个作为训练集,这样就有了k组训练/测试集,将k次的评估结果的平均值作为评估结果。注意点:
1)k值关系到结果的保真性和稳定性。k通常取10,称为k折交叉验证(k-fold cross validation)。
2)与留出法相似,通常也多次随机划分、多次实验评估取平均值作为评估结果。
c)自助法
7.混淆矩阵
8.查全率、查准率
9.二分类问题的性能比较
1)包住
2)BEP(Break-even Point)平衡点
3)F1度量
4)度量
(未完待续)
参考资料:周志华《机器学习》
机器学习提纲 模型评估和选择相关推荐
- [机器学习]1模型评估与选择
模型评估与选择 目录 文章目录 模型评估与选择 目录 第二章 模型评估与选择 评估方法 性能度量 比较检验 第二章 模型评估与选择 评估方法 对数据集D产生训练集S和测试集T的方法: 留出法 直接划分 ...
- 【机器学习】模型评估与选择(实战)
模型评估与选择(实战) 目录 一.准备工作(设置 jupyter notebook 中的字体大小样式等) 二.数据集读取与查看 三.交叉验证实验 1.划分数据集并置乱 2.设计交叉验证实验 3.进行训 ...
- 【机器学习】模型评估与选择--西瓜书第二章
2.1 经验误差与过拟合 2.2 评估方法 2.3 性能度量 2.5 偏差与方差 2.1 经验误差与过拟合 错误率(error rate):分类错误的样本占总样本的比率 精度(accuracy):分类 ...
- Python机器学习之模型评估及选择
1. 评估方法 1.回归:RMSE(平方根误差).MAE(平均绝对误差).MSE(平均平方误差).Coefficient of determination (决定系数R2). MAPE(平均绝对百分误 ...
- 机器学习笔记(二)模型评估与选择
2.模型评估与选择 2.1经验误差和过拟合 不同学习算法及其不同参数产生的不同模型,涉及到模型选择的问题,关系到两个指标性,就是经验误差和过拟合. 1)经验误差 错误率(errorrate):分类错误 ...
- 《机器学习》 —— 第二章:模型评估与选择 学习笔记
2.1 经验误差与过拟合 把分类错误的样本数占样本总数的比例称为"错误率"(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m:相应的,1-a/m称为 ...
- 机器学习中的不平衡分类方法(part2)--模型评估与选择
学习笔记,仅供参考,有错必纠 参考自:<机器学习中的不平衡分类方法>-- 康琦,吴启迪 文章目录 模型评估与选择 训练误差与测试误差 过拟合与欠拟合 模型选择 评估方法 模型评估与选择 训 ...
- 机器学习(周志华)- 第2章模型评估与选择笔记
转自: https://samanthachen.github.io/2016/08/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0_%E5%91%A8%E5%BF%9 ...
- 周志华 《机器学习初步》模型评估与选择
周志华 <机器学习初步>模型评估与选择 Datawhale2022年12月组队学习 ✌ 文章目录 周志华 <机器学习初步>模型评估与选择 一.泛化能力 二.过拟合和欠拟合 泛化 ...
最新文章
- HDU 2022 海选女主角
- SAP 自定义 Table 中的小陷阱
- C++与C#混合编程
- Qt工作笔记-三种方式解决Qt5中文编码问题
- java存款输入密码类,创建一个银行账户类,包括账号、用户姓名、密码和余额属性,实现开户、查询余额、取款、存款功能。...
- ubuntu apt命令
- matlab函数用法积累
- java程序包不存在_idea Error:(3, 32) java: 程序包***不存在的问题
- 查询oracle表空间有什么数据,oracle查询表空间使用情况与查询有哪些数据库实例在运行...
- Android实战技巧:用TextView实现Rich Text---在同一个TextView中设置不同的字体风格...
- 研究表明,越早退休越长寿
- 将2到10这9个自然数填入图中9个圆圈中,每个数只能用一次,且使每一条直线上的三个数的和相同,则中间圆圈的数是(),对应的每一条直线上的三个数的和是()
- vue+h5仿微信网页版聊天室vueWebChat项目
- 密码学--Diffie-Hellman密钥交换
- 八大口碑速溶咖啡品牌盘点
- iPhone 短信欺骗漏洞披露,伪造短信号码、自定义短信手机号
- 简述 Symbol 类型用途
- 如何永久关闭windows安全中心?
- spss 卡方检验,Logistic回归方法
- win7计算机加载项,详细教您win7禁用ie加载项