【只是提纲,不完整,有空更新】

1.错误率、精度。

2.误差:学习器的实际预测输出和真实输出的差异。学习器在训练集上的误差称为训练误差或者经验误差。在新样本上的误差称为泛化误差。由于新样本是未知的,我们实际能做的是最小化经验误差。

3.经验误差为0是不是我们的目标呢?当然不是!这样就发生了过拟合。

过拟合(overfitting):很可能把一些属于样本自身的特点学习到了,当作所有潜在样本的一般性质,泛化能力下降。

欠拟合(underfitting):对训练样本的一般特性尚未学好。

4.过拟合可否消除?当然不可能!只能缓解。ML的问题大多是NP-hard问题,而有效的学习算法必然是在多项式时间内完成,如果认为可以避免过拟合,那也就意味着经验误差最小化获得最优解,也就是说构造性地证明了P=NP。

5.模型选择(Model Selection):不同参数、不同学习算法就会有不同模型。那我们要如何选择呢?

6.模型评估:

主要思想:将数据集分成训练集S和测试集T。

主要方法:

(a)留出法(hold-out):将数据集D划分成两个互斥集合S和T。注意点:

1)采用分层抽样(stratified sampling)。让正样本和负样本在S和T的比例大致相同,保持数据分布的一致性,避免数据划分引入额外偏差。

2)重复实验取平均值。由于集合划分有多种,单次使用留出法的结果往往不可靠,因此采用多次随机划分、多次实验评估取平均值作为评估结果。

3)一般采用1/3-1/5的样本作为测试集。

(b)交叉验证(cross validation):将数据集D划分成k个大小相似的互斥子集,每次选择其中1个作为测试集T,剩余k-1个作为训练集,这样就有了k组训练/测试集,将k次的评估结果的平均值作为评估结果。注意点:

1)k值关系到结果的保真性和稳定性。k通常取10,称为k折交叉验证(k-fold cross validation)。

2)与留出法相似,通常也多次随机划分、多次实验评估取平均值作为评估结果。

c)自助法

7.混淆矩阵

8.查全率、查准率

9.二分类问题的性能比较

1)包住

2)BEP(Break-even Point)平衡点

3)F1度量

4)度量

(未完待续)

参考资料:周志华《机器学习》

机器学习提纲 模型评估和选择相关推荐

  1. [机器学习]1模型评估与选择

    模型评估与选择 目录 文章目录 模型评估与选择 目录 第二章 模型评估与选择 评估方法 性能度量 比较检验 第二章 模型评估与选择 评估方法 对数据集D产生训练集S和测试集T的方法: 留出法 直接划分 ...

  2. 【机器学习】模型评估与选择(实战)

    模型评估与选择(实战) 目录 一.准备工作(设置 jupyter notebook 中的字体大小样式等) 二.数据集读取与查看 三.交叉验证实验 1.划分数据集并置乱 2.设计交叉验证实验 3.进行训 ...

  3. 【机器学习】模型评估与选择--西瓜书第二章

    2.1 经验误差与过拟合 2.2 评估方法 2.3 性能度量 2.5 偏差与方差 2.1 经验误差与过拟合 错误率(error rate):分类错误的样本占总样本的比率 精度(accuracy):分类 ...

  4. Python机器学习之模型评估及选择

    1. 评估方法 1.回归:RMSE(平方根误差).MAE(平均绝对误差).MSE(平均平方误差).Coefficient of determination (决定系数R2). MAPE(平均绝对百分误 ...

  5. 机器学习笔记(二)模型评估与选择

    2.模型评估与选择 2.1经验误差和过拟合 不同学习算法及其不同参数产生的不同模型,涉及到模型选择的问题,关系到两个指标性,就是经验误差和过拟合. 1)经验误差 错误率(errorrate):分类错误 ...

  6. 《机器学习》 —— 第二章:模型评估与选择 学习笔记

    2.1 经验误差与过拟合 把分类错误的样本数占样本总数的比例称为"错误率"(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m:相应的,1-a/m称为 ...

  7. 机器学习中的不平衡分类方法(part2)--模型评估与选择

    学习笔记,仅供参考,有错必纠 参考自:<机器学习中的不平衡分类方法>-- 康琦,吴启迪 文章目录 模型评估与选择 训练误差与测试误差 过拟合与欠拟合 模型选择 评估方法 模型评估与选择 训 ...

  8. 机器学习(周志华)- 第2章模型评估与选择笔记

    转自: https://samanthachen.github.io/2016/08/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0_%E5%91%A8%E5%BF%9 ...

  9. 周志华 《机器学习初步》模型评估与选择

    周志华 <机器学习初步>模型评估与选择 Datawhale2022年12月组队学习 ✌ 文章目录 周志华 <机器学习初步>模型评估与选择 一.泛化能力 二.过拟合和欠拟合 泛化 ...

最新文章

  1. HDU 2022 海选女主角
  2. SAP 自定义 Table 中的小陷阱
  3. C++与C#混合编程
  4. Qt工作笔记-三种方式解决Qt5中文编码问题
  5. java存款输入密码类,创建一个银行账户类,包括账号、用户姓名、密码和余额属性,实现开户、查询余额、取款、存款功能。...
  6. ubuntu apt命令
  7. matlab函数用法积累
  8. java程序包不存在_idea Error:(3, 32) java: 程序包***不存在的问题
  9. 查询oracle表空间有什么数据,oracle查询表空间使用情况与查询有哪些数据库实例在运行...
  10. Android实战技巧:用TextView实现Rich Text---在同一个TextView中设置不同的字体风格...
  11. 研究表明,越早退休越长寿
  12. 将2到10这9个自然数填入图中9个圆圈中,每个数只能用一次,且使每一条直线上的三个数的和相同,则中间圆圈的数是(),对应的每一条直线上的三个数的和是()
  13. vue+h5仿微信网页版聊天室vueWebChat项目
  14. 密码学--Diffie-Hellman密钥交换
  15. 八大口碑速溶咖啡品牌盘点
  16. iPhone 短信欺骗漏洞披露,伪造短信号码、自定义短信手机号
  17. 简述 Symbol 类型用途
  18. 如何永久关闭windows安全中心?
  19. spss 卡方检验,Logistic回归方法
  20. win7计算机加载项,详细教您win7禁用ie加载项

热门文章

  1. Linux文件结构和Ubunto常见命令
  2. .net 中用TopShelf 实现windows服务
  3. SphereTrace中Hit Result里的Location和ImpactPoint
  4. Matlab论文插图绘制模板—三维柱状图
  5. PB窗口使用技巧之使用窗口属性编程
  6. UG 建模中任意截面三维剖视图的创建
  7. python抢券代码_京东python抢券脚本Python内置函数——str
  8. 实现人脸识别APP(二)
  9. STM32-I2C通信在AT24C02的应用
  10. 商业分享:“拼团”式购物,让顾客在购物平台里省钱赚钱