1 影响一个分类器错误率的因素
  (1)、训练集的记录数量。生成器要利用训练集进行学习,因而训练集越大,分类器也就越可靠。然而,训练集越大,生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。
  (2)、属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合,使得生成器难度增大,需要的时间也更长。有时随机的关系会将生成器引入歧途,结果可能构造出不够准确的分类器(这在技术上被称为过分拟合)。因此,如果我们通过常识可以确认某个属性与目标无关,则将它从训练集中移走。
  (3)、属性中的信息。有时生成器不能从属性中获取足够的信息来正确、低错误率地预测标签(如试图根据某人眼睛的颜色来决定他的收入)。加入其他的属性(如职业、每周工作小时数和年龄),可以降低错误率。
  (4)、待预测记录的分布。如果待预测记录来自不同于训练集中记录的分布,那么错误率有可能很高。比如如果你从包含家用轿车数据的训练集中构造出分类器,那么试图用它来对包含许多运动用车辆的记录进行分类可能没多大用途,因为数据属性值的分布可能是有很大差别的。
2  评估方法
有两种方法可以用于对分类器的错误率进行评估,它们都假定待预测记录和训练集取
  自同样的样本分布。
  (1) 保留方法(Holdout):记录集中的一部分(通常是2/3)作为训练集,保留剩余的部分用作测试集。生成器使用2/3 的数据来构造分类器,然后使用这个分类器来对测试集进行分类,得出的错误率就是评估错误率。虽然这种方法速度快,但由于仅使用2/3 的数据来构造分类器,因此它没有充分利用所有的数据来进行学习。如果使用所有的数据,那么可能构造出更精确的分类器。
  (2) 交叉纠错方法(Cross validation):数据集被分成k 个没有交叉数据的子集,所有子集的大小大致相同。生成器训练和测试共k 次;每一次,生成器使用去除一个子集的剩余数据作为训练集,然后在被去除的子集上进行测试。把所有得到的错误率的平均值作为评估错误率。交叉纠错法可以被重复多次(t),对于一个t 次k 分的交叉纠错法,k *t 个分类器被构造并被评估,这意味着交叉纠错法的时间是分类器构造时间的k *t 倍。增加重复的次数意味着运行时间的增长和错误率评估的改善。我们可以对k 的值进行调整,将它减少到3 或5,这样可以缩短运行时间。然而,减小训练集有可能使评估产生更大的偏差。通常Holdout 评估方法被用在最初试验性的场合,或者多于5000 条记录的数据集;交叉纠错法被用于建立最终的分类器,或者很小的数据集。

分类器的准确度评估方法相关推荐

  1. 【异常检测】基于主成分分类器的异常检测方案(文献学习)

    A novel anomaly detection scheme based on principal component classifier Mei-Ling Shyu , Shu-Ching C ...

  2. Java机器学习库(Java ML)(四、SVM分类器)

    支持向量机 这里简单的介绍一下支持向量机的概念. 支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的 ...

  3. Paper:LIME之《Why Should I Trust You? Explaining the Predictions of Any Classifier为什么要相信你?解释任何分类器的预测》翻

    Paper:LIME之<Why Should I Trust You? Explaining the Predictions of Any Classifier为什么要相信你?解释任何分类器的预 ...

  4. 机器学习——KNN分类器的学习

    kNN 的特点: 简单. 没有学习过程, 也被称为惰性学习 lazy learning. 类似于开卷考试, 在已有数据中去找答案. 本源. 找相似, 正是人类认识事物的常用方法, 隐藏于人类或者其他动 ...

  5. 模式识别机器学习PRML考前自测

    绪论 1.请介绍一下机器学习的整体框架 机器学习和模式识别基本一个东西,模式识别是工业界的称呼而已.机器学习是人工智能下属的子领域,用来辅助在大数据时代进行数据分析与数据管理,应用于数据挖掘工作.人工 ...

  6. 【今日CV 计算机视觉论文速览 第98期】Wed, 10 Apr 2019

    今日CS.CV 计算机视觉论文速览 Wed, 10 Apr 2019 Totally 67 papers ?上期速览 ✈更多精彩请移步主页 Interesting: ?通用物体检测框架, 在不需要先验 ...

  7. 数据挖掘复习资料2021.12.15

    数据挖掘 绪论 四种主要技术激发了人们对数据挖掘研究的兴趣: 超大规模数据库的出现,先进的计算机技术.对海量数据的快速访问.统计方法在数据处理领域应用的不断深入 数据挖掘定义: 技术层面:数据挖掘就是 ...

  8. 【论文下饭】A Systematic Survey on Deep Generative Models for Graph Generation

    内容有省略,详细见原文.水平有限,有误请指出. A Systematic Survey on Deep Generative Models for Graph Generation 文章目录 1 介绍 ...

  9. learning to rank_排序

    20210415 ndcg 一个正确结果位置的随机结果是0.45左右 20210412 考察产业匹配MRR评估指标的随机情况是什么样的 随机情况下会是什么样的 可以根据ndcg的值来看是否随机 202 ...

最新文章

  1. mint 15用fcitx框架安装中文谷歌输入法
  2. html第三方接口,关于调用三方平台接口与推送接口的总结(2020.7.27)
  3. Java多线程编程实战指南+设计模式篇pdf
  4. 宜出行热力图怎么抓取_滴滴听不到单怎么办?七个小技巧
  5. Otsu algorithm
  6. Permutations CodeForces - 736D (矩阵逆)
  7. MyEclipse for Windows快捷键
  8. 【转】 差分约束系统详解(转化为最短路) (概念)
  9. 一部手机是否能用 7 年?苹果、三星、Google:三年差不多!
  10. 你所不知道的 JavaScript
  11. 手机下载Python_将安卓手机打造成 Python 全栈开发利器
  12. 【Xamarin 开发 IOS --IOS 页面导航概念Segue】
  13. php excel导入数据库显示乱码,php修改excel表格数据库数据格式-使用phpexcel导入excel表格数据到MYSQL,乱码怎么解决...
  14. 大容量nc文件解析_分布式文件系统浅谈
  15. Android 使用低功耗蓝牙简单介绍
  16. 美团|商家数据指标体系搭建实例 。
  17. hdu-6638 Snowy Smile
  18. calcite mysql_Apache Calcite 简介
  19. win2000上安装sql server 2000个人版时
  20. 150集Linux网络编程培训视频吐血整理 | 网络基础

热门文章

  1. 孕期必备,这几样东西必须买,省心省事
  2. 录取了环境建模专业,准备开始为期一年的学习
  3. 回车符、换行符和回车换行符
  4. HayeSep T 80-100多孔聚合物吸附剂,HayeSep A 80-100气相色谱担体填料,HayeSep Q 60-80气相色谱填充柱(国产推荐)
  5. “北航学堂”M2阶段postmortem
  6. Java基础-for循环的不凡
  7. Atcoder 221
  8. ASP后门、***清理
  9. ssm注销用户的方法
  10. 情感分析中文本数据预处理