集成学习多样性度量总结
上一篇博客讲了集成学习中成对的多样性度量,博文链接如下
https://blog.csdn.net/jodie123456/article/details/89341835
在本篇博文中,总结一下非成对的多样性度量的方法。
1.2 非成对多样性度量
与成对的多样性度量不同,非成对的的多样性度量直接定义在多分类器系统上,首先引入如下符号:(
)为
个样例中的第
个样例,
为对
正确分类的分类器的数目,
为总的分类器数目。
1)Kohavi-Wolpert方差KW
KW方差来源于对分类器分类误差的分解,在训练集上使用分类器,
,
,..................,
对
预测类标签的方差表达式,得到KW的方差公式:
对于每一个样例,KW方差度量均要统计出对其正确分类的和错误分类的的分类器数目,极端情况下,对于每一个样例
,所有的分类器都给出相同的分类结果,即
或
,此时KW=0,该集成系统的多样性程度最低,当有一半的分类器对
正确分类、一半的分类器对其错误分类时,KW=1/4,集成系统的多样性程度最高。
2)Measurement of interrater agreement
该度量来源于统计学,用于度量评价者间的可靠性,度量定义为:
其中为基分类器的平均分类精度,有
位基分类器
对样例
的分类结果,研究表明,
与KW方差和不一致度量dis是相关的,他们之间的关系如下
其中为集成系统的不一致度量平均值。
3)熵度量
个基分类器集合的熵度量定义为
对于每一个样例,如果所有的分类器给出同样的分类结果,即他们之间不存在任何多样性,则此时熵度量的值为0,相反,如果
个分类器对该样例正确分类,
个分类器错误分类,则熵度量的值为1,此时的集成系统的多样性程度最高。
4)难度度量
对于一个从问题分布中随机抽取的样例,用随机变量
表示对该样例正确分类的分类器所占的比例,其取值范围为
,难度度量定义为随机变量
的方差即:
对于该方差的值越小,随机变量的波动越小,表明对于每一个样例,将其正确分类的分类器的数目月趋向于
,此时一些分类器难以对样例正确分类,分类器之间的多样性程度越高;该方差的值越大表明一部分样例对于所有分类器而言是难以正确分类的,而剩余样例对于所有的分类器而言是容易分类的,此时各个分类器的行为越相似,多样性程度越低。
5)广义多样性GD
该度量用随机变量表示在一个随机抽取的样例
上分类错误的分类器比例;用
表示
的概率,
;用
表示
个随机选择的分类器在一个随机抽取的的样例上分类错误的概率。
假设随机选择两个分类器,当一个分类器正确分类、另一个分类器错误分类时,它们的多样性程度最高,两个分类器同时错误分类的概率;当一个分类器的错误分类总是伴随着另一个分类器的错误分类时,多样性程度最低,两个分类器均失败的概率等于一个随机选择的分类器失败的概率,给出以下公式:
则广义多样性定义为
根据以上分析,若,则
,集成系统的多样性程度最低;若
则
,集成系统的多样性程度最高。
6)Percentage Correct Diversity Measure(PCDM)
对于每个样例, 该度量关注将其正确分类的分类器所占的比例, 计算过程如下所下:
由以上过程可知, PCDM度量关注这样的样例:有个基分类器对其正确分类,其中
和
是两个阈值,即对于一个样例
,如果在上述范围内的一定比例的分类器对其正确分类,则至少对该样例而言,这些分类器被认为是多样化的,这样,所有的分类器均对其正确分类(正确率高于
,即容易被正确分类的样例),或很少分类器对其正确分类(正确率低于
,即难以被正确分类的样例)的样例在该多样性度量下被认为是无用的。
集成学习多样性度量总结相关推荐
- 集成学习-非成对多样性度量-个人总结
一.引言 集成学习:通过构建并结合多个学习器来完成学习任务.一般结构是:先产生一组"个体学习器",再用某种策略将它们结合起来.结合策略主要有平均法.投票法和学习法等. 在集成学习之 ...
- 【机器学习-西瓜书】八、集成学习:结合策略;多样性;总结
推荐阅读: 总结:绝对多数投票法:误差-分歧分解 8.4 结合策略 关键词: 平均法:投票法:学习法;硬投票:软投票 一开始就说到,集成学习有两个关键,第一,个体学习器:第二,结合策略.对于个体学习器 ...
- 集成学习之 如何进行多样性增强
众所周知,对于集成学习的基学习器而言,他们的差异性越大,集成之后的效果就越好,那么,我们怎么增强不同模型的多样性呢? 1.样本扰动:比如Bagging中的自助法就是了,由于生成的不同数据集间有一定的不 ...
- 机器学习笔记(八)集成学习
8.集成学习 8.1个体与集成 集成学习(ansemblelearning)通过构建并结合多个学习器来完成学习任务,也称为多分类器系统(multi-classifiersystem).基于委员会的学习 ...
- 周志华教授专著《集成学习:基础与算法》上市,豆瓣满分森林书破解AI实践难题...
近年来,机器学习技术的快速发展推动了语音.自然语言处理.机器视觉等多个领域获得巨大进步,也带动了人工智能相关产业的蓬勃发展. 回顾机器学习最近30 年的发展历程,各种学习方法推陈出新.不断演进.但是, ...
- 【福利】周志华教授专著《集成学习:基础与算法》上市,豆瓣满分森林书破解AI实践难题...
近年来,机器学习技术的快速发展推动了语音.自然语言处理.机器视觉等多个领域获得巨大进步,也带动了人工智能相关产业的蓬勃发展. >>>> 回顾机器学习最近30 年的发展历程,各种 ...
- 西瓜书+实战+吴恩达机器学习(十一)监督学习之集成学习
文章目录 0. 前言 1. 集成方法 2. 结合策略 2.1. 平均法 2.2. 投票法 2.3. 学习法 3. 多样性度量 4. 多样性增强 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔, ...
- 集成学习——BAGGING和随机森林
集成学习--BAGGING和随机森林 集成学习--BAGGING和随机森林 1.什么是集成学习 2.怎样进行集成学习 3.Bagging方法 4.Bagging方法训练.预测过程 5.Bagging方 ...
- 西瓜书习题 - 8.集成学习
1.集成学习 1.下列关于集成学习描述错误的是哪个? 集成学习只能使用若干个相同类型的学习器 集成学习使用多个学习器解决问题 集成学习在许多比赛中取得了优异的成绩 集成学习在英文中是一个外来词 2.下 ...
最新文章
- 队列不存在,或您没有足够的权限执行该操作-另一种原因
- UI组件-UISlider
- [Pyhon疫情大数据分析] 三.新闻信息抓取及词云可视化、文本聚类和LDA主题模型文本挖掘
- linux系统远程教程,Linux下实现远程协助
- MySQL的常见存储引擎介绍与参数设置调优(转载)
- TDMoverIP是什么?tdmoverip产品特性介绍
- ubuntu窗口最小化消失,任务栏上无法找到的解决方法
- mongodb E11000 duplicate key error collection: index: _id_ dup key
- https 非对称加密
- 2018.9.19作业
- 2017-5-29学习记录——WebApi(1)
- Linux下安装Java环境
- android腾讯微博客户端开发,基于android系统的腾讯微博客户端的开发
- word前两页不设置页码,从第三页开始设置页码(word页码设置)
- 2021刷百度统计关键词的灰产嫌疑人徐某被抓
- 14----统计字符数
- Microsoft Store无法显示错误,真正解决!
- [集卡游戏]几何分布在竞赛中的应用
- 人体热释电红外传感器 PIR 原理详解
- flutter之包管理
热门文章
- Springbot启动报错-类文件具有错误的版本 61.0, 应为 52.0
- 导入导出thunderbird(雷鸟)中的邮件
- html+css复刻NIKE官网静态页面(一)
- 服务器机箱开了显示屏不亮,电脑开了机,机箱风扇在转,但是显示屏不显示,是什么问题?...
- 7 win 卸载node_win10inode卸载不了
- LeetCode665:非递减序列(python)
- python导入图片数据_Python中读取图片的6种方式
- 80老翁谈人生(241):什么叫经办人?
- 2022,国产手机走入“无夏”之年
- Audacity分析浊音清音爆破音的时域和频域波形图