可能理解的不对。

决策树构建中节点的选择靠的就是信息增益了。

信息增益是一种有效的特征选择方法,理解起来很简单:增益嘛,肯定是有无这个特征对分类问题的影响的大小,这个特征存在的话,会对分类系统带来多少信息量,缺了他行不行?

既然是个增益,就是个差了,减法计算一下,谁减去谁呢?

这里就用到了信息熵的概念,放到分类系统里面,信息熵如何计算呢?

分类系统里面无非是样本xi以及样本的分类结果yi,假设这个分类系统有k类,那么作为训练集来说,分类情况基本就定了,是按照样本的各个特征定的。那么在这些样本的信息的前提下,分类器有个结果,就自然包含了一种信息量在里面,可以用信息熵E(S)计算出来。

当然大家都知道熵表达的是不确定度,分布约均匀,越不确定,熵越大。

那么当把特征f引入的时候,会不会对系统的信息量有所影响呢?也就引入f之后的系统不确定度E(S|f)是多少呢?其实是个条件熵。也就是加入条件f之后,不确定度减少了多少?信息熵的有效减少量是多少?

为了计算条件熵,我们可以固定f的值,也就是根据f在训练集中呈现的值,计算条件熵E(S|f)。简单的说就是,把根据f划分的各个小系统的信息熵加权求和,权重就是各个小系统占系统S的比例(假设f有两个值0、1,选0的时候有a个样本,样本当然有类别y;f是1的时候有b个样本;a+b=n(样本总数);那么权重就是a/n和b/n了;每个小系统的信息当然跟大系统求法一样了)。

那么增益IG(f)=E(S)-E(S|f).

选择  f*=argmax(IG(f))的f作为第一个根节点,然后递归下去吧。

本文转载自:丕子

欢迎加入我爱机器学习QQ14群:336582044

微信扫一扫,关注我爱机器学习公众号

ig信息增益 java_信息增益(IG,Information Gain)的理解和计算相关推荐

  1. ig信息增益 java_文本分类综述

    文本分类是一项系统的工程,所涉及的技术很多,按流程可以将文本分类分为:文本预处理阶段.训练阶段.分类阶段.评价四个阶段,其中预处理阶段要文本处理成计算机能识别的格式,首先对文本进行分词处理,中文文本和 ...

  2. python get score gain_什么是“熵和信息增益”?(What is “entropy and information gain”?)...

    什么是"熵和信息增益"?(What is "entropy and information gain"?) 我正在读这本书( NLTK ),令人困惑. 熵被定义 ...

  3. 关于信息增益(information gain)

    当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设.在这种情况下,概率分布最均匀,预测的风险最小.因为这时概率分布的信息熵最大,所以称之为 ...

  4. 什么是信息增益(Information Gain)?

    参考链接: 什么是信息增益(Information Gain)? 信息熵到底是什么 首先建立一棵决策树.信息增益是一个统计量,用来描述一个属性区分数据样本的能力.信息增益越大,那么决策树就会越简洁.这 ...

  5. 什么是信息增益(Information Gain)

    当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设.在这种情况下,概率分布最均匀,预测的风险最小.因为这时概率分布的信息熵最大,所以称之为 ...

  6. 论文阅读 An Information Gain Formulation for Active Volumetric 3D Reconstruction

    这是一篇讲基于3D重建这个场景,如何更好地计算information gain的 好像是2016ICRA 也是uzh实验室的 An Information Gain Formulation for A ...

  7. 信息增益、信息增益率、gini、特征选择、决策树

    先简单介绍一下概念 熵:表示随机变量的不确定性. 条件熵:在一个条件下,随机变量的不确定性. 信息增益:熵 - 条件熵.在一个条件下,信息不确定性减少的程度.通俗地讲,X(明天下雨)是一个随机变量,X ...

  8. 信息增益,信息增益率,Gini

    1.熵(Entropy) 理论上来说用于决策树的属性选择函数,为方便计算,往往是定义为其属性的不纯性度量,那么必须满足如下三个条件: 当结点很纯时,其度量值应为0 当不纯性最大时(比如所有类都有同样的 ...

  9. 机器学习-有监督学习-分类算法:决策树算法【CART树:分类树(基于信息熵;分类依据:信息增益、信息增益率、基尼系数)、回归树(基于均方误差)】【损失函数:叶节点信息熵和】【对特征具有很好的分析能力】

    一.决策树概述 注:生产实践中,不使用决策树,太简单,而是使用决策树的升级版:集成学习算法. 集成学习算法有: Random Forest(随机森林) Extremely Randomized For ...

最新文章

  1. 一文读懂2019年IT及大数据行业趋势
  2. python简单编程-编程中最简单的语言Python,这样学或许更容易
  3. 抽象类和接口的关系之我的图解(转自Jack Fan)
  4. 团队行为心理学读书笔记(1)
  5. 深入分析glibc内存释放时的死锁bug
  6. Ruby中的Profiling工具
  7. 系统学习NLP(二十九)--BERT
  8. 真实用!推荐一款与Swagger媲美的数据库文档生成工具...
  9. Leapmotion 找到那双手和一些交互案例
  10. 电子书下载:深入解析Windows操作系统第6版 Windows Internals 6th Part1, Part2
  11. excel合并计算机操作,Excel如何快速合并多个单元格的内容?
  12. 存储IP地址,到底用什么数据类型相对比较好
  13. 报错Takes no arguements解决办法
  14. 基于 Windows系统的 KingbaseES 数据库软件安装指南(3. 安装前准备工作)
  15. 电商浪潮过后,无人零售会引领新零售的爆发吗
  16. 微信开发者工具-调试器
  17. 图像处理(三)——中国传统工艺画风格的图像转换应用
  18. 父与子的编程之旅--easygui无法使用
  19. 关于微软研究院(谢幸、郑宇研究员主导的)“智能城市”“智能生活”研究的一个归纳
  20. C++ Virtual 完美诠释

热门文章

  1. 大数据能做些什么——舍恩伯格纵论大数据时代
  2. 文件格式的简易通讯录
  3. 6589 开机动画播放完,进入主界面,黑屏无法唤醒
  4. 项目经理责任制核心要点之一:明确项目经理的责权利
  5. Android Rss阅读器
  6. 热璞数据库HotDB开放下载先知————安装部署(二)
  7. AndroidStudio实训1——BMI计算器
  8. INI文件编程,WINAPI函数WritePrivateProfileString,GetPrivateProfileString
  9. 今年Java行情崩盘?说好的金三银四呢…
  10. 推荐系统综述——附Xmind三分钟重点速览版