ig信息增益 java_信息增益（IG，Information Gain）的理解和计算

可能理解的不对。

决策树构建中节点的选择靠的就是信息增益了。

信息增益是一种有效的特征选择方法，理解起来很简单：增益嘛，肯定是有无这个特征对分类问题的影响的大小，这个特征存在的话，会对分类系统带来多少信息量，缺了他行不行？

既然是个增益，就是个差了，减法计算一下，谁减去谁呢？

这里就用到了信息熵的概念，放到分类系统里面，信息熵如何计算呢？

分类系统里面无非是样本xi以及样本的分类结果yi，假设这个分类系统有k类，那么作为训练集来说，分类情况基本就定了，是按照样本的各个特征定的。那么在这些样本的信息的前提下，分类器有个结果，就自然包含了一种信息量在里面，可以用信息熵E(S)计算出来。

当然大家都知道熵表达的是不确定度，分布约均匀，越不确定，熵越大。

那么当把特征f引入的时候，会不会对系统的信息量有所影响呢？也就引入f之后的系统不确定度E(S|f)是多少呢？其实是个条件熵。也就是加入条件f之后，不确定度减少了多少？信息熵的有效减少量是多少？

为了计算条件熵，我们可以固定f的值，也就是根据f在训练集中呈现的值，计算条件熵E(S|f)。简单的说就是，把根据f划分的各个小系统的信息熵加权求和，权重就是各个小系统占系统S的比例(假设f有两个值0、1，选0的时候有a个样本，样本当然有类别y；f是1的时候有b个样本；a+b=n(样本总数)；那么权重就是a/n和b/n了；每个小系统的信息当然跟大系统求法一样了)。

那么增益IG(f)=E(S)-E(S|f).

选择 f*=argmax(IG(f))的f作为第一个根节点，然后递归下去吧。

本文转载自：丕子

欢迎加入我爱机器学习QQ14群：336582044

微信扫一扫，关注我爱机器学习公众号

ig信息增益 java_信息增益（IG，Information Gain）的理解和计算相关推荐

ig信息增益 java_文本分类综述
文本分类是一项系统的工程,所涉及的技术很多,按流程可以将文本分类分为:文本预处理阶段.训练阶段.分类阶段.评价四个阶段,其中预处理阶段要文本处理成计算机能识别的格式,首先对文本进行分词处理,中文文本和 ...
python get score gain_什么是“熵和信息增益”？(What is “entropy and information gain”?)...
什么是"熵和信息增益"?(What is "entropy and information gain"?) 我正在读这本书( NLTK ),令人困惑. 熵被定义 ...
关于信息增益（information gain）
当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设.在这种情况下,概率分布最均匀,预测的风险最小.因为这时概率分布的信息熵最大,所以称之为 ...
什么是信息增益(Information Gain)?
参考链接: 什么是信息增益(Information Gain)? 信息熵到底是什么首先建立一棵决策树.信息增益是一个统计量,用来描述一个属性区分数据样本的能力.信息增益越大,那么决策树就会越简洁.这 ...
什么是信息增益(Information Gain)
当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设.在这种情况下,概率分布最均匀,预测的风险最小.因为这时概率分布的信息熵最大,所以称之为 ...
论文阅读 An Information Gain Formulation for Active Volumetric 3D Reconstruction
这是一篇讲基于3D重建这个场景,如何更好地计算information gain的好像是2016ICRA 也是uzh实验室的 An Information Gain Formulation for A ...
信息增益、信息增益率、gini、特征选择、决策树
先简单介绍一下概念熵:表示随机变量的不确定性. 条件熵:在一个条件下,随机变量的不确定性. 信息增益:熵 - 条件熵.在一个条件下,信息不确定性减少的程度.通俗地讲,X(明天下雨)是一个随机变量,X ...
信息增益，信息增益率，Gini
1.熵(Entropy) 理论上来说用于决策树的属性选择函数,为方便计算,往往是定义为其属性的不纯性度量,那么必须满足如下三个条件: 当结点很纯时,其度量值应为0 当不纯性最大时(比如所有类都有同样的 ...
机器学习-有监督学习-分类算法：决策树算法【CART树：分类树(基于信息熵；分类依据：信息增益、信息增益率、基尼系数)、回归树(基于均方误差)】【损失函数：叶节点信息熵和】【对特征具有很好的分析能力】
一.决策树概述注:生产实践中,不使用决策树,太简单,而是使用决策树的升级版:集成学习算法. 集成学习算法有: Random Forest(随机森林) Extremely Randomized For ...

ig信息增益 java_信息增益（IG，Information Gain）的理解和计算

ig信息增益 java_信息增益（IG，Information Gain）的理解和计算相关推荐

最新文章

热门文章