什么是信息增益(Information Gain)?

参考链接：

什么是信息增益(Information Gain)？
信息熵到底是什么

首先建立一棵决策树。信息增益是一个统计量，用来描述一个属性区分数据样本的能力。信息增益越大，那么决策树就会越简洁。这里信息增益的程度用信息熵的变化程度来衡量。
假如我们所做的决策是是否出去玩，属性有风力、潮湿度等等。
那么在有统计样本S的情况下，计算某属性信息增益的步骤如下：

计算不用属性区分的情况下，决策属性在整体样本中的信息熵。
Entropy(S)=−p+∗log(p+)−p−∗log(p−)Entropy(S)=-p+*log(p+)-p-*log(p-)Entropy(S)=−p+∗log(p+)−p−∗log(p−)
其中，p+、p-分别指代的是正例（决策取1，即出去玩）和负例占总记录的比例。系统中各种随机性的概率越均等，信息熵越大，反之越小。
计算按照该属性把样本分开之后，决策属性在样本中的信息熵。
以风力属性为例，区分为Weak和Strong，比例分别为PweakP_{weak}Pweak和PStrongP_{Strong}PStrong
那么:
Gain(Wind)=Entropy(S)−Pweak∗Entropy(Weak)−PStrong∗Entropy(Strong)Gain(Wind)=Entropy(S)-P_{weak}*Entropy(Weak)-P_{Strong}*Entropy(Strong)Gain(Wind)=Entropy(S)−Pweak∗Entropy(Weak)−PStrong∗Entropy(Strong)

最终我们选择信息熵最大的作为根节点，子节点同样。

什么是信息增益(Information Gain)?相关推荐

什么是信息增益(Information Gain)
当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设.在这种情况下,概率分布最均匀,预测的风险最小.因为这时概率分布的信息熵最大,所以称之为 ...
最大信息熵增益_信息熵(Entropy)、信息增益(Information Gain)
1. 信息熵:H(X) 描述X携带的信息量. 信息量越大(值变化越多),则越不确定,越不容易被预测. 对于抛硬币问题,每次有2种情况,信息熵为1 对于投骰子问题,每次有6中情况,信息熵为1.75 下面 ...
python get score gain_什么是“熵和信息增益”？(What is “entropy and information gain”?)...
什么是"熵和信息增益"?(What is "entropy and information gain"?) 我正在读这本书( NLTK ),令人困惑. 熵被定义 ...
关于信息增益（information gain）
当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设.在这种情况下,概率分布最均匀,预测的风险最小.因为这时概率分布的信息熵最大,所以称之为 ...
论文阅读 An Information Gain Formulation for Active Volumetric 3D Reconstruction
这是一篇讲基于3D重建这个场景,如何更好地计算information gain的好像是2016ICRA 也是uzh实验室的 An Information Gain Formulation for A ...
java 信息增益_对信息增益（IG，Information Gain）的理解和计算
可能理解的不对. 决策树构建中节点的选择靠的就是信息增益了. 信息增益是一种有效的特征选择方法,理解起来很简单:增益嘛,肯定是有无这个特征对分类问题的影响的大小,这个特征存在的话,会对分类系统带来多少 ...
ig信息增益 java_信息增益（IG，Information Gain）的理解和计算
可能理解的不对. 决策树构建中节点的选择靠的就是信息增益了. 信息增益是一种有效的特征选择方法,理解起来很简单:增益嘛,肯定是有无这个特征对分类问题的影响的大小,这个特征存在的话,会对分类系统带来多少 ...
Information Gain 计算 python实现
from math import logdef I(*args):total = sum(args) + 0.0result = 0.0for i in args:if i == 0:result + ...
IG （information gain）
IG(t)=H( C )-H(C/T) 特征T的信息增益等于:整体C的信息量减去已知特征t时的信息量. 信息量通过熵来表达. H( C )是整体的信息熵 Ci为类别 H(C/T)是已知特征T时的信息量 ...

什么是信息增益(Information Gain)?

什么是信息增益(Information Gain)?相关推荐

最新文章

热门文章