什么是信息增益(Information Gain)?
参考链接:
- 什么是信息增益(Information Gain)?
- 信息熵到底是什么
首先建立一棵决策树。信息增益是一个统计量,用来描述一个属性区分数据样本的能力。信息增益越大,那么决策树就会越简洁。这里信息增益的程度用信息熵的变化程度来衡量。
假如我们所做的决策是是否出去玩,属性有风力、潮湿度等等。
那么在有统计样本S的情况下,计算某属性信息增益的步骤如下:
- 计算不用属性区分的情况下,决策属性在整体样本中的信息熵。
Entropy(S)=−p+∗log(p+)−p−∗log(p−)Entropy(S)=-p+*log(p+)-p-*log(p-)Entropy(S)=−p+∗log(p+)−p−∗log(p−)
其中,p+、p-分别指代的是正例(决策取1,即出去玩)和负例占总记录的比例。系统中各种随机性的概率越均等,信息熵越大,反之越小。 - 计算按照该属性把样本分开之后,决策属性在样本中的信息熵。
以风力属性为例,区分为Weak和Strong,比例分别为PweakP_{weak}Pweak和PStrongP_{Strong}PStrong
那么:
Gain(Wind)=Entropy(S)−Pweak∗Entropy(Weak)−PStrong∗Entropy(Strong)Gain(Wind)=Entropy(S)-P_{weak}*Entropy(Weak)-P_{Strong}*Entropy(Strong)Gain(Wind)=Entropy(S)−Pweak∗Entropy(Weak)−PStrong∗Entropy(Strong)
最终我们选择信息熵最大的作为根节点,子节点同样。
什么是信息增益(Information Gain)?相关推荐
- 什么是信息增益(Information Gain)
当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设.在这种情况下,概率分布最均匀,预测的风险最小.因为这时概率分布的信息熵最大,所以称之为 ...
- 最大信息熵增益_信息熵(Entropy)、信息增益(Information Gain)
1. 信息熵:H(X) 描述X携带的信息量. 信息量越大(值变化越多),则越不确定,越不容易被预测. 对于抛硬币问题,每次有2种情况,信息熵为1 对于投骰子问题,每次有6中情况,信息熵为1.75 下面 ...
- python get score gain_什么是“熵和信息增益”?(What is “entropy and information gain”?)...
什么是"熵和信息增益"?(What is "entropy and information gain"?) 我正在读这本书( NLTK ),令人困惑. 熵被定义 ...
- 关于信息增益(information gain)
当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设.在这种情况下,概率分布最均匀,预测的风险最小.因为这时概率分布的信息熵最大,所以称之为 ...
- 论文阅读 An Information Gain Formulation for Active Volumetric 3D Reconstruction
这是一篇讲基于3D重建这个场景,如何更好地计算information gain的 好像是2016ICRA 也是uzh实验室的 An Information Gain Formulation for A ...
- java 信息增益_对信息增益(IG,Information Gain)的理解和计算
可能理解的不对. 决策树构建中节点的选择靠的就是信息增益了. 信息增益是一种有效的特征选择方法,理解起来很简单:增益嘛,肯定是有无这个特征对分类问题的影响的大小,这个特征存在的话,会对分类系统带来多少 ...
- ig信息增益 java_信息增益(IG,Information Gain)的理解和计算
可能理解的不对. 决策树构建中节点的选择靠的就是信息增益了. 信息增益是一种有效的特征选择方法,理解起来很简单:增益嘛,肯定是有无这个特征对分类问题的影响的大小,这个特征存在的话,会对分类系统带来多少 ...
- Information Gain 计算 python实现
from math import logdef I(*args):total = sum(args) + 0.0result = 0.0for i in args:if i == 0:result + ...
- IG (information gain)
IG(t)=H( C )-H(C/T) 特征T的信息增益等于:整体C的信息量减去已知特征t时的信息量. 信息量通过熵来表达. H( C )是整体的信息熵 Ci为类别 H(C/T)是已知特征T时的信息量 ...
最新文章
- 自学python需要安装什么软件-零基础入门Python怎么学习?老男孩python用什么软件...
- 使用git remote提交代码
- 加速repo sync的技巧
- i2c hid 触摸板不能用_零基础学硬件(6):I2C总线的用处
- 综合实例_为啥要做“三维管线综合”?看个实例就明白
- PHP心脏装置,“人工心脏”不再科幻 “钢铁侠”已成现实
- 32. JavaScript 调试
- 代码整洁 vs 代码肮脏
- 抖音autojs 云控脚本源码
- C#调用百度地图API经验分享
- Golang 获取月初和月底日期
- 河南大学计算机学院魏倩,何欣-计算机与信息工程学院官网
- 即日起,发放三种勋章公告。
- 使用cmd安装python的matplotlib库
- 新加坡国立大学尤洋:我的四个选择,本质的喜欢催动长久的坚持丨青源专栏...
- C# API POST与GET的调用
- 一个简单的点对点文件传输程序
- 百度云服务器无法访问项目接口,互联网要点:百度云链接无法访问是怎么回事...
- 西安~培养我的文艺范儿
- jmeter阶梯式线程组