一 信息熵

1948年香农提出了信息熵(Entropy)的概念。

假如事件A的分类划分是(A1,A2,...,An),每部分发生的概率是(p1,p2,...,pn),那信息熵定义为公式如下:

吴军在《数学之美系列四--怎样度量信息?》中认为信息熵的大小指的的是了解一件事情所需要付出的信息量是多少,这件事的不确定性越大,要搞清它所需要的信息量也就越大,也就是它的信息熵越大。

Matrix67在《互联网时代的社会语言学:基于SNS的文本数据挖掘》认为信息熵衡量的是在你知道一个事件的结果后平均会给你带来多大的信息量。如果一颗骰子的六个面都是 1 ,投掷它不会给你带来任何新信息,因为你知道它的结果肯定是1,它的信息熵为 - log(1) = 0 。(log是以2为底,lg是以10为底)

两种解释在不同的应用上可以有不同的理解。例如在《文本分类入门(十一)特征选择方法之信息增益》可以看出在文本分类中对信息熵的理解是第二种。不过,两种理解其实都指出了信息熵的另一个作用,就是信息熵可以衡量事物的不确定性,这个事物不确定性越大,信息熵也越大

为何信息熵会有这样的作用?为何它的公式这样表示?所以还需要理解信息量这一的概念。香农用“比特”这个概念来度量信息量。也即信息量的多少就是比特的多少

拿吴军举的例子来讲,32只球队共有32种夺冠的可能性,用多少信息量才能包括这32个结果?按照计算机的二进制(只有1和0)表示法,我们知道2^5=32 ,也就是需要5符号的组合结果就可以完全表示这32个变化,而这里的符号通常称之为比特。既然是这样,那么当一件事的结果越不确定时,也就是变化情况越多时,那么你若想涵盖所有结果,所需要的比特就要越多,也就是,你要付出的信息量越大,也即信息熵越大。当然,每个变化出现的概率不同,因而在香农的公式中才会用概率,所以信息熵算的是了解这件事所付出的平均信息量。比如这个例子里假设32只球队夺冠可能性相同,即Pi=1/32 ,那么按照香农公式计算:

entropy(P1,P2,...,P32)=-(1/32)log(1/32)-(1/32)log(1/32)......-(1/32)log(1/32)

=5/32+5/32...+5/32

=(5*32)/32

=5

二 信息增益(又称相对熵[relative entropy]、k-l散度[Kullback–Leibler divergence]、信息散度[information divergence])

在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。

详细的应用实例可见这篇文章《信息增益》和《归纳决策树ID3(Java实现)》

信息熵与信息增益的理解相关推荐

  1. 信息量、信息熵、信息增益的理解

    文章目录 一.信息量 1. 一些概念的理解 2. 用概率表示信息量 二.信息熵 1. 信息熵的计算方法 2. 信息熵的最大值.最小值 三.信息增益(Information Gain) 1. 定义 2. ...

  2. id3决策树_信息熵、信息增益和决策树(ID3算法)

    决策树算法: 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据. 缺点:可能会产生过度匹配问题. 适用数据类型:数值型和标称型. 算法原理: 决策树是一个简单的为 ...

  3. 【机器学习-西瓜书】四、决策树:信息熵;信息增益;增益率;ID3;C4.5

    推荐阅读:纯度:信息熵:信息增益 关键词: 纯度:信息熵:信息增益:增益率:ID3:C4.5:基尼指数:预剪枝:后剪枝 4.1基本流程 关键词:决策树(decision tree) 决策树是一种分类方 ...

  4. 超详细的信息熵、信息增益、信息增益比、基尼系数

    一.信息 在开始解释信息熵和信息增益之前,我们先来解释一下什么是信息:能消除不确定性的内容才能叫信息,而告诉你一个想都不用想的事实,那不叫信息. 比如数据分析师的工作经常是要用数据中发现信息,有一天上 ...

  5. 信息熵、信息增益与信息增益率

    信息熵.信息增益与信息增益率 信息熵.信息增益与信息增益率 信息熵(Information Entropy) 信息增益(Information Gain) 信息增益率(Information Gain ...

  6. 信息熵、信息增益以及决策树

    什么是信息熵? 信息熵是信息论的范畴,利用概率论和统计的方法,因此信息熵也被称为基于概率分布的信息熵.在介绍信息熵概念之前,先介绍一个基本的概念:区分能力.所谓区分能力是指把对象划分到具体分组的能力, ...

  7. 对信息熵,信息增益的研究

    对信息熵,信息增益的研究 0 引言 1948年香农提出"信息熵"的概念,解决了对信息的量化度量问题.信息熵这个词是C.E.香农从热力学中借用过来的.热力学中的热熵是表示分子状态混乱 ...

  8. 决策树——信息熵与信息增益

    参考:[https://www.cnblogs.com/YouXiangLiThon/p/7214393.html] 1.信息熵.条件熵.信息增益 信息熵(Entropy):度量随机变量Y={c1,c ...

  9. 信息熵,信息增益详解

    信息熵 信息熵的意义 信息熵主要研究的是对一个信号能够提供信息的多少进行量化.1948年,香农引入信息熵,将其定义为离散随机事件的出现概率.一个系统越是有序,信息熵就越低:反之,一个系统越是混乱,信息 ...

最新文章

  1. Android 开发者该如何进阶?
  2. 深度解析java内存原理
  3. 神经网络与深度学习笔记
  4. matlab设计理想数字带通滤波器,基于matlab的数字带通滤波器课程设计报告
  5. 无人驾驶出租车遭警察拦截后欲“潜逃”,AI 是原罪?
  6. mysql时长用什么类型_MySQL 日期时间类型怎么选?千万不要乱用!
  7. 怎样快速学会python_python入门如何更快的学习
  8. SQL Server数据库中的T-SQL如果存在语句概述
  9. (libgdx学习)InputProcessor InputMultiplexer
  10. android 自定义edittext方框样式,Android之EditText自定义边框和边框颜色(转载)
  11. 解决远程桌面无法复制黏贴
  12. vue单页面应用中node做反向代理的原理
  13. java web程序设计与..._Java Web程序设计
  14. 程序员,小红书王牌生活记录家。这是一篇记录程序员生涯的笔记。
  15. 药店管理系统|数据库设计
  16. 好男儿当生三国 好女子当养唐朝
  17. 收藏!5款超级好用的小工具推荐,各个都是同类软件中的翘楚
  18. 【助教工作】2021团队项目助教跟班全攻略
  19. 分享4个不为人知的高质量APP,每一个都实力爆棚!
  20. 电力系统暂态稳定性Matlab编程/ Simulink仿真 单机无穷大系统发生各类(三相短路,单相接地,两相接地,两相相间短路)等短路故障

热门文章

  1. Integer’s Power HDU - 3208(容斥原理)
  2. ubuntu 只有客人会话登录(第一次深刻感受文件权限的威力 )
  3. stdafx.h 的作用
  4. Ubuntu SSH root user cannot login
  5. GridView滚动条
  6. Apache 创建虚拟主机目录和设置默认访问页面
  7. 陕西国防 c语言第三章实训三答案,C语言程序设计(上)
  8. Python如何防止sql注入
  9. 11.2.1 jQuery介绍与使用
  10. 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言——1101:不定方程求解