信息熵(Entropy):解决信息的度量问题

一条信息的信息量与其不确定性有直接的关系,如果对一件事情了解的很多,那么信息少一些,也能知晓事情本身;反之,如果对事情没有一点了解,那么则需要大量信息来对事情进行知晓。因此,信息量就等于不确定性的多少。

香农利用“比特(Bit)”来度量信息量,一个bit是一位二进制数,1字节=8bit。信息量的比特数与所有可能情况的对数函数log有关。

信息熵的定义如下:

由于熵的单位是二进制位(bit),所以是以log2为底,以下都是以log2为底。约定0log0=0

变量的不确定越大,熵也就越大,信息量也就越大。在热力学中,熵变是指体系混乱程度的变化,熵是衡量系统无序的度量。因此在信息论中利用"熵"这个词来表示。

我们知道的信息越多,随机事件的不确定性越小,不仅仅是直接相关信息(X)与事件有直接关系,一些相关信息(Y)也能够帮助我们去了解事件,增加确定性。因此,引入了“条件熵”(Conditional Entropy)。

定义在Y的条件下的条件熵为:

证明:H(X) >= H(X|Y)   ----->>>>熵越大不确定性越大,加入Y后不确定性减小。当Y信息是与X毫无关系的信息时,等号成立。(后补)

在上面提到了,Y是与X相关的信息,才会对X的熵产生影响。那么如何衡量,两者的相关性大小?

香农提出利用“互信息(Mutual Information)”来度量X与Y相关性的大小:

互信息定义如下:

可以证明:

也就是说两个事件相关性的度量,就是在了解Y的情况下, 对于消除X不确定性所提供的信息量。

信息量被广泛用于度量一些语言现象的相关性。比如机器翻译领域需要解决单词的二义性问题:Bush(布什or灌木)。在这个里面,可以利用互信息解决了这个问题。找出与布什互信息较大的词语,与灌木互信息较大的词语。然后等 Bush出现后,查看其上下文中哪类次出现频率高,那么基本可以断定这里的Bush为哪个含义。

相对熵(Relative Entropy),也被称为Kullback-Leibler散度,是用来衡量两个取值为正数的函数的相关性。

定义如下:

关于相对熵的三条结论:

(1)对于两个完全相同的函数,他们的相对熵等于0,KL(P||Q)>=0。

(2)相对熵越大,两个函数差异越大,反则亦然

(3)对于概率分布或者概率密度函数,如果取值均大于0,相对熵可以度量两个随机分布的差异性。

相对熵是不对称的,即:

为了解决这个问题,提出了一种新的相对熵的计算方法如下:

相对熵有很多应用,衡量连个常用词在不同文本的概率分布中,是否为同义词。贾里尼克从条件熵和相对熵的角度出发,定义了一个新的语言模型复杂度,用来衡量语言模型的好坏。

参考文献:

[1]吴军-数学之美(第二版)第六章

熵(Entropy) 条件熵 (Conditional Entropy) 相对熵(Relative Entropy)- 学习笔记相关推荐

  1. [ML]熵、KL散度、信息增益、互信息-学习笔记

    [ML]熵.KL散度.信息增益.互信息-学习笔记 https://segmentfault.com/a/1190000000641079 转载于:https://www.cnblogs.com/zha ...

  2. “熵”详细学习笔记——什么是熵?有什么性质?联合熵等其他熵的作用

    熵大概是统计学.信息学中最让人纠结的基本概念之一.很多的人对于熵是什么多多少少能说出一二,但是不能准确的表达出来.我们都知道熵可以用来描述含有的信息丰富程度的多少,但具体指什么呢? 在讲到熵之前,在这 ...

  3. TensorFlow学习笔记(二十三)四种Cross Entropy交叉熵算法实现和应用

    交叉熵(Cross-Entropy) 交叉熵是一个在ML领域经常会被提到的名词.在这篇文章里将对这个概念进行详细的分析. 1.什么是信息量? 假设是一个离散型随机变量,其取值集合为,概率分布函数为 p ...

  4. 相对熵与交叉熵_详解机器学习中的熵、条件熵、相对熵、交叉熵

    目录 信息熵 条件熵 相对熵 交叉熵 总结 一  信息熵 (information entropy) 熵 (entropy) 这一词最初来源于热力学.1948年,克劳德·爱尔伍德·香农将热力学中的熵引 ...

  5. 联合熵、条件熵、互信息、相对熵、交叉熵的详解

    本篇博客,我们将介绍联合熵.条件熵.互信息.相对熵.交叉熵,如果对熵的概念还有不清楚的朋友,可以看一下这一篇博客,信息熵是什么呢? https://blog.csdn.net/ding_program ...

  6. 解释机器学习中的熵、联合熵、条件熵、相对熵和交叉熵

    原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...

  7. 详解机器学习中的熵、条件熵、相对熵、交叉熵

    欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 目录 信息熵 条件熵 相对熵 交叉熵 总结 一 信息熵 (info ...

  8. 【机器学习】信息论基础(联合熵、条件熵、交叉熵、KL散度等)+ Python代码实现

    文章目录 一.基本概念 1.1 联合熵 1.2 条件熵 1.3 交叉熵 1.3.1 Python编程实现交叉熵计算 1.4相对熵(KL散度) 1.4.1 Python编程实现KL散度计算 二.自信息和 ...

  9. 机器学习中的数学——距离定义(二十):相对熵(Relative Entropy)/KL散度(Kullback-Leibler Divergence)

    分类目录:<机器学习中的数学>总目录 相关文章: · 距离定义:基础知识 · 距离定义(一):欧几里得距离(Euclidean Distance) · 距离定义(二):曼哈顿距离(Manh ...

最新文章

  1. 喜欢绘画学的计算机,为什么有的人画画非常好却对计算机一窍不通
  2. vue 定义全局函数
  3. mysql8.0.23下载安装详细教程
  4. opencore0.6.4_心灵终结3.3.4
  5. 滑动验证前端代码实现
  6. Teams Bot开发系列:初识Bot
  7. 奇怪的电梯(信息学奥赛一本通-T1360)
  8. c语言对抗程序代码,C语言贪吃蛇源程序代码双人对抗
  9. 聊下并发和Tomcat线程数(错误更正)
  10. easyui的tree获取父节点_通过DOM API 查找节点
  11. 【译】采用微前端架构
  12. Keil出现 err:Cannot read project file异常;err:点击Project闪退
  13. 无类IP地址与子网的算法
  14. 条件期望与全期望公式
  15. 腾达路由器 远端服务器未响应,腾达路由器设置完成不能上网的解决办法
  16. gc overhead limit exceeded解决方案
  17. 浅谈叠片过滤器设计选型与技术要求
  18. 家常菜做法:熬萝卜粉丝
  19. xp系统sc服务器,SC怎么封装xp系统
  20. 推荐一招适合新手做网站引流量的方法,方法简单但实际有效

热门文章

  1. springboot 链接elasticsearch
  2. [转]条形码基本知识教程 Code39码
  3. 【转】sp,lr,pc即汇编语言中几个常见寄存器的使用
  4. GGS-DDU 【HDU - 4966】【最小树形图】
  5. 小项目:生成随机的测验试卷文件_python
  6. 有5个人围坐在一起,问第5个人多大年纪,他说比第4个人大2岁;问第4个人,他说比第3个人大2岁;问第3个人,他说比第2个人大2岁;问第2个人,他说比第1个人大2岁。
  7. 查看android系统版本号
  8. MSDN Library for Visual Studio 2008 SP1 下载
  9. mac 上的有道词典查第一个词时卡死
  10. Facebook三大黑料