关于信息论中熵的定义与含义:
信息熵:
1. 热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。
2. ;两个独立符号所产生的不确定性应等于各自不确定性之和
3. 在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。
对于当个符号,它的概率为p时,用这个公式衡量它的不确定性:
而信源的平均不确定性,称为信息熵,用下面的公式表示:
注意:1. 当式中的对数的底为2时,信息熵的单位为比特。它底数为其它时,它对应的单位也不一样。
2. 信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。
以上内容来自:http://baike.baidu.com/link?url=eX6fx7VJkYByHdKxKo_TF7mQL86IdokHni2lUGu46k_iL_AoQY_aOY_AQG3ZWFfmx64a9GengJkyLS8w79SEBrFlUhqYlzXdIKTK1e7wQ1L28ctUBfa4m6IXtZyHxsq0
条件熵:
设X,Y是两个离散型随机变量,随机变量X给定的条件下随机变量Y的条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。 公式推导如下:
注意:
注意:1. 这个条件熵,不是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少,而是期望! 因为条件熵中X也是一个变量,意思是在一个变量X的条件下(变量X的每个值都会取),另一个变量Y熵对X的期望。
2. 在计算信息增益的时候,经常需要用到条件熵。信息增益(information gain)是指期望信息或者信息熵的有效减少量(通常用“字节”衡量)。通常表示为:信息熵 - 条件熵;在决策树中就是根据信息增益选择特征的;
以上内容参考:https://mp.weixin.qq.com/s/v7-hhDVJUQKgNECcgab1qg
相对熵 或 K-L散度
设p(x)和q(x)是 X 取值的两个概率分布,则 p 对于 q 的相对熵为:
它其实吧,有点意思的, 卡式可以写成这样子:
KL散度是两个概率分布P和Q差别的非对称性的度量。KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q 表示数据的理论分布,模型分布,或P的近似分布。
注意:1. KL散度不是对称的,即:
2. 相对熵的值为非负值。 可以从一个很重要的不等式中推论出来,即吉布斯不等式:
以上内容参考:http://blog.csdn.net/acdreamers/article/details/44657745
交叉熵:
它的公式如下:
它的本质含义为:编码方案不一定完美时,平均编码的长度是多少。
通过公式很好理解。。。。 再结合相对熵更容易明白什么含义了。
另外, 我自己补充一点:
在人工神经网络中,我们有时候会作用交叉熵作为代价函数,此时吧,我们实际上是把输出看作为一个贝努力分布的的。论文 Extracting and composing robust features with denoising autoencoders里有说明。
上面三者的区别:
下面是一个总结,我在知乎上看到的,我的理解也是这个意思,这里引用过来:
1)信息熵:编码方案完美时,最短平均编码长度的是多少。
2)交叉熵:编码方案不一定完美时(由于对概率分布的估计不一定正确),平均编码长度的是多少。
平均编码长度 = 最短平均编码长度 + 一个增量
3)相对熵:编码方案不一定完美时,平均编码长度相对于最小值的增加值。(即上面那个增量)作者:张一山
链接:https://www.zhihu.com/question/41252833/answer/140950659
来源:知乎
互信息:
先说点其它的:有两个变量,分别为X与Y, 则X的信息熵为H(X), Y的信息熵为H(Y), 然后呢,
问: x与y的联合分布的信息熵,就可以表示为H(X,Y) 。如果 X与Y独立的话,则有 H(X,Y) = H(X) + H(Y)。如果不独立的话,则有:H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)。
现在呢,互信息就可以表示为:
I(X,Y) = H(X) + H(Y) – H(X,Y)
这个公式,对应的含义就是:它可以看成是一个随机变量中包含的关于另一个随机变量的信息量。
另外,我们还可以把互信息写为: I(X,Y) = H(X) – H(X|Y) = H(Y) – H(Y|X)
此时,互信息可以说成一个随机变量由于已知另一个随机变量而减少的不肯定性。
是不是有点意思??很好理解吧。
关于信息论中熵的定义与含义:相关推荐
- 关于信息论中熵、相对熵、条件熵、互信息、典型集的一些思考
1. 绪论 0x1:信息论与其他学科之间的关系 信息论在统计物理(热力学).计算机科学(科尔莫戈罗夫复杂度或算法复杂度).统计推断(奥卡姆剃刀,最简洁的解释最佳)以及概率和统计(关于最优化假设检验与估 ...
- 关于信息论中熵、相对熵、、条件熵、互信息、典型集的一些思考
1. 绪论 0x1:信息论与其他学科之间的关系 信息论在统计物理(热力学).计算机科学(科尔莫戈罗夫复杂度或算法复杂度).统计推断(奥卡姆剃刀,最简洁的解释最佳)以及概率和统计(关于最优化假设检验与估 ...
- 计算机中熵与信息熵的概念及来源
熵 (统计物理与信息论术语) 熵的概念 [1] 是由德国物理学家克劳修斯于1865年所提出.最初是用来描述"能量退化"的物质状态参数之一,在热力学中有广泛的应用.但那时熵仅仅是一 ...
- 信息论中的熵(香农熵)
表示一个数所需最少位bit 很简单, 如果数为x, 则最少需要 lb(x) = log2(x) 位bit来表示 很明显这个对大多数x得到的是一个小数 则 LOG2(x) = [log2(x)] 其中 ...
- UA MATH636 信息论1 熵
UA MATH636 信息论1 熵 基本概念 熵.条件熵.交叉熵 K-L Divergence 互信息 基本性质 链式法则 Jensen不等式与Gibbs不等式 熵的有界性 Conditioning ...
- 信息论中的一些基本的知识
(以下内容来自维基百科:) 自信息:由克劳德·香农提出,是与概率空间中的单一事件或离散随机变量的值相关的信息量的量度.它的定义为:一个随机产生的事件所包含的自信息数量,只与事件发生的概率相关.事件发生 ...
- 手机可用熵_信息论的熵
我们现在不是讨论事物本身的信息量,而是讨论描述事物的文字符号包含的信息量.先讨论比较简单的数字符号. 二进制数:二进制数只有2个符号:0和1.一位二进制数有2种可能性,其信息量是1比特.n位二进制数可 ...
- mysql数据库系统配置文件_跟我学虚拟机系统平台相关技术及应用——在CentOS系统中的MySql数据库系统配置文件中进行配置定义...
跟我学虚拟机系统平台相关技术及应用--在CentOS系统中的MySql数 据库系统配置文件中进行配置定义 1.1.1MySql5.6数据库系统的配置文件 1.不同作用范围内的系统配置文件 (1)/et ...
- ArcGIS中的坐标系定义与转换 (转载)
原文:ArcGIS中的坐标系定义与转换 (转载) 1.基准面概念: GIS中的坐标系定义由基准面和地图投影两组参数确定,而基准面的定义则由特定椭球体及其对应的转换参数确定,因此欲正确定义GIS系统坐 ...
最新文章
- JavaScript实现智能搜索框
- 人人都能看懂的LSTM
- Everything排除某个目录、隐藏文件、系统文件
- Java Servlet 编程,重定向介绍
- 国科大prml-往年习题
- NOI数据结构:树套树
- 新版JupyterLab快捷键+调试技巧(建议收藏)
- UVA10852 Less Prime【筛选法】
- mysql之 xtrabackup原理、备份日志分析、备份信息获取
- 知也atitit.解决struts2 SpringObjectFactory.getClassInstance NullPointerException v2 q31无涯 - I
- Kepware与C#
- 目前Java编程语言最流行的7个框架,你了解多少?
- ckpt为savermodel模型并TRT调用的问题
- python: 从pdf中提取图片
- 关于微信录音的坑-Linux服务器上进行音频格式的转换
- 超级码力在线编程大赛初赛 第2场 1.三角魔法
- 彻底搞懂Lab 颜色空间
- redis系列---让人懵逼的七连问
- 乔布斯前传:混沌岁月塑造独特性格
- (一)买基金的基础知识