在介绍KL散度和JS散度之前,我们需要了解什么是信息熵,什么是交叉熵。

香农信息量、信息熵

香农信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小

当对数的底数为2时,香农信息量的单位为比特

香农信息量描述的是随机变量在某一点处的信息量,而衡量随机变量在整个样本空间的信息量,就需要用随机变量X的信息熵,可以将信息熵理解为是香农信息量的数学期望,即P(x)加权求和,因此可以将信息熵理解为消除随机变量不确定性所需的总体信息量的大小,熵越大,随机变量的不确定性就越大,数学定义如下:

交叉熵

假设用q(x)来拟合p(x)的概率分布,交叉熵用来描述p和q的相似性,表示在给定的真实分布下,使用非真实分布用来消除系统不确定性所需付出的努力的大小。由于在每一点x处q的香农信息量为-logq(x),那么在整个样本空间相处不确定性而使用的信息量为其数学期望,由于每个x的权重为p(x),以此交叉熵为:

交叉熵可以在神经网络中作为损失函数,p表示真实的标记分布,q表示训练后的预测标记分布,交叉熵损失函数可以衡量p和q的相似性。它作为损失函数的一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。

KL散度

两个概率分布p和q的KL散度,也称为相对熵,它用于描述概率分布q拟合概率分布p的程度。在生成对抗网络里,p为真实数据的概率分布,q为随机噪声生成数据的概率分布,对抗的目的是让q充分拟合p。如果q完全拟合p,就偶遇H(p)=H(p,q),如果拟合不充分,就会产生信息损耗H(p)-H(p,q),整个信息损耗就是p和q的KL散度,定义如下:

散度D(p||q)为信息熵H(p)与交叉熵H(p,q)的差,衡量q拟合p的过程中的信息损耗,损耗越少,拟合的越好。

还有种理解是KL散度的计算就是原分布与近似分布的概率的对数差的期望值。

注意:KL散度不是距离

因此KL散度不具有交换性,所以不能理解为距离的概念,衡量的并不是两分布在空间中的远近,更准确的理解应该是衡量一个分布比另一个分布的信息损失。

KL散度总是大于0,由吉布斯不等式可得,且在P=Q时等于0

相对熵也可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为0,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵可以用于比较文本的相似度,先统计出词的频率,然后计算相对熵。

JS散度

JS散度用于衡量两种分布之间的差异,它用在生成对抗网络的数学推到上,克服了KL散度不是距离、不对称的缺点

它的定义如下:

参考资料:https://baijiahao.baidu.com/s?id=1595106694519834247&wfr=spider&for=pc

https://www.zhihu.com/question/41252833

GAN的理论基础之KL散度与JS散度相关推荐

  1. 信息量、信息熵、交叉熵、KL散度、JS散度、Wasserstein距离

    前两篇介绍了目标检测中的回归损失函数,本来这篇打算介绍目标检测中的分类损失函数.但是介绍classification loss function自然绕不过交叉熵,所以还是简单的把信息论中的一些概念在这 ...

  2. 信息量、熵、交叉熵、KL散度、JS散度、Wasserstein距离

    信息量.熵.交叉熵.KL散度.JS散度 文章目录 信息量.熵.交叉熵.KL散度.JS散度 前言 一.信息量 二.熵 三.交叉熵 四.KL散度 五.JS散度 六. Wasserstein距离 1.解决的 ...

  3. 区别:KL散度,JS散度,Wasserstein距离(EMD)

    1 .KL散度(相对熵): 性质: ①描述两个概率分布P,Q之间的差异 ②非负性:当且仅当两分布相同,相对熵等于0 ③非对称性:D(p||q)≠D(q||p) ④不是距离,且不满足三角不等式 ⑤相对熵 ...

  4. 信息量、熵、交叉熵、KL散度、JS散度杂谈

    信息量.熵.交叉熵.KL散度.JS散度杂谈 信息量 任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同.如昨天下雨这个已知事件,因为已经发生,既定事实,那 ...

  5. GANs之信息量、信息熵、交叉熵、KL散度、JS散度、Wasserstein距离

    信息量也叫做香农信息量,常用于刻画消除随机变量X在x处的不确定性所需的信息量大小.假设只考虑连续型随机变量的情况,设p为随机变量X的概率分布,即p(x)为随机变量X在X=x处的概率密度函数值,随机变量 ...

  6. KL散度、JS散度与wasserstein距离

    KL散度 KL散度又称为相对熵,信息散度,信息增益.公式定义如下: KL散度可称为KL距离,但它并不满足距离的性质: (1)KL散度不是对称的: (2)KL散度不满足三角不等式. JS散度 JS散度度 ...

  7. KL散度,JS散度,余弦距离,欧式距离

    散度:量化两种概率分布P和Q之间差异的方式:相当于衡量两个函数之间的关系 GAN是最小化JS散度 VAE是最小化KL散度 KL散度(不对称):设p为随机变量X的概率分布,即p(x)为随机变量X在X=x ...

  8. 【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度

    1 信息熵 熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据. 1.1 信息熵的性质 单调性,发生概率越高的事件,其 ...

  9. kl散度与js散度_数据集相似度度量之KLamp;JS散度

    一.KL散度 1.什么是KL散度 KL散度又叫相对熵,是描述两个概率分布差异的一种方法,有人将KL散度称为KL距离,但实际上它不满足距离概念中的两个条件,a.对称性,即D(P||Q)=D(Q||P); ...

  10. 交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)

    目录: 信息量 熵 相对熵(KL散度) 交叉熵 JS散度 推土机理论 Wasserstein距离 WGAN中对JS散度,KL散度和推土机距离的描述 信息量: 任何事件都会承载着一定的信息量,包括已经发 ...

最新文章

  1. OpenStack Heat模板详解
  2. 二维树状数组 ----2021广东省赛 ----- K - Kera‘s line segment[区间转二维平面+树状数组维护前缀最小最大值]
  3. Nature: 海洋病毒对环境基因组和潜在的生物地球化学影响
  4. 半圆阴影_圆中阴影部分面积求法的常用方法
  5. 小米笔记本air无法充电_惠普笔记本电池无法充电问题的解决方法
  6. Android Studio导入项目非常慢的解决办法
  7. 【Python学习】 - sklearn学习 - 自带数据集sklearn.datasets.x
  8. 05-sqlyog的安装与基本使用
  9. jquery-文档操作-标签取值-输入控件取值与赋值
  10. python 的输入规整
  11. Python 迭代器和 C++ 迭代器,最大的不同竟然是......
  12. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 130: invalid continuat
  13. Microsoft SQL Server数据库学习(一)
  14. 码农干货系列【6】--javascript异步编程之:世界上最短的Promise库
  15. JAVA格式化输出字串
  16. python html5游戏_分享八款经典HTML5小游戏源码
  17. 客房管理系统类毕业论文文献都有哪些?
  18. Redis5.0新特性-集群管理器由redis-trib.rb迁移到redis-cli
  19. 瘦身长腿、日新小清新治愈系、lomo效果
  20. 介绍一款通过软件设置调节显示器亮度的工具:护眼宝

热门文章

  1. iPhone 14 Pro Max拆解:内部元器件供应商名单
  2. 如果服务器被攻击是不是里面所有ip都会暴露?
  3. DevCon.exe 导出output至指定文件
  4. 1.3 VS2015安装教程
  5. 如何将视频转换成文字
  6. 兰勃特等角圆锥(Lambert Conformal Conic)投影正反变换
  7. 大数据技术原理与应用实验4——MapReduce初级编程实践
  8. python 爬取国内高匿代理ip(西刺代理)整站DOWN下来
  9. python微信自动发消息系统
  10. 获取目标服务器c盘下flag文件信息,公开课基础演练靶场 第六章 webshell控制目标详细解题思路...