GAN的理论基础之KL散度与JS散度

在介绍KL散度和JS散度之前，我们需要了解什么是信息熵，什么是交叉熵。

香农信息量、信息熵

香农信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小

当对数的底数为2时，香农信息量的单位为比特

香农信息量描述的是随机变量在某一点处的信息量，而衡量随机变量在整个样本空间的信息量，就需要用随机变量X的信息熵，可以将信息熵理解为是香农信息量的数学期望，即P(x)加权求和，因此可以将信息熵理解为消除随机变量不确定性所需的总体信息量的大小，熵越大，随机变量的不确定性就越大，数学定义如下：

交叉熵

假设用q(x)来拟合p(x)的概率分布，交叉熵用来描述p和q的相似性，表示在给定的真实分布下，使用非真实分布用来消除系统不确定性所需付出的努力的大小。由于在每一点x处q的香农信息量为-logq(x)，那么在整个样本空间相处不确定性而使用的信息量为其数学期望，由于每个x的权重为p(x)，以此交叉熵为：

交叉熵可以在神经网络中作为损失函数，p表示真实的标记分布，q表示训练后的预测标记分布，交叉熵损失函数可以衡量p和q的相似性。它作为损失函数的一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

KL散度

两个概率分布p和q的KL散度，也称为相对熵，它用于描述概率分布q拟合概率分布p的程度。在生成对抗网络里，p为真实数据的概率分布，q为随机噪声生成数据的概率分布，对抗的目的是让q充分拟合p。如果q完全拟合p，就偶遇H(p)=H(p,q)，如果拟合不充分，就会产生信息损耗H(p)-H(p,q)，整个信息损耗就是p和q的KL散度，定义如下：

散度D(p||q)为信息熵H(p)与交叉熵H(p,q)的差，衡量q拟合p的过程中的信息损耗，损耗越少，拟合的越好。

还有种理解是KL散度的计算就是原分布与近似分布的概率的对数差的期望值。

注意：KL散度不是距离

因此KL散度不具有交换性，所以不能理解为距离的概念，衡量的并不是两分布在空间中的远近，更准确的理解应该是衡量一个分布比另一个分布的信息损失。

KL散度总是大于0，由吉布斯不等式可得，且在P=Q时等于0

相对熵也可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为0，当两个随机分布的差别增大时，它们的相对熵也会增大。所以相对熵可以用于比较文本的相似度，先统计出词的频率，然后计算相对熵。

JS散度

JS散度用于衡量两种分布之间的差异，它用在生成对抗网络的数学推到上，克服了KL散度不是距离、不对称的缺点

它的定义如下：

参考资料：https://baijiahao.baidu.com/s?id=1595106694519834247&wfr=spider&for=pc

https://www.zhihu.com/question/41252833