正向KL散度与反向KL散度

KL散度的公式是
KL[p(x)∣∣q(x)]=∫xp(x)logp(x)q(x)dxKL[p(x)||q(x)] = \int_{x}p(x)log{p(x) \over q(x)}dx KL[p(x)∣∣q(x)]=∫xp(x)logq(x)p(x)dx

假设真实分布为p(x)p(x)p(x)，我们想用分布q(x)q(x)q(x)去近似p(x)p(x)p(x)，我们很容易想到用最小化KL散度来求，但由于KL散度是不对称的，所以并不是真正意义上的距离，那么我们是应该用KL[p∣∣q]KL[p||q]KL[p∣∣q]还是用KL[q∣∣p]KL[q||p]KL[q∣∣p]?

下面就来分析这两种情况：

正向KL散度: KL[p∣∣q]KL[p||q]KL[p∣∣q]

KL[p∣∣q]KL[p||q]KL[p∣∣q]被称为正向KL散度，其形式为：
q^=argminq∫xp(x)logp(x)q(x)dx(1)\tag{1} \hat{q} = argmin_{q} \int_{x}p(x)log{p(x) \over q(x)}dx q^=argminq∫xp(x)logq(x)p(x)dx(1)
仔细观察（1）式，p(x)p(x)p(x)是已知的真实分布，要求使上式最小的q(x)q(x)q(x)。

考虑当p(x)=0p(x)=0p(x)=0时，这时q(x)q(x)q(x)取任何值都可以，因为logp(x)q(x)log{p(x) \over q(x)}logq(x)p(x)这一项对整体的KL散度没有影响。当p(x)>0p(x)>0p(x)>0时，logp(x)q(x)log{p(x) \over q(x)}logq(x)p(x)这一项对整体的KL散度就会产生影响，为了使（1）式最小，q(x)q(x)q(x)又处于logp(x)q(x)log{p(x) \over q(x)}logq(x)p(x)中分母的位置，所以q(x)q(x)q(x)尽量大一些才好。

总体而言，对于正向 KL 散度，在p(x)p(x)p(x)大的地方，想让 KL 散度小，就需要 q(x)q(x)q(x) 的值也尽量大；在p(x)p(x)p(x)小的地方，q(x)q(x)q(x)对整体 KL 影响并不大（因为 log 项本身分子很小，又乘了一个非常小的 p(x)）。换一种说法，要想使正向 KL 散度最小，则要求在 ppp 不为 0 的地方，qqq 也尽量不为 0，所以正向 KL 散度被称为是 zero avoiding。此时得到的分布 qqq 是一个比较 “宽” 的分布。

反向KL散度：KL[q∣∣p]KL[q||p]KL[q∣∣p]

KL[q∣∣p]KL[q||p]KL[q∣∣p]被称为反向KL散度，其形式为：
q^=argminq∫xq(x)logq(x)p(x)dx(2)\tag{2} \hat{q} = argmin_{q} \int_{x}q(x)log{q(x) \over p(x)}dx q^=argminq∫xq(x)logp(x)q(x)dx(2)
仔细观察（2）式，p(x)p(x)p(x)是已知的真实分布，要求使上式最小的q(x)q(x)q(x)。

考虑当p(x)=0p(x)=0p(x)=0时，这时为了使（2）式变小，q(x)q(x)q(x)取0值才可以，否则（2）式就会变成无穷大。当p(x)>0p(x)>0p(x)>0时，为了使（2）式变小，必须在p(x)p(x)p(x)小的地方，q(x)q(x)q(x)也小。在p(x)p(x)p(x)大的地方可以适当忽略。换一种说法，要想使反向 KL 散度最小，则要求在 ppp 为 0 的地方，qqq 也尽量为 0，所以反向 KL 散度被称为是 zero forcing。此时得到分布 qqq 是一个比较 “窄” 的分布。

一个例子

假如p(x)p(x)p(x)是两个高斯分布的混合，q(x)q(x)q(x)是单个高斯，用q(x)q(x)q(x)去近似p(x)p(x)p(x)，两种KL散度该如何选择？

对于正向KL散度来说，q(x)q(x)q(x)的分布图像更符合第二行，正向KL散度更在意p(x)p(x)p(x)中的常见事件，也就是首先要保证p(x)p(x)p(x)峰值附近的xxx，在q(x)q(x)q(x)中的概率密度值不能为0。当 ppp 具有多个峰时，qqq 选择将这些峰模糊到一起，以便将高概率质量放到所有峰上。

对于反向KL散度来说，q(x)q(x)q(x)的分布图像更符合第二行。反向KL散度更在意p(x)p(x)p(x)中的罕见事件，也就是首先要保证p(x)p(x)p(x)低谷附件的xxx，在q(x)q(x)q(x)中的概率密度值也较小。当 ppp 具有多个峰并且这些峰间隔很宽时，如该图所示，最小化 KL 散度会选择单个峰，以避免将概率密度放置在ppp的多个峰之间的低概率区域中。

在机器学习的变分推理中使用的是反向KLKLKL。

参考：https://lumingdong.cn/various-entropies-in-machine-learning.html