一文详解概率潜在语义分析 pLSA

1. 基本思想

2. 生成模型

3. pLSA 的 EM 算法

3.1 E-step

3.2 M-step

3.3 pLSA 参数估计的 EM 算法

4. EM 算法的另一种解释

4.1 E-Step

4.2 M-Step

5. PSLA 缺点

Reference

Probabilistic latent semantic analysis (概率潜在语义分析，pLSA) 是一种Topic Model，在99年被 Thomas Hofmann 提出[1]。它和随后提出的LDA使得 Topic Model 成为了研究热点，其后的模型大都是建立在二者的基础上的。

1. 基本思想

PLSA模型通过一个生成模型来为LSA赋予了概率意义上的解释。该模型假设，每一篇文档都包含一系列可能的潜在话题，文档中的每一个单词都不是凭空产生的，而是在这些潜在的话题的指引下通过一定的概率生成的。

在 PLSA 模型里面，话题其实是一种单词上的概率分布，每一个话题都代表着一个不同的单词上的概率分布，而每个文档又可以看成是话题上的概率分布。每篇文档就是通过这样一个两层的概率分布生成的，这也正是PLSA 提出的生成模型的核心思想。

主题示例：给定一组词：证明,推导,对象,酒庄,内存，下列三个主题可以表示为：

数学主题：(0.45, 0.35, 0.2, 0, 0)
计算机主题：(0.2, 0.15, 0.45, 0, 0.2)
红酒主题：(0, 0, 0.2, 0.8, 0)

	证明	推导	对象	酒庄	内存
数学	0.45	0.35	0.2	0	0
计算机	0.2	0.15	0.45	0	0.2
红酒	0	0	0.2	0.8	0

PLSA 的特点：

利用概率生成模型对文本集合进行话题分析的无监督学习方法
最大特点：用隐变量表示话题
整个模型表示文本生成话题，话题生成单词，从而得到单词-文本共现数据的过程
假设每个文本由一个话题分布决定，每个话题由一个单词分布决定

2. 生成模型

pLSA 遵从 bag-of-words 假设，即只考虑一篇文档中单词出现的次数，忽略单词的先后次序关系，且每个单词的出现都是彼此独立的。这样一来，我们观察到的其实就是每个单词 $w\in W$ 在每篇文档 $d\in D$ 中出现的次数 $n(w,d)$ 。 pLSA 还假设对于每对出现的 $(d,w)$ 都对应着一个表示“主题”的隐藏变量 $z\in Z$ 。 pLSA 是一个生成模型，它假设 、和 $z$ 之间的关系用贝叶斯网络表示，如下图：

实心的节点 $d$ 和 $w$ 表示我们能观察到的文档和单词，空心的 $z$ 表示我们观察不到的隐藏变量，用来表示隐含的主题。 $P(d_i)$ 表示单词出现在文档 $d_i$ 的概率， $P(z_k\mid d_i)$ 表示文档 $d_i$ 中出现主题 $z_k$ 下的单词的概率， $P(w_j\mid z_k)$ 给定主题 $z_k$ 出现单词 $w_j$ 的概率。并且每个主题在所有词项上服从Multinomial 分布，每个文档在所有主题上服从Multinomial 分布。整个文档的生成过程是这样的：

以 $P(d_i)$ 的概率选中文档 $d_i$ ;
以 $P(z_k\mid d_i)$ 的概率选中主题 $z_k$ ;
以 $P(w_j\mid z_k)$ 的概率产生一个单词.

我们可以观察到的数据就是 $(d_i,w_j)$ 对，而 $z_k$ 是隐含变量。PLSA 通过下面这个式子对 $(d_i,w_j)$ 的联合分布进行了建模（为方便，省略了下标）:

$P(d,w)=P(d)\sum_zP(w,z\mid d)=P(d)\sum_z P(z\mid d)P(w\mid d,z)\\ =P(d)\sum_z P(z\mid d)P(w\mid z)$

其中， $P(z_k\mid d_i)$ 和 $P(w_j\mid z_k)$ 分布对应了两组Multinomial 分布，我们需要估计这两组分布的参数。

记 $\theta = (P(z\mid d),P(w\mid z))$ ，表示我们希望估计的模型参数。对于每对 $(w_j,z_k)$ 和 $(d_i,z_k)$ ，我们都希望知道 $P(z_k\mid d_i)$ 和 $P(w_j\mid z_k)$ 的值，也就是说，模型中共有 $|Z|\cdot|D|+|W|\cdot|Z|$ 个参数。

下面给出用EM算法估计PLSA参数的详细推导过程。

3. pLSA 的 EM 算法

根据最大对数似然估计，要求求解

$\arg \max\limits_{\theta}L(\theta)=\arg \max\limits_{\theta} \sum_{d,w} n(d,w)log P(d,w;\theta)\\ =\arg \max\limits_{\theta}\{\sum_{d,w}n(d,w)log P(w\mid d;\theta)+\sum_{d,w}n(d,w)logP(d)\}$

由于 $\sum_{d,w}n(d,w)logP(d)$ 这一项与 $\theta$ 无关，可扔掉。

因此

$\arg \max\limits_{\theta}L(\theta)=\arg \max\limits_{\theta}\sum_{d,w}n(d,w)log P(w\mid d;\theta) \\ = \arg \max\limits_{\theta}\sum_{d,w}n(d,w)log \sum_z P(w\mid z)P(z\mid d)$

这里出现了 $\log$ 套 $\sum$ 的形式，导致很难直接最大似然。假如能观测到z，问题就很简单了。于是想到根据EM算法，假设我们已知在观测 $d$ , $w$ 下 $z$ 的概率分布 $P(z\mid d,w;\theta^t)$ ，对上面公式做一个变换，

$\arg \max\limits_{\theta}L(\theta)=\arg \max\limits_{\theta}\sum_{d,w}n(d,w)log \sum_z P(z\mid d,w;\theta^t) \frac{P(w\mid z)P(z\mid d)}{P(z\mid d,w;\theta^t)} \\ =\arg \max\limits_{\theta}\sum_{d,w}n(d,w)log E_{z|d,w;\theta^t}[\frac{P(w\mid z)P(z\mid d)}{P(z\mid d,w;\theta^t)}]$

根据 Jensen 不等式有

$log E_{z|d,w;\theta^t}[\frac{P(w\mid z)P(z\mid d)}{P(z\mid d,w;\theta^t)}] \ge E_{z|d,w;\theta^t}log \frac{P(w\mid z)P(z\mid d)}{P(z\mid d,w;\theta^t)}$

省去与 $\theta$ 无关的项，问题变成了最大化 $L(\theta)$ 的一个下界函数 $Q(\theta,\theta^t)$ ，即

$\arg \max\limits_{\theta} Q(\theta, \theta^t) = \arg \max\limits_{\theta} \sum_{d,w} n(d,w) E_{z\mid d,w;\theta ^t}[log P(w\mid z)P(z\mid d)] \\ = \arg \max\limits_{\theta} \sum_{d,w} n(d,w) \sum_z P(z\mid d,w;\theta^t)[log P(w\mid z)+logP(z\mid d)]$

另一种推导方式，直接套用 EM 算法公式，求完全数据的对数似然函数关于隐变量的期望，完全数据的对数似然为

$log P(D,W,Z) = log \prod_d P(d) \prod_w P(w,z\mid d)^{n(d,w)} \\= \sum_d log P(d) + \sum_{d,w}n(d,w)log P(w,z\mid d)$

第一项与隐变量无关，省掉，于是得到

$\arg \max\limits_{\theta} Q(\theta, \theta^t) = \arg \max\limits_{\theta} \sum_{d,w} n(d,w) E_{z\mid d,w;\theta ^t}[log P(w,z\mid d;\theta)]$

其中

$E_{z\mid d,w;\theta ^t}[log P(w,z\mid d;\theta)]=\sum_z P(z\mid d,w;\theta ^t)log P(w,z\mid d;\theta) \\ =\sum_z P(z\mid d,w;\theta ^t)[log P(w\mid z)+log P(z\mid d)]$

3.1 E-step

在 E-step，我们需要求出
中除 $\theta$ 外的其他未知量，也就是说对于每组 $(d_i,w_j,z_k)$ ，我们都需要求出 $P(z_k\mid d_i, w_j;\theta^t)$ 。根据贝叶斯定理，

$P(z_k\mid d_i,w_j;\theta^t) = \frac{P_t(z_k\mid d_i)P_t(w_j\mid z_k)}{\sum_z P_t(z\mid d_i)P_t(w_j\mid z)}$

其中 $P_t(z\mid d)$ 和 $P_t(w\mid z)$ 就是上轮迭代求出的 $\theta^t$ 。

$P(z\mid d,w) = \frac{P(d,z,w)}{P(d,w)}=\frac{P(d)P(z\mid d)P(w\mid z)}{P(d)\sum_z P(z\mid d)P(w\mid z)} = \frac{P(z\mid d)P(w\mid z)}{\sum_z P(z\mid d)P(w\mid z)}$

3.2 M-step

M-step 就是要求 $\arg \max\limits_{\theta} Q(\theta, \theta^t)$ 了，通过约束最优化求解Q函数的极大值，因为 $P(z_k\mid d_i)$ 和 $P(w_j\mid z_k)$

满足约束条件：

$\sum_k P(z_k\mid d_i) = 1, i=1,2,\cdots N \\ \sum_jP(w_j\mid z_k)=1, k=1,2,\cdots, K$

应用拉格朗日法，引入拉格朗日乘子 $\tau_k$ 和 $\rho_i$ ，定义拉格朗日函数 $\Lambda$

$\Lambda = \sum_{i,j} n(d_i,w_j) \sum_k P(z_k\mid d_i,w_j;\theta^t)[log P(w_j\mid z_k) +logP(z_k\mid d_i)] \\+ \sum_k \tau_k(1-\sum_j P(w_j\mid z_k))\\ +\sum_i \rho_i(1- \sum_k P(z_k\mid d_i))$

将拉格朗日函数分别对 $P(w_j\mid z_k)$ 和 $P(z_k\mid d_i)$ 求偏导数，并令其等于0.

(1) 对 $P(w_j\mid z_k)$ 求偏导：

$\sum_i n(d_i,w_j)P(z_k\mid d_i,w_j;\theta^t)-\tau_k P(w_j\mid z_k)=0$

解得 $P_{t+1}(w_j\mid z_k)= \frac{\sum_d n(d,w_j)P(z_k\mid d,w_j;\theta^t)}{\tau_k}$

上式对 j 进行求和，得

$\sum_j\sum_i n(d_i,w_j)P(z_k\mid d_i,w_j;\theta^t)-\tau_k \sum_j P(w_j\mid z_k)=0$

求得 $\tau_k = \sum_{d,w} n(d,w)P(z_k\mid d,w;\theta^t)$

解得，

$P_{t+1}(w_j\mid z_k) = \frac{\sum_d n(d,w_j) P(z_k\mid d,w_j;\theta^t)}{\sum_{d,w}n(d,w)P(z_k\mid d, w;\theta^t)}$

其物理意义为：单词 $w_j$ 在数据集 D 中属于主题 $z_k$ 的频数（按概率计数），除以数据集中属于主题 $z_k$ 的频数（按概率计数）。

(2) 对 $P(z_k\mid d_i)$ 求偏导：

$\sum_j n(d_i,w_j)P(z_k\mid d_i,w_j;\theta^t)-\rho_i P(z_k\mid d_i)=0$

同上，上式对 k 进行求和，解得 $\rho_i$ ，进一步，解得

$P_{t+1}(z_k\mid d_i) = \frac{\sum_w n(d_i,w) P(z_k\mid d_i,w;\theta^t)}{\sum_{w,z}n(d_i,w)P(z\mid d_i, w;\theta^t)}=\frac{\sum_w n(d_i,w) P(z_k\mid d_i,w;\theta^t)}{n(d_i)}$

其物理意义：文档 $d_i$ 中每个位置背后的、属于主题 $z_k$ 的频数（按概率计数），除以位置的个数。

3.3 pLSA 参数估计的 EM 算法

输入：设单词集合为 $W=\{w_1,w_2,\cdots, w_M\}$ , 文本集合为 $D=\{d_1,d_2,\cdots,d_N\}$ , 话题集合为 $Z=\{z_1,z_2,\cdots,z_K\}$ , 共现数据 $\{n(w_j,d_i)\},i=1,2,\cdots,N, j=1,2,\cdots,M;$

输出： $P(z_k\mid d_i)$ 和 $P(w_j\mid z_k).$

(1) 设置参数 $P(z_k\mid d_i)$ 和 $P(w_j\mid z_k)$ 的初始值；

(2) 迭代执行以下 E 步、M 步，直到收敛为止；

E 步：

$P(z_k\mid d_i,w_j;\theta^t) = \frac{P_t(z_k\mid d_i)P_t(w_j\mid z_k)}{\sum_z P_t(z\mid d_i)P_t(w_j\mid z)}$

M 步：

$P_{t+1}(w_j\mid z_k) = \frac{\sum_d n(d,w_j) P(z_k\mid d,w_j;\theta^t)}{\sum_{d,w}n(d,w)P(z_k\mid d, w;\theta^t)}$

$P_{t+1}(z_k\mid d_i) =\frac{\sum_w n(d_i,w) P(z_k\mid d_i,w;\theta^t)}{n(d_i)}$

4. EM 算法的另一种解释

4.1 E-Step

E是Expection(期望)的意思，即根据上一轮得到的模型参数求隐含变量的期望，对应到PLSA模型中就是根据上轮得到的模型参数 $P(z_k\mid d_i)$ 和 $P(w_j\mid z_k)$ 计算每篇文档中每个词背后对应的主题的概率 $P(z_k\mid d_i,w_j)$ 。如下图，从 $d_i$ 到 $w_j$ 一共有 K 条路径，途经 $z_k$ 的概率为

$P(z_k\mid d_i,w_j) = \frac{P(z_k\mid d_i)P(w_j\mid z_k)}{\sum_k P(z_k\mid d_i)P(w_j\mid z_k)}$

这里的条件概率 $P(z_k\mid d_i)$ 和 $P(w_j\mid z_k)$ 是由上一轮的M-Step得到的，初始时 $P(z_k\mid d_i)$ 和 $P(w_j\mid z_k)$ 由随机赋值得到。

4.2 M-Step

在已知后验概率的情况下通过 MLE 的方法求条件概率。当我们已知所有的 $P(z_k\mid d_i,w_j)$ 时，统计一下在所有文章中由 $z_k$ 到 $w_j$ 的次数，再统计一下在所有文章中由 $z_k$ 到任意 $w$ 的次数，两个次数相除就得到了 $P(w_j\mid z_k)$

$P(w_j\mid z_k) = \frac{\sum_d n(d,w_j)P(z_k\mid d,w_j)}{\sum_d\sum_w n(d,w)P(z_k\mid d,w)}$

同样，统计一下在文章 $d_i$ 当中主题 $z_k$ 出现的次数，再统计一下文章 $d_i$ 中所有主题 $z$ 的出现次数，两者相除就得到了 $P(z_k\mid d_i)$

$P(z_k\mid d_i) = \frac{\sum_w n(d_i,w)P(z_k\mid d_i,w)}{\sum_w\sum_z n(d_i, w) P(z\mid d_i,w)}$

5. PSLA 缺点

对于一个新的文档而言，我们无法得知它对应的P(d) 究竟是什么，因此尽管 PLSA 模型在给定的文档上是一个生成模型，它却无法生成新的未知的文档。该模型的另外的一个问题在于，随着文档数量的增加，P(z|d) 的参数也会随着线性增加，这就导致无论有多少训练数据，都容易导致模型的过拟合问题。这两点成为了限制 PLSA 模型被更加广泛使用的两大缺陷。

Reference

[1] Hofmann T. Probabilistic latent semantic analysis[J]. arXiv preprint arXiv:1301.6705, 2013.

[2] 主题模型 - AI 算法工程师手册

[3] http://blog.tomtung.com/2011/10/plsa/

[4] https://www.cnblogs.com/zhangchaoyang/articles/5668024.html