最大熵模型

最大熵原理

最大熵原理：学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型
通常用约束条件来确定概率模型的集合，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
设离散随机变量XXX的概率分布是P(X)P(X)P(X)，其熵是H(P)=−∑xP(x)log⁡P(x)H(P)=-\sum_{x} P(x) \log P(x)H(P)=−x∑P(x)logP(x)满足不等式 0⩽H(P)⩽log⁡∣X∣0 \leqslant H(P) \leqslant \log |X|0⩽H(P)⩽log∣X∣
∣X∣|X|∣X∣是XXX的取值个数，当XXX为均匀分布右边不等式成立，也即XXX服从均匀分布时，熵最大.

最大熵模型的定义
假设分类模型是一个条件概率分布P(Y∣X)P(Y|X)P(Y∣X)，X∈X⊆RnX \in \mathcal{X} \subseteq \mathbf{R}^{n}X∈X⊆Rn表示输入，Y∈YY \in \mathcal{Y}Y∈Y表示输出，X\mathcal{X}X和Y\mathcal{Y}Y分别表示输入和输出的集合，这个模型表示的是对于给定的输入XXX，以及条件概率P(Y∣X)P(Y|X)P(Y∣X)输出YYY
给定一个训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}T={(x1,y1),(x2,y2),⋯,(xN,yN)}学习的目标是用最大熵原理选择最好的分类模型
给定训练数据集，可以确定联合分布P(X,Y)P(X, Y)P(X,Y)的经验分布和边缘分布P(X)P(X)P(X)的经验分布，分布以P~(X,Y)\tilde{P}(X, Y)P~(X,Y)和P~(X)\tilde{P}(X)P~(X)表示，这里P~(X=x,Y=y)=v(X=x,Y=y)N\tilde{P}(X=x, Y=y)=\frac{v(X=x, Y=y)}{N}P~(X=x,Y=y)=Nv(X=x,Y=y) P~(X=x)=v(X=x)N\tilde{P}(X=x)=\frac{v(X=x)}{N}P~(X=x)=Nv(X=x)其中v(X=x,Y=y)v(X=x, Y=y)v(X=x,Y=y)表示训练数据中样本(x,y)(x, y)(x,y)出现的频数，v(X=x)v(X=x)v(X=x)表示训练数据中输入xxx出现的频数，NNN表示训练样本的容量
用特征函数f(x,y)f(x, y)f(x,y)描述输入xxx和输出yyy之间的某一个事实.其定义是f(x,y)={1,xand ysatisfy the fact 0,else f(x, y)=\left\{\begin{array}{l}{1, x \text { and } y \text { satisfy the fact }} \\ {0, \text { else }}\end{array}\right. f(x,y)={1,x and y satisfy the fact 0, else 它是一个二值函数，当xxx和yyy满足这个事实时取值为111，否则取值为000
特征函数f(x,y)f(x, y)f(x,y)关于经验分布P~(X,Y)\tilde{P}(X, Y)P~(X,Y)的期望，用Ep~(f)E_{\tilde{p}}(f)Ep~(f)表示EP~(f)=∑x,yP~(x,y)f(x,y)E_{\tilde{P}}(f)=\sum_{x, y} \tilde{P}(x, y) f(x, y)EP~(f)=x,y∑P~(x,y)f(x,y)特征函数f(x,y)f(x, y)f(x,y)关于模型P~(Y∣X)\tilde{P}(Y|X)P~(Y∣X)与经验分布P~(X)\tilde{P}(X)P~(X)的期望值，用EP(f)E_{P}(f)EP(f)表示EP(f)=∑x,yP~(x)P(y∣x)f(x,y)E_{P}(f)=\sum_{x, y} \tilde{P}(x) P(y | x) f(x, y)EP(f)=x,y∑P~(x)P(y∣x)f(x,y)如果模型能够获取训练数据中的信息，那么就可以假设这两个期望值相等，即EP(f)=Ep~(f)E_{P}(f)=E_{\tilde{p}}(f)EP(f)=Ep~(f)或∑x,yP~(x)P(y∣x)f(x,y)=∑x,yP~(x,y)f(x,y)\sum_{x, y} \tilde{P}(x) P(y | x) f(x, y)=\sum_{x, y} \tilde{P}(x, y) f(x, y)x,y∑P~(x)P(y∣x)f(x,y)=x,y∑P~(x,y)f(x,y)假设有nnn个特征函数fi(x,y),i=1,2,⋯ ,nf_{i}(x, y), \quad i=1,2, \cdots, nfi(x,y),i=1,2,⋯,n,那么就有nnn个约束条件
定义（最大熵模型） 假设满足所有约束条件的模型集合为C≡{P∈P∣EP(fi)=EP~(fi),i=1,2,⋯ ,n}\mathcal{C} \equiv\left\{P \in \mathcal{P} | E_{P}\left(f_{i}\right)=E_{\tilde{P}}\left(f_{i}\right), \quad i=1,2, \cdots, n\right\}C≡{P∈P∣EP(fi)=EP~(fi),i=1,2,⋯,n}定义在条件概率分布P(Y∣X)P(Y | X)P(Y∣X)上的条件熵为H(P)=−∑x,yP~(x)P(y∣x)log⁡P(y∣x)H(P)=-\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)H(P)=−x,y∑P~(x)P(y∣x)logP(y∣x)则模型集合C\mathcal{C}C中条件熵H(P)H(P)H(P)最大的模型称为最大熵模型。

最大熵模型的学习

对于给定的训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}T={(x1,y1),(x2,y2),⋯,(xN,yN)}以及特征函数fi(x,y),i=1,2,⋯ ,nf_{i}(x, y),i=1,2, \cdots, nfi(x,y),i=1,2,⋯,n
最大熵模型的学习等价于约束优化问题：max⁡P∈CH(P)=−∑x,yP~(x)P(y∣x)log⁡P(y∣x)\max _{P \in \mathbf{C}} \quad H(P)=-\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)P∈CmaxH(P)=−x,y∑P~(x)P(y∣x)logP(y∣x)s.t. EP(fi)=EP~(fi),i=1,2,⋯ ,n\text { s.t. } \quad E_{P}\left(f_{i}\right)=E_{\tilde{P}}\left(f_{i}\right), \quad i=1,2, \cdots, n s.t. EP(fi)=EP~(fi),i=1,2,⋯,n∑yP(y∣x)=1\sum_{y} P(y | x)=1y∑P(y∣x)=1等价于min⁡P∈C−H(P)=∑x,yP~(x)P(y∣x)log⁡P(y∣x)\min _{P \in \mathbf{C}}-H(P)=\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)P∈Cmin−H(P)=x,y∑P~(x)P(y∣x)logP(y∣x) s.t. EP(fi)−EP~(fi)=0,i=1,2,⋯ ,n\text { s.t. } \quad E_{P}\left(f_{i}\right)-E_{\tilde{P}}\left(f_{i}\right)=0, \quad i=1,2, \cdots, n s.t. EP(fi)−EP~(fi)=0,i=1,2,⋯,n ∑yP(y∣x)=1\sum_{y} P(y | x)=1y∑P(y∣x)=1具体推导：w0,w1,w2,⋯ ,wnw_{0}, w_{1}, w_{2}, \cdots, w_{n}w0,w1,w2,⋯,wn，定义拉格朗日函数L(P,w)L(P, w)L(P,w)：L(P,w)≡−H(P)+w0(1−∑yP(y∣x))+∑i=1nwi(Ep~(fi)−EP(fi))=∑x,yP~(x)P(y∣x)log⁡P(y∣x)+w0(1−∑yP(y∣x))+∑i=1nwi(∑x,yP~(x,y)fi(x,y)−∑x,yP~(x)P(y∣x)fi(x,y))\begin{aligned} L(P, w) \equiv &-H(P)+w_{0}\left(1-\sum_{y} P(y | x)\right)+\sum_{i=1}^{n} w_{i}\left(E_{\tilde{p}}\left(f_{i}\right)-E_{P}\left(f_{i}\right)\right) \\=& \sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)+w_{0}\left(1-\sum_{y} P(y | x)\right) \\ &+\sum_{i=1}^{n} w_{i}\left(\sum_{x, y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P(y | x) f_{i}(x, y)\right) \end{aligned}L(P,w)≡=−H(P)+w0(1−y∑P(y∣x))+i=1∑nwi(Ep~(fi)−EP(fi))x,y∑P~(x)P(y∣x)logP(y∣x)+w0(1−y∑P(y∣x))+i=1∑nwi(x,y∑P~(x,y)fi(x,y)−x,y∑P~(x)P(y∣x)fi(x,y))最优化的原始问题是min⁡P∈Cmax⁡wL(P,w)\min _{P \in \mathbf{C}} \max _{w} L(P, w)P∈CminwmaxL(P,w)
对偶问题是max⁡wmin⁡P∈CL(P,w)\max _{w} \min _{P \in \mathbf{C}} L(P, w)wmaxP∈CminL(P,w)由于拉格朗日函数L(P,w)L(P,w)L(P,w)是PPP的凸函数，原始问题的解与对偶问题的解是等价的
首先解对偶问题内部的极小化问题min⁡P∈CL(P,w)\min _{P \in \mathbf C} L(P, w)minP∈CL(P,w)，min⁡P∈CL(P,w)\min _{P \in \mathbf C} L(P, w)minP∈CL(P,w)是www的函数，将其记作Ψ(w)=min⁡P∈CL(P,w)=L(Pw,w)\Psi(w)=\min _{P \in \mathbf{C}} L(P, w)=L\left(P_{w}, w\right)Ψ(w)=P∈CminL(P,w)=L(Pw,w) Ψ(w)\Psi(w)Ψ(w)称为对偶函数，同时，将其解记作Pw=arg⁡min⁡P∈CL(P,w)=Pw(y∣x)P_{w}=\arg \min _{P \in \mathbf{C}} L(P, w)=P_{w}(y | x)Pw=argP∈CminL(P,w)=Pw(y∣x)具体地，求L(P,w)L(P,w)L(P,w)对P(y∣x)P(y|x)P(y∣x)的偏导数∂L(P,w)∂P(y∣x)=∑x,yP~(x)(log⁡P(y∣x)+1)−∑yw0−∑x,y(P~(x)∑i=1nwifi(x,y))=∑x,yP~(x)(log⁡P(y∣x)+1−w0−∑i=1nwifi(x,y))\begin{aligned} \frac{\partial L(P, w)}{\partial P(y | x)} &=\sum_{x, y} \tilde{P}(x)(\log P(y | x)+1)-\sum_{y} w_{0}-\sum_{x, y}\left(\tilde{P}(x) \sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \\ &=\sum_{x, y} \tilde{P}(x)\left(\log P(y | x)+1-w_{0}-\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \end{aligned}∂P(y∣x)∂L(P,w)=x,y∑P~(x)(logP(y∣x)+1)−y∑w0−x,y∑(P~(x)i=1∑nwifi(x,y))=x,y∑P~(x)(logP(y∣x)+1−w0−i=1∑nwifi(x,y))令偏导数等于000，在P~(x)>0\tilde{P}(x)>0P~(x)>0的情况下，解得P(y∣x)=exp⁡(∑i=1nwifi(x,y)+w0−1)=exp⁡(∑i=1nwifi(x,y))exp⁡(1−w0)P(y | x)=\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)+w_{0}-1\right)=\frac{\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{\exp \left(1-w_{0}\right)}P(y∣x)=exp(i=1∑nwifi(x,y)+w0−1)=exp(1−w0)exp(∑i=1nwifi(x,y))由于∑yP(y∣x)=1\sum_{y} P(y | x)=1∑yP(y∣x)=1，得Pw(y∣x)=1Zw(x)exp⁡(∑i=1nwifi(x,y))P_{w}(y | x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))其中，Zw(x)=∑yexp⁡(∑i=1nwifi(x,y))Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)Zw(x)=y∑exp(i=1∑nwifi(x,y)) Zw(x)Z_{w}(x)Zw(x)称为规范化因子；fi(x,y)f_{i}(x, y)fi(x,y)是特征函数；wiw_{i}wi是特征的权值,由上两式表示的模型Pw=Pw(y∣x)P_{w}=P_{w}(y | x)Pw=Pw(y∣x)就是最大熵模型，这里www是最大熵模型中的参数向量之后，求解对偶问题外部的极大化问题max⁡wΨ(w)\max _{w} \Psi(w)wmaxΨ(w)将其解记w∗w^*w∗为，即w∗=arg⁡max⁡wΨ(w)w^{*}=\arg \max _{w} \Psi(w)w∗=argwmaxΨ(w)这就是说可以应用最优化算法求对偶函数Ψ(w){\Psi}(w)Ψ(w)的极大化,得到w∗w^*w∗,用来表示P∗∈CP^{*} \in \mathcal{C}P∗∈C,这里P∗=Pw∗=Pw∗(y∣x)P^{*}=P_{w^{*}}=P_{w^*} (y | x)P∗=Pw∗=Pw∗(y∣x)是学习到的最优模型（最大熵模型），最大熵模型的学习归结为对偶函数Ψ(w){\Psi}(w)Ψ(w)的极大化。

极大似然估计

下证对偶函数的极大化等价于最大熵模型的极大似然估计
已知训练数据的经验分布概率P~(X,Y)\tilde{P}(X, Y)P~(X,Y)，条件概率分布P(Y∣X)P(Y | X)P(Y∣X)的对数似然函数表示为LP~(Pw)=log⁡∏x,yP(y∣x)P~(x,y)=∑x,yP~(x,y)log⁡P(y∣x)L_{\tilde{P}}\left(P_{w}\right)=\log \prod_{x, y} P(y | x)^{\tilde{P}(x, y)}=\sum_{x, y} \tilde{P}(x, y) \log P(y | x)LP~(Pw)=logx,y∏P(y∣x)P~(x,y)=x,y∑P~(x,y)logP(y∣x)当条件概率分布P(y∣x)P(y | x)P(y∣x)是最大熵模型时，对数似然函数LP~(Pw)L_{\tilde{P}}\left(P_{w}\right)LP~(Pw)为LP~(Pw)=∑x,yP~(x,y)log⁡P(y∣x)L_{\tilde{P}}\left(P_{w}\right)=\sum_{x, y} \tilde{P}(x, y) \log P(y | x)LP~(Pw)=x,y∑P~(x,y)logP(y∣x)=∑x,yP~(x,y)∑i=1nwifi(x,y)−∑x,yP~(x,y)log⁡Zw(x)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x, y} \tilde{P}(x, y) \log Z_{w}(x)=x,y∑P~(x,y)i=1∑nwifi(x,y)−x,y∑P~(x,y)logZw(x)=∑x,yP~(x,y)∑i=1nwifi(x,y)−∑xP~(x)log⁡Zw(x)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log Z_{w}(x)=x,y∑P~(x,y)i=1∑nwifi(x,y)−x∑P~(x)logZw(x)再看对偶函数Ψ(w){\Psi}(w)Ψ(w)，由拉格朗日函数L(P,w)≡−H(P)+w0(1−∑yP(y∣x))+∑i=1nwi(Ep~(fi)−EP(fi))=∑x,yP~(x)P(y∣x)log⁡P(y∣x)+w0(1−∑yP(y∣x))+∑i=1nwi(∑x,yP~(x,y)fi(x,y)−∑x,yP~(x)P(y∣x)fi(x,y))\begin{aligned} L(P, w) \equiv &-H(P)+w_{0}\left(1-\sum_{y} P(y | x)\right)+\sum_{i=1}^{n} w_{i}\left(E_{\tilde{p}}\left(f_{i}\right)-E_{P}\left(f_{i}\right)\right) \\=& \sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)+w_{0}\left(1-\sum_{y} P(y | x)\right) \\ &+\sum_{i=1}^{n} w_{i}\left(\sum_{x, y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P(y | x) f_{i}(x, y)\right) \end{aligned}L(P,w)≡=−H(P)+w0(1−y∑P(y∣x))+i=1∑nwi(Ep~(fi)−EP(fi))x,y∑P~(x)P(y∣x)logP(y∣x)+w0(1−y∑P(y∣x))+i=1∑nwi(x,y∑P~(x,y)fi(x,y)−x,y∑P~(x)P(y∣x)fi(x,y))及Ψ(w)=min⁡P∈CL(P,w)=L(Pw,w)\Psi(w)=\min _{P \in \mathbf{C}} L(P, w)=L\left(P_{w}, w\right)Ψ(w)=minP∈CL(P,w)=L(Pw,w)可得Ψ(w)=∑x,yP~(x)Pw(y∣x)log⁡Pw(y∣x)+∑i=1nwi(∑x,yP~(x,y)fi(x,y)−∑x,yP~(x)Pw(y∣x)fi(x,y))\begin{aligned} \Psi(w)=& \sum_{x, y} \tilde{P}(x) P_{w}(y | x) \log P_{w}(y | x) \\ &+\sum_{i=1}^{n} w_{i}\left(\sum_{x, y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P_{w}(y | x) f_{i}(x, y)\right) \end{aligned}Ψ(w)=x,y∑P~(x)Pw(y∣x)logPw(y∣x)+i=1∑nwi(x,y∑P~(x,y)fi(x,y)−x,y∑P~(x)Pw(y∣x)fi(x,y))=∑x,yP~(x,y)∑i=1nwifi(x,y)+∑x,yP~(x)Pw(y∣x)(log⁡Pw(y∣x)−∑i=1nwifi(x,y))=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)+\sum_{x, y} \tilde{P}(x) P_{w}(y | x)\left(\log P_{w}(y | x)-\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)=x,y∑P~(x,y)i=1∑nwifi(x,y)+x,y∑P~(x)Pw(y∣x)(logPw(y∣x)−i=1∑nwifi(x,y))=∑x,yP~(x,y)∑i=1nwifi(x,y)−∑x,yP~(x)Pw(y∣x)log⁡Zw(x)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P_{w}(y | x) \log Z_{w}(x)=x,y∑P~(x,y)i=1∑nwifi(x,y)−x,y∑P~(x)Pw(y∣x)logZw(x)=∑x,yP~(x,y)∑i=1nwifi(x,y)−∑xP~(x)log⁡Zw(x)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log Z_{w}(x)=x,y∑P~(x,y)i=1∑nwifi(x,y)−x∑P~(x)logZw(x)最后一步用到∑yP(y∣x)=1\sum_{y} P(y | x)=1∑yP(y∣x)=1
比较LP~(Pw)L_{\tilde{P}}\left(P_{w}\right)LP~(Pw)和Ψ(w)\Psi(w)Ψ(w)，可得Ψ(w)=LP~(Pw)\Psi(w)=L_{\tilde{P}}\left(P_{w}\right)Ψ(w)=LP~(Pw)对偶函数等价于对数似然函数LP~(Pw)L_{\tilde{P}}\left(P_{w}\right)LP~(Pw)，于是证明了最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计。
最大熵模型一般形式
Pw(y∣x)=1Zw(x)exp⁡(∑i=1nwifi(x,y))P_{w}(y | x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))其中， Zw(x)=∑yexp⁡(∑i=1nwifi(x,y))Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)Zw(x)=∑yexp(∑i=1nwifi(x,y))这里，x∈Rnx \in \mathbf{R}^{n}x∈Rn为输入，y∈{1,2,⋯ ,K}y \in\{1,2, \cdots, K\}y∈{1,2,⋯,K}为输出，w∈Rnw \in \mathbf{R}^{n}w∈Rn为权值向量，fi(x,y),i=1,2,⋯ ,nf_{i}(x, y), i=1,2, \cdots, nfi(x,y),i=1,2,⋯,n为任意实值特征函数.

模型学习的最优化算法

常用的方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法
改进的迭代尺度法
最大熵模型为Pw(y∣x)=1Zw(x)exp⁡(∑i=1nwifi(x,y))P_{w}(y | x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))其中， Zw(x)=∑yexp⁡(∑i=1nwifi(x,y))Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)Zw(x)=y∑exp(i=1∑nwifi(x,y))对数似然函数为L(w)=∑x,yP~(x,y)∑i=1nwifi(x,y)−∑xP~(x)log⁡Zw(x)L(w)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log Z_{w}(x)L(w)=x,y∑P~(x,y)i=1∑nwifi(x,y)−x∑P~(x)logZw(x)目标是通过极大似然函数学习模型的参数，即求对数似然函数的极大值w^\hat{{w}}w^
IIS\mathrm{IIS}IIS的想法是:假设最大熵模型当前的参数向量是w=(w1,w2,⋯ ,wn)Tw=\left(w_{1}, w_{2}, \cdots, w_{n}\right)^{\mathrm{T}}w=(w1,w2,⋯,wn)T，我们希望找到一个新的参数向量w+δ=(w1+δ1,w2+δ2,⋯ ,wn+δn)Tw+\delta=\left(w_{1}+\delta_{1}, w_{2}+\delta_{2}, \cdots, w_{n}+\delta_{n}\right)^{\mathrm{T}}w+δ=(w1+δ1,w2+δ2,⋯,wn+δn)T，使得模型的对数似然函数值增大。如果能有这样一种参数向量更新的方法τ:w→w+δ\tau : w \rightarrow w+\deltaτ:w→w+δ，那么就可以重复使用这一方法，直至找到对数似然函数的最大值。
对于给定的经验分布P~(x,y)\tilde{P}(x, y)P~(x,y)，模型参数www从到w+δw+\deltaw+δ，对数似然函数的改变量是L(w+δ)−L(w)=∑x,yP~(x,y)log⁡Pw+δ(y∣x)−∑x,yP~(x,y)log⁡Pw(y∣x)=∑x,yP~(x,y)∑i=1nδifi(x,y)−∑xP~(x)log⁡Zw+δ(x)Zw(x)\begin{aligned} L(w+\delta)-L(w) &=\sum_{x, y} \tilde{P}(x, y) \log P_{w+\delta}(y | x)-\sum_{x, y} \tilde{P}(x, y) \log P_{w}(y | x) \\ &=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log \frac{Z_{w+\delta}(x)}{Z_{w}(x)} \end{aligned}L(w+δ)−L(w)=x,y∑P~(x,y)logPw+δ(y∣x)−x,y∑P~(x,y)logPw(y∣x)=x,y∑P~(x,y)i=1∑nδifi(x,y)−x∑P~(x)logZw(x)Zw+δ(x)利用不等式−log⁡α⩾1−α,α>0-\log \alpha \geqslant 1-\alpha, \quad \alpha>0−logα⩾1−α,α>0建立对数似然函数改变量的下界：
L(w+δ)−L(w)⩾∑x,yP~(x,y)∑i=1nδifi(x,y)+1−∑xP~(x)Zw+δ(x)Zw(x)L(w+\delta)-L(w) \geqslant \sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \frac{Z_{w+\delta}(x)}{Z_{w}(x)}L(w+δ)−L(w)⩾x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)Zw(x)Zw+δ(x) =∑x,yP~(x,y)∑i=1nδifi(x,y)+1−∑xP~(x)∑yPw(y∣x)exp⁡∑i=1nδifi(x,y)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \exp \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)=x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)y∑Pw(y∣x)expi=1∑nδifi(x,y)将右端记为A(δ∣w)=∑x,yP~(x,y)∑i=1nδifi(x,y)+1−∑xP~(x)∑yPw(y∣x)exp⁡∑i=1nδifi(x,y)A(\delta | w)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \exp \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)A(δ∣w)=x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)y∑Pw(y∣x)expi=1∑nδifi(x,y)于是有L(w+δ)−L(w)⩾A(δ∣w)L(w+\delta)-L(w) \geqslant A(\delta | w)L(w+δ)−L(w)⩾A(δ∣w)即A(δ∣w)A({\delta} | {w})A(δ∣w)是对数似然函数改变量的一个下界
如果能够找到适当的δ\deltaδ使下界A(δ∣w)A({\delta} | {w})A(δ∣w)提高，那么对数似然函数也会提高，然而，函数A(δ∣w)A({\delta} | {w})A(δ∣w)中的δ\deltaδ是一个向量，含有多个变量，不易同时优化。IIS\mathrm{IIS}IIS试图一次只优化其中一个变量δi\delta_{i}δi，而固定其他变量δj,i≠j\delta_{j}, \quad i \neq jδj,i̸=j。为达到这一目的，IIS\mathrm{IIS}IIS进一步降低下界A(δ∣w)A({\delta} | {w})A(δ∣w)。具体地，IIS引进一个量f#(x,y)f^{\#}(x, y)f#(x,y)，f#(x,y)=∑ifi(x,y)f^{\#}(x, y)=\sum_{i} f_{i}(x, y)f#(x,y)=i∑fi(x,y)因为fif_ifi是二值函数，故f#(x,y)f^{\#}(x, y)f#(x,y)表示所有特征在(x,y)(x,y)(x,y)出现的次数，这样A(δ∣w)A({\delta} | {w})A(δ∣w)可以写成A(δ∣w)=∑x,yP~(x,y)∑i=1nδifi(x,y)+1−∑xP~(x)∑yPw(y∣x)exp⁡(f#(x,y)∑i=1nδifi(x,y)f#(x,y))A({\delta} | w)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \exp \left(f^{\#}(x, y) \sum_{i=1}^{n} \frac{\delta_{i} f_{i}(x, y)}{f^{\#}(x, y)}\right)A(δ∣w)=x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)y∑Pw(y∣x)exp(f#(x,y)i=1∑nf#(x,y)δifi(x,y))
利用指数函数的凸性以及对任意iii，有fi(x,y)f#(x,y)⩾0\frac{f_{i}(x, y)}{f^{\#}(x, y)} \geqslant 0f#(x,y)fi(x,y)⩾0且∑i=1nfi(x,y)f#(x,y)=1\sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{\#}(x, y)}=1∑i=1nf#(x,y)fi(x,y)=1
根据Jensen不等式，得到exp⁡(∑i=1nfi(x,y)f#(x,y)δif#(x,y))⩽∑i=1nfi(x,y)f#(x,y)exp⁡(δif#(x,y))\exp \left(\sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{\#}(x, y)} \delta_{i} f^{\#}(x, y)\right) \leqslant \sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{\#}(x, y)} \exp \left(\delta_{i} f^{\#}(x, y)\right)exp(i=1∑nf#(x,y)fi(x,y)δif#(x,y))⩽i=1∑nf#(x,y)fi(x,y)exp(δif#(x,y))
于是可改写为A(δ∣w)⩾∑x,yP~(x,y)∑i=1nδifi(x,y)+1−∑xP~(x)∑yPw(y∣x)∑i=1n(fi(x,y)f#(x,y))exp⁡(δif#(x,y))A({\delta} | w) \geqslant \sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \sum_{i=1}^{n}\left(\frac{f_{i}(x, y)}{f^{\#}(x, y)}\right) \exp \left(\delta_{i} f^{\#}(x, y)\right)A(δ∣w)⩾x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)y∑Pw(y∣x)i=1∑n(f#(x,y)fi(x,y))exp(δif#(x,y))记上式不等式右端为B(δ∣w)=∑x,yP~(x,y)∑i=1nδifi(x,y)+1−∑xP~(x)∑yPw(y∣x)∑i=1n(fi(x,y)f#(x,y))exp⁡(δif#(x,y))B(\delta | w)=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \sum_{i=1}^{n}\left(\frac{f_{i}(x, y)}{f^{\#}(x, y)}\right) \exp \left(\delta_{i} f^{\#}(x, y)\right)B(δ∣w)=x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)y∑Pw(y∣x)i=1∑n(f#(x,y)fi(x,y))exp(δif#(x,y))于是得到L(w+δ)−L(w)⩾B(δ∣w)L(w+\delta)-L(w) \geqslant B(\delta | w)L(w+δ)−L(w)⩾B(δ∣w)这里，B(δ∣w)B(\delta | w)B(δ∣w)是对似然函数改变量的一个新的（相对不紧的）下界
求B(δ∣w)B(\delta | w)B(δ∣w)对δi\delta_{i}δi的偏导数:∂B(δ∣w)∂δi=∑xyP~(x,y)fi(x,y)−∑xP~(x)∑yPw(y∣x)fi(x,y)exp⁡(δif#(x,y))\frac{\partial B({\delta} | w)}{\partial \delta_{i}}=\sum_{x y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) f_{i}(x, y) \exp \left(\delta_{i} f^{\#}(x, y)\right)∂δi∂B(δ∣w)=xy∑P~(x,y)fi(x,y)−x∑P~(x)y∑Pw(y∣x)fi(x,y)exp(δif#(x,y))在上式里，除δi\delta_{i}δi外不含任何其他变量，令偏导数为000得到∑x,yP~(x)Pw(y∣x)fi(x,y)exp⁡(δif#(x,y))=Ep~(fi)\sum_{x, y} \tilde{P}(x) P_{w}(y | x) f_{i}(x, y) \exp \left(\delta_{i} f^{\#}(x, y)\right)=E_{\tilde{p}}\left(f_{i}\right)x,y∑P~(x)Pw(y∣x)fi(x,y)exp(δif#(x,y))=Ep~(fi)于是，依次对δi\delta_{i}δi求解方上式程可以求出δ\deltaδ
这就给出了一种求www的最优解的迭代算法，即改进的迭代尺度算法IIS\mathrm{IIS}IIS
拟牛顿法
对最大熵模型而言，Pw(y∣x)=exp⁡(∑i=1nwifi(x,y))∑yexp⁡(∑i=1nwifi(x,y))P_{w}(y | x)=\frac{\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}Pw(y∣x)=∑yexp(∑i=1nwifi(x,y))exp(∑i=1nwifi(x,y))目标函数：min⁡w∈Rnf(w)=∑xP~(x)log⁡∑yexp⁡(∑i=1nwifi(x,y))−∑x,yP~(x,y)∑i=1nwifi(x,y)\min _{w \in \mathbf{R}^{n}} f(w)=\sum_{x} \tilde{P}(x) \log \sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)-\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)w∈Rnminf(w)=x∑P~(x)logy∑exp(i=1∑nwifi(x,y))−x,y∑P~(x,y)i=1∑nwifi(x,y)梯度：g(w)=(∂f(w)∂w1,∂f(w)∂w2,⋯ ,∂f(w)∂wn)Tg(w)=\left(\frac{\partial f(w)}{\partial w_{1}}, \frac{\partial f(w)}{\partial w_{2}}, \cdots, \frac{\partial f(w)}{\partial w_{n}}\right)^{\mathrm{T}}g(w)=(∂w1∂f(w),∂w2∂f(w),⋯,∂wn∂f(w))T其中∂f(w)∂wi=∑x,yP~(x)Pw(y∣x)fi(x,y)−EP~(fi),i=1,2,⋯ ,n\frac{\partial f(w)}{\partial w_{i}}=\sum_{x, y} \tilde{P}(x) P_{w}(y | x) f_{i}(x, y)-E_{\tilde{P}}\left(f_{i}\right), \quad i=1,2, \cdots, n∂wi∂f(w)=x,y∑P~(x)Pw(y∣x)fi(x,y)−EP~(fi),i=1,2,⋯,n

《统计学习方法》 李航

第六章最大熵原理相关推荐

应用信息论基础第六章最大熵原理及应用笔记
6.1 基本概念熵越大,无序性越大. 6.2 最大熵理论的由来因为这是一个孤立系统. 6.3 最大熵原理从倒数第三行到倒数第二行: 倒数第三行=∑xλ0p(x)+∑xp(x)∑iλifi(x)= ...
Data Warehouse And Data Mining —— chapter 06 —— 第六章数据仓库原理——数据仓库与数据挖掘教程——第二版
机器学习理论《统计学习方法》学习笔记：第六章逻辑斯谛回归与最大熵模型
机器学习理论<统计学习方法>学习笔记:第六章逻辑斯谛回归与最大熵模型 6 逻辑斯谛回归与最大熵模型 6.1 逻辑斯谛回归模型 6.1.1 逻辑斯谛分布 6.1.2 二项逻辑斯蒂回归模型 ...
Unix原理与应用学习笔记----第六章文件的基本属性2
Unix原理与应用学习笔记----第六章文件的基本属性2 改变文件权限命令:chmod 提示:文件或目录创建后,就被赋予一组默认的权限.所有的用户都有读,只有文件的所有者才有写. 相对权限设置 Ch ...
【数据库原理及应用】经典题库附答案（14章全）——第六章：关系数据库设计过程
[数据库原理及应用]经典题库附答案(14章全)--第一章:数据库基础知识 [数据库原理及应用]经典题库附答案(14章全)--第二章:关系数据库知识 [数据库原理及应用]经典题库附答案(14章全)--第 ...
mysql mof提权原理_[原创]WEB安全第六章提权篇12 mof提权
WEB安全第六章提权篇12 mof提权 1.mof是什么托管对象格式 (MOF) 文件是创建和注册提供程序.事件类别和事件的简便方法.在 MOF 文件中创建类实例和类定义后,可以对该文件进行编译.编 ...
【重识云原生】第六章容器6.1.7.2节——cgroups原理剖析
<重识云原生系列>专题索引: 第一章--不谋全局不足以谋一域第二章计算第1节--计算虚拟化技术总述第二章计算第2节--主流虚拟化技术之VMare ESXi 第二章计算第3节--主流虚拟 ...
传感器原理与检测技术复习笔记第六章-压电式传感器
第六章压电式传感器文章目录第六章压电式传感器工作原理压电效应正压电效应逆压电效应压电材料石英晶体(单晶体) 压电陶瓷(多晶体) 压电式传感器等效电路压电式传感器的测量电路压电元 ...
第六章微型计算机,微型计算机原理及应用第六章微型计算机的接口技术
微型计算机原理及应用第六章微型计算机的接口技术 (124页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 9.90 积分 l第6章微型计算机接口技术第 ...

第六章最大熵原理

最大熵模型

最大熵原理