计算对数似然函数改变量

已知最大熵模型为 P w ( y ∣ x ) = 1 Z w ( x ) e x p ( ∑ i = 1 n w i f i ( x , y ) ) P_{w}(y|x)=\frac{1}{Z_{w}(x)}exp\Big(\sum_{i=1}^nw_{i}f_{i}(x,y)\Big) Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))其中， Z w ( x ) = ∑ y e x p ( ∑ i = 1 n w i f i ( x , y ) ) Z_{w}(x)=\sum_{y}exp\Big(\sum_{i=1}^nw_{i}f_{i}(x,y)\Big) Zw(x)=y∑exp(i=1∑nwifi(x,y))对数似然函数为 L ( w ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) log ⁡ Z w ( x ) L(w)=\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y)-\sum_{x}\tilde{P}(x)\log{Z_{w}(x)} L(w)=x,y∑P~(x,y)i=1∑nwifi(x,y)−x∑P~(x)logZw(x)
推导过程：
对于给定的经验分布 P ~ ( x , y ) \tilde{P}(x,y) P~(x,y)，模型参数从 w w w到 w + δ w+\delta w+δ，对数似然函数的改变量是 L ( w + δ ) − L ( w ) = ∑ x , y P ~ ( x , y ) log ⁡ P w + δ ( y ∣ x ) − ∑ x , y P ~ ( x , y ) log ⁡ P w ( y ∣ x ) L(w+\delta)-L(w)=\sum_{x,y}\tilde{P}(x,y)\log{P_{w+\delta}(y|x)}-\sum_{x,y}\tilde{P}(x,y)\log{P_w(y|x)} L(w+δ)−L(w)=x,y∑P~(x,y)logPw+δ(y∣x)−x,y∑P~(x,y)logPw(y∣x) = ∑ x , y P ~ ( x , y ) log ⁡ ( 1 Z w + δ ( x ) e x p ( ∑ i = 1 n ( w i + δ i ) f i ( x , y ) ) ) − ∑ x , y P ~ ( x , y ) log ⁡ ( 1 Z w ( x ) e x p ( ∑ i = 1 n w i f i ( x , y ) ) ) =\sum_{x,y}\tilde{P}(x,y)\log{\bigg(\frac{1}{Z_{w+\delta}(x)}exp\Big(\sum_{i=1}^n({w_{i}+\delta_{i}})f_{i}(x,y)\Big)\bigg)-\sum_{x,y}\tilde{P}(x,y)\log{\bigg(\frac{1}{Z_{w}(x)}exp\Big(\sum_{i=1}^nw_{i}f_{i}(x,y)\Big)\bigg)}} =x,y∑P~(x,y)log(Zw+δ(x)1exp(i=1∑n(wi+δi)fi(x,y)))−x,y∑P~(x,y)log(Zw(x)1exp(i=1∑nwifi(x,y))) = ∑ x , y P ~ ( x , y ) ( log ⁡ 1 Z w + δ ( x ) + ∑ i = 1 n ( ( w i + δ i ) f i ( x , y ) ) ) − ∑ x , y P ~ ( x , y ) ( log ⁡ 1 Z w ( x ) + ∑ i = 1 n ( w i f i ( x , y ) ) ) =\sum_{x,y}\tilde{P}(x,y)\Big(\log{\frac{1}{Z_{w+\delta}(x)}}+\sum_{i=1}^n((w_{i}+\delta_{i})f_{i}(x,y))\Big)-\sum_{x,y}\tilde{P}(x,y)\Big(\log{\frac{1}{Z_{w}(x)}}+\sum_{i=1}^n(w_{i}f_{i}(x,y))\Big) =x,y∑P~(x,y)(logZw+δ(x)1+i=1∑n((wi+δi)fi(x,y)))−x,y∑P~(x,y)(logZw(x)1+i=1∑n(wifi(x,y))) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n δ i f i ( x , y ) − ∑ x P ~ ( x ) log ⁡ Z w + δ ( x ) Z w ( x ) =\sum_{x,y}\tilde{P}(x,y)\sum_{i=1}^n\delta_{i}f_{i}(x,y)-\sum_{x}\tilde{P}(x)\log{\frac{Z_{w+\delta}(x)}{Z_{w}(x)}} =x,y∑P~(x,y)i=1∑nδifi(x,y)−x∑P~(x)logZw(x)Zw+δ(x)
参考：
《统计学习方法》，李航，p89

计算对数似然函数改变量相关推荐

深入理解Pytorch负对数似然函数（torch.nn.NLLLoss)和交叉熵损失函数（torch.nn.CrossEntropyLoss)
在看Pytorch的交叉熵损失函数torch.nn.CrossEntropyLoss官方文档介绍中,给出的表达式如下.不免有点疑惑为何交叉熵损失的表达式是这个样子的 loss ⁡ ( y , clas ...
SoftMax函数，交叉熵损失函数与熵，对数似然函数
深度学习以及机器学习中都会用到SoftMax函数,交叉熵损失函数与熵,对数似然函数等一些数学方面的知识,此文作为个人学习笔记. 1.softmax函数 (1)定义多分类问题中,我们可以使用SoftM ...
最大似然法、似然函数及对数似然函数
似然函数统计学中,似然函数是一种关于统计模型参数的函数.表示模型参数中的似然性. 定义:给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率: 其中,小x是指联合样 ...
贝叶斯公式的对数似然函数_最大似然估计和贝叶斯估计学习体会
最大释然估计和贝叶斯参数估计 Jiangxiaodong 1 引言在之前的学习中我们已经知道如何根据先验概率和类条件概率密度来设计最有分类器.但在模式识别的实际应用中,通常得不到有关问题的概率结构的 ...
贝叶斯公式的对数似然函数_最大似然法与似然函数
在统计学中,最大似然估计,也称最大概似估计,是用来估计一个概率模型的参数的一种方法通俗来讲,最大似然估计是利用已知的样本的结果,在使用某个模型的基础上,反推最有可能导致这样结果的模型参数值. 定义 ...
机器学习中的数学原理——对数似然函数
这个专栏主要是用来分享一下我在机器学习中的学习笔记及一些感悟,也希望对你的学习有帮助哦!感兴趣的小伙伴欢迎私信或者评论区留言!这一篇就更新一下< 白话机器学习中的数学--对数似然函数> ...
负对数似然函数的推导
似然函数的理解概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果.参数->结果似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计.结果->参数举个例 ...
【数据挖掘】高斯混合模型 ( 高斯混合模型参数 | 高斯混合模型评分函数 | 似然函数 | 生成模型法 | 对数似然函数 | 高斯混合模型方法步骤 )
文章目录 I . 高斯混合模型参数简介 ( 参数 ) II . 高斯混合模型评分函数 ( 评价参数 ) III. 似然函数与参数 IV . 生成模型法 V . 对数似然函数 VI . 高斯混合模型 ...
Bailian2739 计算对数【对数】
2739:计算对数总时间限制: 1000ms 内存限制: 65536kB 描述给定两个正整数a(a>1)和b.可以知道一定存在整数x,使得 x <= logab < x + 1 ...

计算对数似然函数改变量

计算对数似然函数改变量相关推荐

最新文章

热门文章