语言模型评价指标Perplexity

2024-06-12 12:19:18

语言模型（Language Model，LM），给出一句话的前k个词，希望它可以预测第k+1个词是什么，即给出一个第k+1个词可能出现的概率的分布p(x_k+1|x₁,x₂,...,x_k)。

在报告里听到用PPL衡量语言模型收敛情况，于是从公式角度来理解一下该指标的意义。

Perplexity定义

PPL是用在自然语言处理领域（NLP）中，衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率，并用句子长度作normalize，公式为

S代表sentence，N是句子长度，p(w_i)是第i个词的概率。第一个词就是 p(w₁|w₀)，而w₀是START，表示句子的起始，是个占位符。

这个式子可以这样理解，PPL越小，p(wi)则越大，一句我们期望的sentence出现的概率就越高。

还有人说，Perplexity可以认为是average branch factor（平均分支系数），即预测下一个词时可以有多少种选择。别人在作报告时说模型的PPL下降到90，可以直观地理解为，在模型生成一句话时下一个词有90个合理选择，可选词数越少，我们大致认为模型越准确。这样也能解释，为什么PPL越小，模型越好。

Perplexity另一种表达

好像在讲到unigram时，常常用到PPL的这种形式，从表达式上看和前面的意义是一样的，只不过wi不再是单个词，它表示第i个bigram或其他单位量。

Perplexity的影响因素

这些是听报告了解的：

1. 训练数据集越大，PPL会下降得更低，1billion dataset和10万dataset训练效果是很不一样的；

2. 数据中的标点会对模型的PPL产生很大影响，一个句号能让PPL波动几十，标点的预测总是不稳定；

3. 预测语句中的“的，了”等词也对PPL有很大影响，可能“我借你的书”比“我借你书”的指标值小几十，但从语义上分析有没有这些停用词并不能完全代表句子生成的好坏。

所以，语言模型评估时我们可以用perplexity大致估计训练效果，作出判断和分析，但它不是完全意义上的标准，具体问题还是要具体分析。

语言模型评价指标Perplexity相关推荐

perplexity 衡量指标_语言模型评价指标Perplexity
在信息论中,perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度.它也可以用来比较两个概率分布或概率模型.(应该是比较两者在预测样本上的优劣)低困惑度的概率分布模型或概率模型 ...
语言模型（三）—— 循环神经网络语言模型（RNNLM）与语言模型评价指标
之前我们已经了解过n-gram语言模型和前馈神经网络语言(NNLM),今天我们简单地看一下循环神经网络语言模型.那么首先看一下为什么要把RNN用到语言模型中呢? 首先循环神经网络语言模型(RNNLM) ...
语言模型评估方法Perplexity
语言模型评估方法Perplexity 更多内容: https://github.com/fansking/NlpWithMe 如何评估一个语言模型的好坏呢?一个好的语言模型,对正常的句子和错误的句子的 ...
语言模型评价指标 bpc(bits-per-character)和困惑度ppl(perplexity)
首先简单介绍下语言模型的标准评价指标: 1. 混淆度 (Perplexity) 用来衡量一个语言模型在未见过的的字符串S上的表现.对于一个长度为N的字符串S,语言模型给出概率P(S),对应的混淆度 ( ...
技术干货 | 基于MindSpore详解Perplexity语言模型评价指标
01 原理介绍在研究生实习时候就做过语言模型的任务,当时让求PPL值,当时只是调包,不求甚解,哈哈哈,当时也没想到现在会开发这个评价指标,那现在我来讲一下我对这个指标的了解,望各位大佬多多指教. 这 ...
Metric评价指标-Perplexity语言模型
欢迎关注知乎: 世界是我改变的知乎上的原文链接一. 原理介绍在研究生实习时候就做过语言模型的任务,当时让求PPL值,当时只是调包,不求甚解,哈哈哈,当时也没想到现在会开发这个评价指标,那现在我来 ...
【LM】(八)语言模型评价指标——困惑度Perplexity原理及代码
0.语言模型语言模型(Language Model,LM),基于统计的语言模型,给出一句话的前k个词,预测第k+1个词,即求第k+1个词出现的概率p(xk+1|x1,x2,...,xk).在深度网络 ...
文本生成客观评价指标总结（附Pytorch代码实现）
前言:最近在做文本生成的工作,调研发现针对不同的文本生成场景(机器翻译.对话生成.图像描述.data-to-text 等),客观评价指标也不尽相同.虽然网络上已经有很多关于文本生成评价指标的文章,本博 ...
NLP中perplexity PPL指标
1. 定义 PPL是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标.它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize,公式为参考: 语言模型评价指标Perplex ...

最新文章

热门文章