语言模型(Language Model,LM),给出一句话的前k个词,希望它可以预测第k+1个词是什么,即给出一个第k+1个词可能出现的概率的分布p(xk+1|x1,x2,...,xk)。

在报告里听到用PPL衡量语言模型收敛情况,于是从公式角度来理解一下该指标的意义。

Perplexity定义

PPL是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize,公式为

S代表sentence,N是句子长度,p(wi)是第i个词的概率。第一个词就是 p(w1|w0),而w0是START,表示句子的起始,是个占位符。

这个式子可以这样理解,PPL越小,p(wi)则越大,一句我们期望的sentence出现的概率就越高。

还有人说,Perplexity可以认为是average branch factor(平均分支系数),即预测下一个词时可以有多少种选择。别人在作报告时说模型的PPL下降到90,可以直观地理解为,在模型生成一句话时下一个词有90个合理选择,可选词数越少,我们大致认为模型越准确。这样也能解释,为什么PPL越小,模型越好。

Perplexity另一种表达

好像在讲到unigram时,常常用到PPL的这种形式,从表达式上看和前面的意义是一样的,只不过wi不再是单个词,它表示第i个bigram或其他单位量。

Perplexity的影响因素

这些是听报告了解的:

1. 训练数据集越大,PPL会下降得更低,1billion dataset和10万dataset训练效果是很不一样的;

2. 数据中的标点会对模型的PPL产生很大影响,一个句号能让PPL波动几十,标点的预测总是不稳定;

3. 预测语句中的“的,了”等词也对PPL有很大影响,可能“我借你的书”比“我借你书”的指标值小几十,但从语义上分析有没有这些停用词并不能完全代表句子生成的好坏。

所以,语言模型评估时我们可以用perplexity大致估计训练效果,作出判断和分析,但它不是完全意义上的标准,具体问题还是要具体分析。

语言模型评价指标Perplexity相关推荐

  1. perplexity 衡量指标_语言模型评价指标Perplexity

    在信息论中,perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度.它也可以用来比较两个概率分布或概率模型.(应该是比较两者在预测样本上的优劣)低困惑度的概率分布模型或概率模型 ...

  2. 语言模型(三)—— 循环神经网络语言模型(RNNLM)与语言模型评价指标

    之前我们已经了解过n-gram语言模型和前馈神经网络语言(NNLM),今天我们简单地看一下循环神经网络语言模型.那么首先看一下为什么要把RNN用到语言模型中呢? 首先循环神经网络语言模型(RNNLM) ...

  3. 语言模型评估方法Perplexity

    语言模型评估方法Perplexity 更多内容: https://github.com/fansking/NlpWithMe 如何评估一个语言模型的好坏呢?一个好的语言模型,对正常的句子和错误的句子的 ...

  4. 语言模型评价指标 bpc(bits-per-character)和困惑度ppl(perplexity)

    首先简单介绍下语言模型的标准评价指标: 1. 混淆度 (Perplexity) 用来衡量一个语言模型在未见过的的字符串S上的表现.对于一个长度为N的字符串S,语言模型给出概率P(S),对应的混淆度 ( ...

  5. 技术干货 | 基于MindSpore详解Perplexity语言模型评价指标

    01 原理介绍 在研究生实习时候就做过语言模型的任务,当时让求PPL值,当时只是调包,不求甚解,哈哈哈,当时也没想到现在会开发这个评价指标,那现在我来讲一下我对这个指标的了解,望各位大佬多多指教. 这 ...

  6. Metric评价指标-Perplexity语言模型

    欢迎关注知乎: 世界是我改变的 知乎上的原文链接 一. 原理介绍 在研究生实习时候就做过语言模型的任务,当时让求PPL值,当时只是调包,不求甚解,哈哈哈,当时也没想到现在会开发这个评价指标,那现在我来 ...

  7. 【LM】(八)语言模型评价指标——困惑度Perplexity原理及代码

    0.语言模型 语言模型(Language Model,LM),基于统计的语言模型,给出一句话的前k个词,预测第k+1个词,即求第k+1个词出现的概率p(xk+1|x1,x2,...,xk).在深度网络 ...

  8. 文本生成客观评价指标总结(附Pytorch代码实现)

    前言:最近在做文本生成的工作,调研发现针对不同的文本生成场景(机器翻译.对话生成.图像描述.data-to-text 等),客观评价指标也不尽相同.虽然网络上已经有很多关于文本生成评价指标的文章,本博 ...

  9. NLP中perplexity PPL指标

    1. 定义 PPL是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标.它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize,公式为 参考: 语言模型评价指标Perplex ...

最新文章

  1. 澳大利亚铁路网络漏洞多多 极易遭攻击
  2. java condition_死磕Java并发:J.U.C之Condition
  3. c2c旅游springboot开源_重量级开源的商城和SpringBoot等项目看看有没有正好是你需要的...
  4. 人工智能的前生,今世,和未来
  5. 谈谈我对正向代理和反向代理的理解
  6. myeclipse 中的'ISO-8859-1'编码问题
  7. win7下U盘安装Ubuntu16.04双系统
  8. php 生成会员卡号,PHP编程:PHP实现生成唯一会员卡号
  9. vue项目接入高拍仪
  10. 自考计算机毕业论文范文,计算机信息论文范文 计算机信息类有关自考毕业论文范文5000字...
  11. 公云(3322)动态域名更新API
  12. 入侵mssql2000
  13. 京东用了哪些大数据平台产品体系?
  14. 裁员1700人,IBM 声称内部调整团队;谷歌将以26亿美元全现金收购Looker,绝对大手笔...
  15. 资本的游戏-笔记(一)
  16. 第十四周学习周报20181210-20181216
  17. android蓝牙连接取消后怎么重新连上,重新启动后接收蓝牙连接更改
  18. Typora、Markdown中的公式,颜色汇总
  19. ElasticSearch-7.5.1集群3master-3data-3client环境搭建
  20. java (基础、框架)思维脑图

热门文章

  1. MQTT 协议基本介绍
  2. C++程序设计课程师生互动(2012年春第10周)
  3. “双碳同行者大会”成功举办,绿色家居企业参与其中
  4. 【云原生】第十二篇--docker容器镜像仓库Harbor部署
  5. Java实现模拟斗地主发牌和排序
  6. 计算机系统用户口令必须加密,计算机系统用户口令(密码)安全管理规定
  7. linux重启java程序
  8. 支付宝支付之web篇
  9. 练习:VTK 四视图显示(三视图+三正交切片)
  10. rocksdb原理_RocksDB事务实现TransactionDB分析