语言模型评估方法Perplexity

更多内容: https://github.com/fansking/NlpWithMe
如何评估一个语言模型的好坏呢?一个好的语言模型,对正常的句子和错误的句子的生成概率应该是有差异的。例如:老鼠爱吃大米 与 爱老鼠大米吃 。这两个句子分别放入语言模型中,第一个句子的生成概率应该较大。

困惑度(perplexity)的基本思想是:给测试集的句子赋予较高概率值的语言模型较好,当语言模型训练完之后,测试集中的句子都是正常的句子,那么训练好的模型就是在测试集上的概率越高越好

PP(W)=P(w1w2...wN)−1N=1P(w1w2...wN)NPP(W)=P(w_{1}w_{2}...w_{N})^{-\frac{1}{N}}=\sqrt[N]{\frac{1}{P(w_{1}w_{2}...w_{N})}}PP(W)=P(w1​w2​...wN​)−N1​=NP(w1​w2​...wN​)1​​

而根据n-gram模型, P(w1w2...wN)P(w_{1}w_{2}...w_{N})P(w1​w2​...wN​) 是可以算出来的(最大似然概率)

注意 这里w1w2...wNw_{1}w_{2}...w_{N}w1​w2​...wN​ 是对句子分词得到的单词序列,N是单词总个数,由于加了负数的次方,故句子概率越大,语言模型越好,困惑度也即perplexity越小。

语言模型评估方法Perplexity相关推荐

  1. perplexity 衡量指标_语言模型评价指标Perplexity

    在信息论中,perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度.它也可以用来比较两个概率分布或概率模型.(应该是比较两者在预测样本上的优劣)低困惑度的概率分布模型或概率模型 ...

  2. 语言模型评价指标Perplexity

    语言模型(Language Model,LM),给出一句话的前k个词,希望它可以预测第k+1个词是什么,即给出一个第k+1个词可能出现的概率的分布p(xk+1|x1,x2,...,xk). 在报告里听 ...

  3. N-gram语言模型 Perplexity 平滑

    文章目录 1. N-gram语言模型 2. Perplexity(困惑度) 3. 平滑方法 3.1 问题 3.2 常用方法 3.2.1 Laplace平滑 (add-one, add-α) 3.2.2 ...

  4. NLP-基础知识-002 (语言模型)

    一.Noisy Channel Model p(text|source) = k * p(source|text)P(text) ----> Noisy Channel Model主要通过贝叶斯 ...

  5. Python LDA gensim 计算 perplexity

    转载自 https://blog.csdn.net/qq_23926575/article/details/79472742 1.LDA主题模型困惑度  这部分参照:LDA主题模型评估方法–Perpl ...

  6. Python中LDA 计算 perplexity来确定主题数

    转载自 https://blog.csdn.net/qq_23926575/article/details/79472742 1.LDA主题模型困惑度  这部分参照:LDA主题模型评估方法–Perpl ...

  7. 语言 双线性内插_数位语音信号处理概论 Lesson6 语言模型

    在上一节lesson中主要总结了HMM在声学模型中的用法,本小节主要总结语言模型相关的内容.在语音识别领域,语言模型评估的是一句话到底有多像一句人话,在语音识别.拼写纠错.机器翻译.音字转换都有许多应 ...

  8. perplexity 衡量指标_求通俗解释NLP里的perplexity是什么?

    前面的回答都很优秀,但我想基于我的理解做个补充. 困惑度 Perplexity 是衡量语言模型好坏的指标,为了更好地理解其意义,首先有必要回顾熵的概念.根据信息论与编码的知识,我们知道 熵代表着根据信 ...

  9. Perplexity定义

    Refer from http://blog.csdn.net/pipisorry/article/details/42460023 http://blog.csdn.net/pipisorry/ar ...

最新文章

  1. js中函数,方法,事件对比区分,什么是方法,什么是函数
  2. python for-python循环
  3. 如何突破JAVA程序员的分水岭
  4. Flowable 数据库表结构 ACT_HI_DETAIL
  5. 最优化学习笔记(八)——共轭方向法
  6. centos7下引导win7
  7. 如果我用你待我的方式来待你 恐怕你早已离去
  8. multipart/form-data
  9. flex弹性盒子的兼容性写法
  10. 快速判断一个数能否被 2 ,3 ,4 ,5, 7,9,11 整除
  11. jclasslib插件
  12. 几倍根号用学生计算机,几倍根号几怎么算不要网上抄的 祥细的 例如2√2 3√3 4√4 怎么算...
  13. 【优麒麟】22.04 LTS版本即将发布,终极预告来袭,你准备好了吗?
  14. mysql中group by用法解析
  15. 第一组 beta冲刺(2/3)
  16. Linux云主机开启IPv6服务
  17. 就离谱!使用机器学习预测2022世界杯:小组赛挺准,但冠亚季军都错了 ⛵
  18. java word上传下载_JSP实现word文档的上传,在线预览,下载
  19. CentOS 下安装 7z
  20. 2022年华东师范大学计科考研复试机试题-详细题解

热门文章

  1. linux驱动程序开发指南-字符驱动介绍
  2. SpringCloud 之 Zuul 网关(二)
  3. XMind快捷键汇总
  4. mininet自建topo后查看信息的一些操作
  5. go grpc使用教程windows
  6. mysql innodb 恢复_MySQL之Innodb恢复的学习笔记
  7. Omnet 5.6.1安装教程附官网下载地址
  8. 如何在MAC上进行OCR屏幕截图
  9. app mysql数据库设计_知到APPMySQL数据库设计与应用选修课答案
  10. 全国计算机三级偏软和偏硬,江苏计算机三级偏硬偏软历年试题解析