BLUE

BLEU (BiLingual Evaluation Understudy) 最早用于机器翻译任务上,用于评估机器翻译的语句的合理性。具体来讲,BLEU通过衡量生成序列和参考序列之间的重合度进行计算的。下面我们将以机器翻译为例,进行讨论这个指标。

假设当前有一句源文 s ​ s​ s​​​​​​,以及相应的译文参考序列 r 1 , r 2 , . . . , r n r_1,r_2,...,r_n r1​,r2​,...,rn​​​​​​​。机器翻译模型根据源文 s ​​​​​​ s​​​​​​ s​​​​​​ 生成了一个生成序列 x x x​​​​​​​​​,且 W ​​​​​​ W​​​​​​ W​​​​​​ 为根据候选序列 x x x ​​​​​​生成的 N​​​​​​​​ 元单词组合,这些 N元组合的精度为: P N ( x ) = ∑ w ∈ W m i n ( c w ( x ) , m a x k = 1 n c w ( r k ) ) ∑ w ∈ W c w ( x ) P_N(x)=\displaystyle \frac {\sum_{w \in W} min(c_w(x),max^n_{k=1}c_w(r_k))} {\sum_{w \in W}c_w(x)} PN​(x)=∑w∈W​cw​(x)∑w∈W​min(cw​(x),maxk=1n​cw​(rk​))​其中, c w ( x ) c_w(x) cw​(x)​为 N​ 元组合词 w w w​ 在生成序列 x x x ​中出现的次数, c w ( r k ) c_w(r_k) cw​(rk​) ​为 N​ 元组合词 w w w ​在参考序列 r k ​ r_k​ rk​​ ​中出现的次数。N 元组合的精度 P N ( x ) P_N(x) PN​(x) 即为生成序列中的 N 元组合词在参考序列中出现的比例。

从以上公式可以看出, P N ( x ) P_N(x) PN​(x) ​的核心思想是衡量生成序列 x ​ x​ x​ 中的 N ​元组合词是否在参考序列中出现,其计算结果更偏好短的生成序列,即生成序列 x x x ​越短,精度 P N ( x ) P_N(x) PN​(x) ​​​​会越高。这种情况下,可以引入长度惩罚因子,如果生成序列 x x x​ 比参考序列 r k r_k rk​短,则会对该生成序列 x x x 进行惩罚。 b ( x ) = { 1 if  l x > l r exp ⁡ ( 1 − l s / l r ) if  l s ≤ l r b(x)=\begin{cases} 1 & \text{if } l_x \gt l_r \\ \exp(1-l_s/l_r) &\text{if } l_s \le l_r \end{cases} b(x)={1exp(1−ls​/lr​)​if lx​>lr​if ls​≤lr​​其中, l x ​ l_x​ lx​​ 表示生成序列 x ​ x​ x​ 的长度, l r l_r lr​ ​表示参考序列 l r l_r lr​ ​的最短长度。

前边反复提到一个概念–N​​​ 元组合词,我们可以根据生成序列 x x x ​​构造不同长度的 N 元组合词,这样便可以获得不同长度组合词的精度,比如 P 1 ( x ) ​, P 2 ( x ) ​, P 3 ( x ) P_1(x)​,P_2(x)​,P_3(x) P1​(x)​,P2​(x)​,P3​(x)​等等。BLEU算法通过计算不同长度的N​​​​​​元组合的精度 P N ( x ) P_N(x) PN​(x), N = 1 , 2 , 3... N=1,2,3... N=1,2,3...​,并对其进行几何加权平均得到,如下所示。 BLUE-N ⁡ ( x ) = b ( x ) × exp ⁡ ( ∑ N = 1 N ′ α N log ⁡ P N ) \operatorname {BLUE-N}(x)=b(x) \times \exp(\displaystyle \sum^{N'}_{N=1} \alpha_N \log P_N) BLUE-N(x)=b(x)×exp(N=1∑N′​αN​logPN​)其中, N ′​ N′​ N′​ 为最长 N​ 元组合词的长度, α N ​ α_N​ αN​​ 为不同 N ​元组合词的权重,一般设置为 1 N ′ ​ \frac {1} {N′}​ N′1​​,BLEU算法的值域范围是 [0,1]​,数值越大,表示生成的质量越好。

BLEU算法能够比较好地计算生成序列x​​​的字词是否在参考序列中出现过,但是其并没有关注参考序列中的字词是否在生成序列出现过。即BLEU只关心生成的序列精度,而不关心其召回率。

ROUGE

由于BLEU算法只关心生成序列的字词是否在参考序列中出现,而不关心参考序列中的字词是否在生成序列中出现,这在实际指标评估过程中可能会带来一些影响,从而不能较好评估生成序列的质量。

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)算法便是一种解决方案,它能够衡量参考序列中的字词是在生成序列中出现过,即它能够衡量生成序列的召回率。下面还是以机器翻译为例,来探讨一下ROUGE的计算。

假设当前有一句源文 s s s,以及相应的译文参考序列 r 1 , r 2 , . . . , r n r_1,r_2,...,r_n r1​,r2​,...,rn​。机器翻译模型根据源文 s s s 生成了一个生成序列 x x x,且 W W W 为根据候选序列 x x x 生成的 N 元单词组合,则ROUGE算法的计算方式为: ROUGE-N ⁡ ( x ) = ∑ k = 1 n ∑ w ∈ W m i n ( c w ( x ) , c w ( r k ) ) ∑ k = 1 n ∑ w ∈ W c w ( r k ) \operatorname {ROUGE-N}(x)=\displaystyle \frac {\sum_{k=1}^n \sum_{w \in W} min(c_w(x),c_w(r_k))} {\sum^n_{k=1}\sum_{w \in W}c_w(r_k)} ROUGE-N(x)=∑k=1n​∑w∈W​cw​(rk​)∑k=1n​∑w∈W​min(cw​(x),cw​(rk​))​其中, c w ( x ) c_w(x) cw​(x) 为N元组合词 w w w 在生成序列 x x x 中出现的次数, c w ( r k ) c_w(r_k) cw​(rk​)为 N 元组合词 w w w 在参考序列 r k r_k rk​ 中出现的次数。

从公式可以看到,ROUGE算法能比较好地计算参考序列中的字词是否在生成序列出现过,但没有关注生成序列的字词是否在参考序列中出现过,即ROUGE算法只关心生成序列的召回率,而不关心准确率。

评估指标(Metric)(四)相关推荐

  1. 深度学习(四十四)——GAN的评估指标, DCGAN, WGAN-GP, CGAN, BEGAN EBGAN

    GAN的评估指标 尽管可用的GAN模型非常多,但对它们的评估仍然主要是定性评估,通常需要借助人工检验生成图像的视觉保真度来进行.此类评估非常耗时,且主观性较强.具备一定误导性.鉴于定性评估的内在缺陷, ...

  2. 评估指标(Metric)(二)

    对于GAN网络,需要对生成器的好坏做一些评估,有一些对应的评估指标.比如当生成器G训练好后,我们需要评价生成图片的质量好坏,主要分为主观评价和客观评价,接下来分别介绍这两类方法: 主观评价 人眼去观察 ...

  3. 1.3 单一数字评估指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 1.2 正交化 回到目录 1.4 满足和优化指标 单一数字评估指标 (Single Number Evaluation Metric) 无论你是调整超参数,或者是尝试不同的学 ...

  4. 推荐算法炼丹笔记:推荐系统采样评估指标及线上线下一致性问题

    本文对于推荐系统中的采样评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点: 在评估推荐算法的效果时,能不采样就不采样! 除了AUC, ...

  5. Mechine Learing一:工程刚需的 “算法” 评估指标

    当你的产品经理给你提出一系列看似合理却又矛盾的要求时,你该怎么优化你的算法来确保算法拥有: 运算速度快   (算   力) 准确率高      (识别率) 抗干扰性强   (噪   声) TP (Tr ...

  6. 最新目标跟踪评估指标汇总

    前段时间接触了一些目标跟踪的场景,本文主要汇总目标跟踪的常用评估指标,主要包括下面几类: 容易理解的概念:FP.FN.TP.id switch.ML.MT 更加综合的概念:MOTA.IDF1.MOTP ...

  7. 文本生成任务常见评估指标

    1. 引言     在传统的文本生成任务中,对于模型生成的文本,往往很难评估他们的质量,对于以往的做饭,一般会通过人工评估的方式来评选最优的模型,但是其评估过程是非常昂贵和耗时的,而且每个人的评估标准 ...

  8. ap 目标检测算法map_目标检测算法的评估指标:mAP定义及计算方式

    前面依次介绍了: 本节介绍目标检测算法的评估指标:mAP定义及计算方式 mAP:mean Average Precision,平均精度均值,即AP(Average Precision)的平均值,它是目 ...

  9. 图像分割评估指标——surface-distance计算库

    文章目录 一.简介 二.计算各类度量 ①Average surface distance 平均表面距离 ②Hausdorff distance 豪斯多夫距离 ③Surface overlap 表面重叠 ...

  10. 机器学习模型评估指标总结!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:太子长琴,Datawhale优秀学习者 本文对机器学习模型评估指标 ...

最新文章

  1. 8 Django 模型层(2)
  2. Struts2.3+Spring4.0
  3. ABAP选择屏幕的例子
  4. vuex Payload 荷载
  5. 二分检索函数lower_bound()和upper_bound()
  6. Jlink-v8 灯不亮重新烧写固件的办法
  7. 自考----怎么说我不爱你
  8. 整理一些质量不错的教程、博客、论坛
  9. 混沌数学之CircuitChaotic(二维离散电路混沌系统)
  10. Predictably Irractional - 所有权的高昂代价
  11. 以太网驱动详解之 MAC、MII、PHY 详解
  12. 计算机怎么把日历和时间放到桌面上,怎么把日历放到电脑桌面
  13. 计算机应用软件开机自动启动设置,如何关闭开机自动启动的软件?
  14. qqpcmgr_docpro 这个隐藏文件无法删除的问题解决方法
  15. ECU软件开发介绍篇
  16. 给一个不多于5位的正整数,要求: 1.求出它是几位数; 2.分别输出每一位数字; 3.按逆序输出各位数字;
  17. 视频画中画效果该怎么实现?这款软件让你一秒成大神
  18. vs2010中的Resource View和Class View都为空的有效解决办法
  19. weex中UISegmentControl实现及遇到的问题
  20. 系统定时重启服务脚本案例

热门文章

  1. 如何细分暴利关键词实现月入10万+
  2. 幼儿园里如何运用计算机技术,论多媒体技术在幼儿园教学中的应用
  3. SSD/HHD/HDD/移动硬盘/U盘
  4. 博云 x 某农商行 | 银行信息化运维系统升级的最佳实践
  5. 为智慧城市的发展做出重要贡献的智慧楼宇系统及应用场景
  6. 中国网上零售年会 获奖名单
  7. @schedule定时注解
  8. 文件夹加密原理 [转]
  9. 点阵图像的显示小处理
  10. C语言编程johnson算法,基于稀疏图上的Johnson算法的详解