BLUE

BLEU (BiLingual Evaluation Understudy) 最早用于机器翻译任务上，用于评估机器翻译的语句的合理性。具体来讲，BLEU通过衡量生成序列和参考序列之间的重合度进行计算的。下面我们将以机器翻译为例，进行讨论这个指标。

假设当前有一句源文 s s s，以及相应的译文参考序列 r 1 , r 2 , . . . , r n r_1,r_2,...,r_n r1,r2,...,rn。机器翻译模型根据源文 s s s 生成了一个生成序列 x x x，且 W W W 为根据候选序列 x x x 生成的 N 元单词组合，这些 N元组合的精度为： P N ( x ) = ∑ w ∈ W m i n ( c w ( x ) , m a x k = 1 n c w ( r k ) ) ∑ w ∈ W c w ( x ) P_N(x)=\displaystyle \frac {\sum_{w \in W} min(c_w(x),max^n_{k=1}c_w(r_k))} {\sum_{w \in W}c_w(x)} PN(x)=∑w∈Wcw(x)∑w∈Wmin(cw(x),maxk=1ncw(rk))其中， c w ( x ) c_w(x) cw(x)为 N 元组合词 w w w 在生成序列 x x x 中出现的次数， c w ( r k ) c_w(r_k) cw(rk) 为 N 元组合词 w w w 在参考序列 r k r_k rk 中出现的次数。N 元组合的精度 P N ( x ) P_N(x) PN(x) 即为生成序列中的 N 元组合词在参考序列中出现的比例。

从以上公式可以看出， P N ( x ) P_N(x) PN(x) 的核心思想是衡量生成序列 x x x 中的 N 元组合词是否在参考序列中出现，其计算结果更偏好短的生成序列，即生成序列 x x x 越短，精度 P N ( x ) P_N(x) PN(x) 会越高。这种情况下，可以引入长度惩罚因子，如果生成序列 x x x 比参考序列 r k r_k rk短，则会对该生成序列 x x x 进行惩罚。 b ( x ) = { 1 if l x > l r exp ⁡ ( 1 − l s / l r ) if l s ≤ l r b(x)=\begin{cases} 1 & \text{if } l_x \gt l_r \\ \exp(1-l_s/l_r) &\text{if } l_s \le l_r \end{cases} b(x)={1exp(1−ls/lr)if lx>lrif ls≤lr其中， l x l_x lx 表示生成序列 x x x 的长度， l r l_r lr 表示参考序列 l r l_r lr 的最短长度。

前边反复提到一个概念–N 元组合词，我们可以根据生成序列 x x x 构造不同长度的 N 元组合词，这样便可以获得不同长度组合词的精度，比如 P 1 ( x ) ， P 2 ( x ) ， P 3 ( x ) P_1(x)，P_2(x)，P_3(x) P1(x)，P2(x)，P3(x)等等。BLEU算法通过计算不同长度的N元组合的精度 P N ( x ) P_N(x) PN(x)， N = 1 , 2 , 3... N=1,2,3... N=1,2,3...，并对其进行几何加权平均得到，如下所示。 BLUE-N ⁡ ( x ) = b ( x ) × exp ⁡ ( ∑ N = 1 N ′ α N log ⁡ P N ) \operatorname {BLUE-N}(x)=b(x) \times \exp(\displaystyle \sum^{N'}_{N=1} \alpha_N \log P_N) BLUE-N(x)=b(x)×exp(N=1∑N′αNlogPN)其中， N ′ N′ N′ 为最长 N 元组合词的长度， α N α_N αN 为不同 N 元组合词的权重，一般设置为 1 N ′ \frac {1} {N′} N′1，BLEU算法的值域范围是 [0,1]，数值越大，表示生成的质量越好。

BLEU算法能够比较好地计算生成序列x的字词是否在参考序列中出现过，但是其并没有关注参考序列中的字词是否在生成序列出现过。即BLEU只关心生成的序列精度，而不关心其召回率。

ROUGE

由于BLEU算法只关心生成序列的字词是否在参考序列中出现，而不关心参考序列中的字词是否在生成序列中出现，这在实际指标评估过程中可能会带来一些影响，从而不能较好评估生成序列的质量。

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)算法便是一种解决方案，它能够衡量参考序列中的字词是在生成序列中出现过，即它能够衡量生成序列的召回率。下面还是以机器翻译为例，来探讨一下ROUGE的计算。

假设当前有一句源文 s s s，以及相应的译文参考序列 r 1 , r 2 , . . . , r n r_1,r_2,...,r_n r1,r2,...,rn。机器翻译模型根据源文 s s s 生成了一个生成序列 x x x，且 W W W 为根据候选序列 x x x 生成的 N 元单词组合，则ROUGE算法的计算方式为： ROUGE-N ⁡ ( x ) = ∑ k = 1 n ∑ w ∈ W m i n ( c w ( x ) , c w ( r k ) ) ∑ k = 1 n ∑ w ∈ W c w ( r k ) \operatorname {ROUGE-N}(x)=\displaystyle \frac {\sum_{k=1}^n \sum_{w \in W} min(c_w(x),c_w(r_k))} {\sum^n_{k=1}\sum_{w \in W}c_w(r_k)} ROUGE-N(x)=∑k=1n∑w∈Wcw(rk)∑k=1n∑w∈Wmin(cw(x),cw(rk))其中， c w ( x ) c_w(x) cw(x) 为N元组合词 w w w 在生成序列 x x x 中出现的次数， c w ( r k ) c_w(r_k) cw(rk)为 N 元组合词 w w w 在参考序列 r k r_k rk 中出现的次数。

从公式可以看到，ROUGE算法能比较好地计算参考序列中的字词是否在生成序列出现过，但没有关注生成序列的字词是否在参考序列中出现过，即ROUGE算法只关心生成序列的召回率，而不关心准确率。

评估指标（Metric）（四）相关推荐

深度学习（四十四）——GAN的评估指标, DCGAN, WGAN-GP, CGAN, BEGAN EBGAN
GAN的评估指标尽管可用的GAN模型非常多,但对它们的评估仍然主要是定性评估,通常需要借助人工检验生成图像的视觉保真度来进行.此类评估非常耗时,且主观性较强.具备一定误导性.鉴于定性评估的内在缺陷, ...
评估指标（Metric）（二）
对于GAN网络,需要对生成器的好坏做一些评估,有一些对应的评估指标.比如当生成器G训练好后,我们需要评价生成图片的质量好坏,主要分为主观评价和客观评价,接下来分别介绍这两类方法: 主观评价人眼去观察 ...
1.3 单一数字评估指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 1.2 正交化回到目录 1.4 满足和优化指标单一数字评估指标 (Single Number Evaluation Metric) 无论你是调整超参数,或者是尝试不同的学 ...
推荐算法炼丹笔记：推荐系统采样评估指标及线上线下一致性问题
本文对于推荐系统中的采样评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点: 在评估推荐算法的效果时,能不采样就不采样! 除了AUC, ...
Mechine Learing一：工程刚需的 “算法” 评估指标
当你的产品经理给你提出一系列看似合理却又矛盾的要求时,你该怎么优化你的算法来确保算法拥有: 运算速度快 (算力) 准确率高 (识别率) 抗干扰性强 (噪声) TP (Tr ...
最新目标跟踪评估指标汇总
前段时间接触了一些目标跟踪的场景,本文主要汇总目标跟踪的常用评估指标,主要包括下面几类: 容易理解的概念:FP.FN.TP.id switch.ML.MT 更加综合的概念:MOTA.IDF1.MOTP ...
文本生成任务常见评估指标
1. 引言在传统的文本生成任务中,对于模型生成的文本,往往很难评估他们的质量,对于以往的做饭,一般会通过人工评估的方式来评选最优的模型,但是其评估过程是非常昂贵和耗时的,而且每个人的评估标准 ...
ap 目标检测算法map_目标检测算法的评估指标：mAP定义及计算方式
前面依次介绍了: 本节介绍目标检测算法的评估指标:mAP定义及计算方式 mAP:mean Average Precision,平均精度均值,即AP(Average Precision)的平均值,它是目 ...
图像分割评估指标——surface-distance计算库
文章目录一.简介二.计算各类度量 ①Average surface distance 平均表面距离 ②Hausdorff distance 豪斯多夫距离 ③Surface overlap 表面重叠 ...
机器学习模型评估指标总结！
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货作者:太子长琴,Datawhale优秀学习者本文对机器学习模型评估指标 ...

评估指标（Metric）（四）

BLUE

ROUGE

评估指标（Metric）（四）相关推荐

最新文章

热门文章