评估指标(Metric)(四)
BLUE
BLEU (BiLingual Evaluation Understudy) 最早用于机器翻译任务上,用于评估机器翻译的语句的合理性。具体来讲,BLEU通过衡量生成序列和参考序列之间的重合度进行计算的。下面我们将以机器翻译为例,进行讨论这个指标。
假设当前有一句源文 s s s,以及相应的译文参考序列 r 1 , r 2 , . . . , r n r_1,r_2,...,r_n r1,r2,...,rn。机器翻译模型根据源文 s s s 生成了一个生成序列 x x x,且 W W W 为根据候选序列 x x x 生成的 N 元单词组合,这些 N元组合的精度为: P N ( x ) = ∑ w ∈ W m i n ( c w ( x ) , m a x k = 1 n c w ( r k ) ) ∑ w ∈ W c w ( x ) P_N(x)=\displaystyle \frac {\sum_{w \in W} min(c_w(x),max^n_{k=1}c_w(r_k))} {\sum_{w \in W}c_w(x)} PN(x)=∑w∈Wcw(x)∑w∈Wmin(cw(x),maxk=1ncw(rk))其中, c w ( x ) c_w(x) cw(x)为 N 元组合词 w w w 在生成序列 x x x 中出现的次数, c w ( r k ) c_w(r_k) cw(rk) 为 N 元组合词 w w w 在参考序列 r k r_k rk 中出现的次数。N 元组合的精度 P N ( x ) P_N(x) PN(x) 即为生成序列中的 N 元组合词在参考序列中出现的比例。
从以上公式可以看出, P N ( x ) P_N(x) PN(x) 的核心思想是衡量生成序列 x x x 中的 N 元组合词是否在参考序列中出现,其计算结果更偏好短的生成序列,即生成序列 x x x 越短,精度 P N ( x ) P_N(x) PN(x) 会越高。这种情况下,可以引入长度惩罚因子,如果生成序列 x x x 比参考序列 r k r_k rk短,则会对该生成序列 x x x 进行惩罚。 b ( x ) = { 1 if l x > l r exp ( 1 − l s / l r ) if l s ≤ l r b(x)=\begin{cases} 1 & \text{if } l_x \gt l_r \\ \exp(1-l_s/l_r) &\text{if } l_s \le l_r \end{cases} b(x)={1exp(1−ls/lr)if lx>lrif ls≤lr其中, l x l_x lx 表示生成序列 x x x 的长度, l r l_r lr 表示参考序列 l r l_r lr 的最短长度。
前边反复提到一个概念–N 元组合词,我们可以根据生成序列 x x x 构造不同长度的 N 元组合词,这样便可以获得不同长度组合词的精度,比如 P 1 ( x ) , P 2 ( x ) , P 3 ( x ) P_1(x),P_2(x),P_3(x) P1(x),P2(x),P3(x)等等。BLEU算法通过计算不同长度的N元组合的精度 P N ( x ) P_N(x) PN(x), N = 1 , 2 , 3... N=1,2,3... N=1,2,3...,并对其进行几何加权平均得到,如下所示。 BLUE-N ( x ) = b ( x ) × exp ( ∑ N = 1 N ′ α N log P N ) \operatorname {BLUE-N}(x)=b(x) \times \exp(\displaystyle \sum^{N'}_{N=1} \alpha_N \log P_N) BLUE-N(x)=b(x)×exp(N=1∑N′αNlogPN)其中, N ′ N′ N′ 为最长 N 元组合词的长度, α N α_N αN 为不同 N 元组合词的权重,一般设置为 1 N ′ \frac {1} {N′} N′1,BLEU算法的值域范围是 [0,1],数值越大,表示生成的质量越好。
BLEU算法能够比较好地计算生成序列x的字词是否在参考序列中出现过,但是其并没有关注参考序列中的字词是否在生成序列出现过。即BLEU只关心生成的序列精度,而不关心其召回率。
ROUGE
由于BLEU算法只关心生成序列的字词是否在参考序列中出现,而不关心参考序列中的字词是否在生成序列中出现,这在实际指标评估过程中可能会带来一些影响,从而不能较好评估生成序列的质量。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)算法便是一种解决方案,它能够衡量参考序列中的字词是在生成序列中出现过,即它能够衡量生成序列的召回率。下面还是以机器翻译为例,来探讨一下ROUGE的计算。
假设当前有一句源文 s s s,以及相应的译文参考序列 r 1 , r 2 , . . . , r n r_1,r_2,...,r_n r1,r2,...,rn。机器翻译模型根据源文 s s s 生成了一个生成序列 x x x,且 W W W 为根据候选序列 x x x 生成的 N 元单词组合,则ROUGE算法的计算方式为: ROUGE-N ( x ) = ∑ k = 1 n ∑ w ∈ W m i n ( c w ( x ) , c w ( r k ) ) ∑ k = 1 n ∑ w ∈ W c w ( r k ) \operatorname {ROUGE-N}(x)=\displaystyle \frac {\sum_{k=1}^n \sum_{w \in W} min(c_w(x),c_w(r_k))} {\sum^n_{k=1}\sum_{w \in W}c_w(r_k)} ROUGE-N(x)=∑k=1n∑w∈Wcw(rk)∑k=1n∑w∈Wmin(cw(x),cw(rk))其中, c w ( x ) c_w(x) cw(x) 为N元组合词 w w w 在生成序列 x x x 中出现的次数, c w ( r k ) c_w(r_k) cw(rk)为 N 元组合词 w w w 在参考序列 r k r_k rk 中出现的次数。
从公式可以看到,ROUGE算法能比较好地计算参考序列中的字词是否在生成序列出现过,但没有关注生成序列的字词是否在参考序列中出现过,即ROUGE算法只关心生成序列的召回率,而不关心准确率。
评估指标(Metric)(四)相关推荐
- 深度学习(四十四)——GAN的评估指标, DCGAN, WGAN-GP, CGAN, BEGAN EBGAN
GAN的评估指标 尽管可用的GAN模型非常多,但对它们的评估仍然主要是定性评估,通常需要借助人工检验生成图像的视觉保真度来进行.此类评估非常耗时,且主观性较强.具备一定误导性.鉴于定性评估的内在缺陷, ...
- 评估指标(Metric)(二)
对于GAN网络,需要对生成器的好坏做一些评估,有一些对应的评估指标.比如当生成器G训练好后,我们需要评价生成图片的质量好坏,主要分为主观评价和客观评价,接下来分别介绍这两类方法: 主观评价 人眼去观察 ...
- 1.3 单一数字评估指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 1.2 正交化 回到目录 1.4 满足和优化指标 单一数字评估指标 (Single Number Evaluation Metric) 无论你是调整超参数,或者是尝试不同的学 ...
- 推荐算法炼丹笔记:推荐系统采样评估指标及线上线下一致性问题
本文对于推荐系统中的采样评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点: 在评估推荐算法的效果时,能不采样就不采样! 除了AUC, ...
- Mechine Learing一:工程刚需的 “算法” 评估指标
当你的产品经理给你提出一系列看似合理却又矛盾的要求时,你该怎么优化你的算法来确保算法拥有: 运算速度快 (算 力) 准确率高 (识别率) 抗干扰性强 (噪 声) TP (Tr ...
- 最新目标跟踪评估指标汇总
前段时间接触了一些目标跟踪的场景,本文主要汇总目标跟踪的常用评估指标,主要包括下面几类: 容易理解的概念:FP.FN.TP.id switch.ML.MT 更加综合的概念:MOTA.IDF1.MOTP ...
- 文本生成任务常见评估指标
1. 引言 在传统的文本生成任务中,对于模型生成的文本,往往很难评估他们的质量,对于以往的做饭,一般会通过人工评估的方式来评选最优的模型,但是其评估过程是非常昂贵和耗时的,而且每个人的评估标准 ...
- ap 目标检测算法map_目标检测算法的评估指标:mAP定义及计算方式
前面依次介绍了: 本节介绍目标检测算法的评估指标:mAP定义及计算方式 mAP:mean Average Precision,平均精度均值,即AP(Average Precision)的平均值,它是目 ...
- 图像分割评估指标——surface-distance计算库
文章目录 一.简介 二.计算各类度量 ①Average surface distance 平均表面距离 ②Hausdorff distance 豪斯多夫距离 ③Surface overlap 表面重叠 ...
- 机器学习模型评估指标总结!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:太子长琴,Datawhale优秀学习者 本文对机器学习模型评估指标 ...
最新文章
- 8 Django 模型层(2)
- Struts2.3+Spring4.0
- ABAP选择屏幕的例子
- vuex Payload 荷载
- 二分检索函数lower_bound()和upper_bound()
- Jlink-v8 灯不亮重新烧写固件的办法
- 自考----怎么说我不爱你
- 整理一些质量不错的教程、博客、论坛
- 混沌数学之CircuitChaotic(二维离散电路混沌系统)
- Predictably Irractional - 所有权的高昂代价
- 以太网驱动详解之 MAC、MII、PHY 详解
- 计算机怎么把日历和时间放到桌面上,怎么把日历放到电脑桌面
- 计算机应用软件开机自动启动设置,如何关闭开机自动启动的软件?
- qqpcmgr_docpro 这个隐藏文件无法删除的问题解决方法
- ECU软件开发介绍篇
- 给一个不多于5位的正整数,要求: 1.求出它是几位数; 2.分别输出每一位数字; 3.按逆序输出各位数字;
- 视频画中画效果该怎么实现?这款软件让你一秒成大神
- vs2010中的Resource View和Class View都为空的有效解决办法
- weex中UISegmentControl实现及遇到的问题
- 系统定时重启服务脚本案例