BLEU评估指标

Posted 2023-02-06 雨宙

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了BLEU评估指标相关的知识，希望对你有一定的参考价值。

定义

BLEU（全称为Bilingual Evaluation Understudy），其意思为双语评估替补，用于机器翻译任务的评价，原文如下BLEU: a Method for Automatic Evaluation of Machine Translation
BLEU算法实际上就是在判断两个句子的相似程度
BLEU有许多变种，根据n-gram可以划分成多种评价指标，常见的评价指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种，其中n-gram指的是连续的单词个数为n，BLEU-1衡量的是单词级别的准确性，更高阶的BLEU可以衡量句子的流畅性

计算

BLEU计算的一个大致步骤是：
- 分别计算candidate句和reference句的N-grams模型，然后统计其匹配的个数，计算匹配度
  $c an d i d a t e 和 re f ere n ce 中匹配的 n - g r am 的个数 / c an d i d a t e 中 n - g r am 的个数$
  
  举例说明：
  
  candidate: It is a nice day today
  reference: Today is a nice day
  - 使用1-gram进行匹配
```
candidate: it, is, a, nice, day, today
reference: today, is, a, nice, day
```
    其中today, is, a, nice, day匹配，所以匹配度为5/6
  - 使用2-gram进行匹配
```
candidate: it is, is a, a nice, nice day, day today
reference: today is, is a, a nice, nice day
```
    其中is a, a nice, nice day匹配，所以匹配度为3/5
  - 使用3-gram进行匹配
```
candidate: it is a, is a nice, a nice day, nice day today
reference: today is a, is a nice, a nice day
```
    其中is a nice, a nice day匹配，所以匹配度为2/4
  - 使用4-gram进行匹配
```
candidate: it is a nice, is a nice day, a nice day today
reference: today is a nice, is a nice day
```
    其中is a nice day匹配，所以匹配度为1/3
- 对匹配的N-grams计数进行修改，以确保它考虑到reference文本中单词的出现，而非奖励生成大量合理翻译单词的候选结果
  
  举例说明：
  
  candidate: the the the the
  
  reference: The cat is standing on the ground
  
  如果按照1-gram的方法进行匹配，则匹配度为1，显然是不合理的，所以计算某个词的出现次数进行改进
  
  将计算某个词的出现次数的方法改为计算某个词在译文中出现的最小次数，如下所示，
  $\\operatornamecount_k=\\min \\left(c_k, s_k\\right)$
  其中 $k$ 表示在机器译文（candidate）中出现的第 $k$ 个词语， $c_k$ 则代表在机器译文中这个词语出现的次数，而 $s_k$ 则代表在人工译文（reference）中这个词语出现的次数。
  
  由此，可以定义BLEU计算公式，首先定义几个数学符号：
  - 人工译文表示为 $s_j$ ，其中 $\\in \\mathrmM$ ， $\\mathrmM$ 表示有 $\\mathrmM$ 个参考答案
  - 翻译译文表示为 $c_i$ ，其中 $\\in \\mathrmE$ ， $\\mathrmE$ 表示共有 $\\mathrmE$ 个翻译
  - $n$ 表示 $n$ 个单词长度的词组集合，令 $k$ 表示第 $k$ 个词组
  - $h_k(c_i)$ 表示第 $k$ 个词组在翻译译文 $c_i$ 中出现的次数
  - $h_k(s_i,j)$ 表示第 $k$ 个词组在人工译文 $s_i,j$ 中出现的次数
  最后可以得到计算每个n-gram的公式，
  $P_n=\\frac\\sum_i^\\mathrmE \\sum_k^\\mathrmK \\min(h_k(c_i), \\max_j \\in \\mathrmMh_k(s_i,j)) \\sum_i^\\mathrmE \\sum_k^\\mathrmK\\min(h_k(c_i))$
  第一个求和符号统计的是所有的翻译句子，因为计算时可能有多个句子；第二个求和符号是统计一条翻译句子中所有的n-gram， $\\max_j \\in \\mathrmMh_k(s_i,j)$ 表示第 $i$ 条翻译句子对应的 $\\mathrmM$ 条人工译文中包含最多第 $k$ 个词组的句子中第 $k$ 个词组的数量
- n-gram匹配度可能会随着句子长度的变短而变好，为了避免这种现象，BLEU在最后的评分结果中引入了长度惩罚因子（Brevity Penalty）
  $P=\\left\\\\beginarraylll 1 & \\text if & l_c>l s \\\\ e^1-\\fracl_sl_c & \\text if & l_c<=l_s \\endarray\\right.$
  其中， $l_c$ 表示机器翻译译文的长度， $l_s$ 表示参考译文的有效长度，当存在多个参考译文时，选取和翻译译文最接近的长度。当翻译译文长度大于参考译文长度时，惩罚因子为1，意味着不惩罚，只有翻译译文长度小于参考译文长度时，才会计算惩罚因子。
- 计算BLEU最终公式
  
  为了平衡各阶统计量的作用，对各阶统计量进行加权求和，一般来说， $N$ 取4，最多只统计4-gram的精度， $\\boldsymbolW_n$ 取 $1/ N$ ，进行均匀加权，最终公式如下：
  
  以上是关于BLEU评估指标的主要内容，如果未能解决你的问题，请参考以下文章