11.1. 通用¶
11.1.1. BLEU¶
BLEU(Bilingual Evaluation Understudy)是一种常用的机器翻译和文本生成质量评估指标,用于衡量自动生成的文本与参考文本之间的相似性。它最早由 Papineni 等人在 2002 年提出,是自然语言处理领域的一项重要指标。
核心思想¶
BLEU 通过统计自动生成文本中与参考文本一致的词或短语的比例,来衡量生成文本的质量。它的基本思想是:高质量的翻译应该与人类翻译(参考文本)尽可能接近。
主要计算步骤¶
N-gram 匹配¶
BLEU 通过计算生成文本与参考文本之间的 N-gram(连续 N 个词语)的重叠情况来评估相似性。
通常会计算 1-gram、2-gram、3-gram 和 4-gram 的匹配情况。
精确率(Precision)¶
对于每种 N-gram,计算生成文本中的 N-gram 在参考文本中出现的次数与生成文本中所有 N-gram 总数的比值。
长度惩罚(Brevity Penalty, BP)¶
为了防止生成的文本过短(例如只输出几个关键词),BLEU 引入了长度惩罚。如果生成文本的长度小于参考文本,则会降低得分。
加权几何平均¶
BLEU 将不同 N-gram 的精确率进行加权几何平均,通常对 1-gram 到 4-gram 赋相等权重(即权重为 0.25)。