# 0401.xxxxx_ROUGE: A Package for Automatic Evaluation of Summaries * [http://www.aclweb.org/anthology/W04-1013](http://www.aclweb.org/anthology/W04-1013) * PDF: [https://aclanthology.org/W04-1013.pdf](https://aclanthology.org/W04-1013.pdf) * PDF2: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/07/was2004.pdf * 组织: Information Sciences Institute, University of Southern California * 引用: 20772(2025-07-17) ## 总结 * ROUGE-L(Longest Common Subsequence) * 核心思想 * 评估自动生成摘要质量的指标之一 * 通过找出参考摘要与生成摘要之间的最长公共子序列(LCS)来度量它们的相似度。 ## Abstract * ROUGE 是一种用于评估摘要质量的指标,它通过将机器生成的摘要与人工写的理想摘要进行对比,来计算它们之间有多少重合的部分(比如 n-gram、词序列、词对等)。 * 本文介绍了四种 ROUGE 指标:ROUGE-N、ROUGE-L、ROUGE-W 和 ROUGE-S,其中三种被用于 2004 年 DUC(一个由 NIST 组织的大型摘要评估项目)中。 ## 1.Introduction * 传统上,摘要的质量是靠人工来评估的,比如看是否连贯、简洁、语法正确、易读、内容完整等。但人工评估很耗时,比如 DUC 比赛中,如果要大规模评估摘要,需要超过 3000 小时的人力,这不现实。 * 因此,研究者开始关注如何**自动评估摘要**。 * 早期的方法包括用**余弦相似度、n-gram(如 unigram 或 bigram)重叠、最长公共子序列**来比对摘要之间的相似度,但这些方法没验证是否和人工评估一致。 * 后来借鉴机器翻译中的 BLEU 方法(用 n-gram 统计评估翻译质量),Lin 和 Hovy 提出可以用类似的方式来评估摘要。 * 于是就有了这个叫 **ROUGE** 的自动评估工具,它的全称是: > **Recall-Oriented Understudy for Gisting Evaluation** * ROUGE 包含多种评估方法,用来衡量机器摘要与参考摘要的相似度。 ## 2.ROUGE-N: N-gram Co-Occurrence Statistics * **ROUGE-N** 是一种用于评估自动摘要质量的指标,核心思想是看自动生成的摘要中,有多少 **n-gram(连续的n个词)** 能在人工参考摘要中找到。 * 它是一个**召回率(Recall)**:即自动摘要中有多少参考摘要中出现过的 n-gram 被命中了。 ### **公式含义:** * **分子**:自动摘要中和参考摘要中共同出现的 n-gram 总数。 * **分母**:参考摘要中所有 n-gram 的总数。 * 所以它衡量的是:**参考摘要中的内容在自动摘要中覆盖了多少**。 ### **ROUGE vs BLEU** * **ROUGE-N** 看的是“参考中出现的内容,自动摘要有没有提到”(召回)。 * **BLEU** 是翻译评估指标,看的是“自动翻译中提到的内容,在参考翻译中是否也有”(精度)。 ### 多个参考摘要时怎么处理 * 如果有多个参考摘要,会对自动摘要和每一个参考摘要计算 ROUGE-N。 * 然后取这些分数中的**最大值**作为最终得分(代表它最接近其中一个参考摘要)。 #### Jackknifing 技术: * 假设有 M 个参考摘要: * 每次拿 M-1 个当参考,1 个当作要评估的摘要,重复 M 次。 * 最后取这 M 次结果的平均值。 * 这样做可以**估计人类之间的摘要一致性**(即一个人写的摘要和其他人的一致程度)。 ### 总结: ```note ROUGE-N 衡量“自动摘要和人工摘要在词组级别的重合程度”,是召回率导向的;多个参考摘要时,取与任一最相似的那一个的得分,并可用 Jackknifing 估计人类表现。 ``` ## 3.ROUGE-L: Longest Common Subsequence * 这段内容讲的是 **ROUGE-L 指标**,它是一种用来衡量两个文本(通常是摘要)相似度的算法,基于 **最长公共子序列(LCS)** 的概念。 * 🔹定义:ROUGE-L 是什么? * **ROUGE-L** 用最长公共子序列(LCS)来衡量两个句子或摘要的相似度。 * 它关注的是:**词语是否按照相同顺序出现**,而不要求它们是连续的。 * **子序列**:是从原句中按顺序抽取部分词的序列(中间可以跳过词)。 * **最长公共子序列(LCS)**:是两个句子中都出现的最长子序列。 例子: ``` X: police killed the gunman Y: police kill the gunman LCS: police the gunman(长度为3) ``` ### 3.1 Sentence-Level LCS * 先计算两个句子的 LCS 长度,然后根据以下公式计算: ``` Recall (R) = LCS / 参考句长度 Precision (P) = LCS / 候选句长度 ``` * F值 = $\frac{(1+β²)R_{lcs} \cdot P_{lcs}} {R + β²P_{lcs}}$ * 通常在 DUC 评测中,β 设为 ∞,表示只关注 Recall(召回率)。 #### 🔹 ROUGE-L 的优点 * 比 n-gram 更灵活:不要求固定长度匹配。 * 比 unigram 更精细:保留了词语顺序的信息。 例子说明: ``` 参考句 S1: police killed the gunman 候选句 S2: police kill the gunman → ROUGE-L 高(0.75) LCS = len(police the guman) = 3 候选句长度 = len(police kill the guman) = 4 则: 3/4 = 0.75 候选句 S3: the gunman kill police → ROUGE-L 低(0.5) LCS = len(the guman) = 2 候选句长度 = len(the gunman kill police) = 4 则: 2/4 = 0.5 ``` 虽然 S2 和 S3 的词一样多,但 S2 的顺序更接近参考句,所以分更高。 ### 3.2 Summary-Level LCS * 对摘要来说,不止一个句子。 * 所以对每个参考句 r,和所有候选句 c 计算 LCS,并取它们的 **“联合”** 匹配数(不是最大值)。 #### **1. Recall (召回率)**:公式 (5) $$ \begin{aligned} P_{lcs} & =\frac{\sum_{i=1}^{u} L C S_{\cup}\left(r_{i}, C\right)}{m} \end{aligned} $$ * $r_i$:参考摘要的第 $i$ 个句子 * $C$:候选摘要(包含多个句子) * $LCS(r_i, C)$:将参考句 $r_i$ 与候选摘要中所有句子的 LCS 取**并集**后得到的 LCS 长度 * $u$:参考摘要中句子的数量 * $m$:参考摘要中的总词数 ➡️ 这个公式表示:对所有参考句子的 LCS 长度求和后除以总词数,得到的是 LCS 级别的召回率。 #### **2. Precision (准确率)**:公式 (6) $$ \begin{aligned} P_{lcs} & =\frac{\sum_{i=1}^{u} L C S_{\cup}\left(r_{i}, C\right)}{n} \end{aligned} $$ * $n$:候选摘要(candidate summary)中所有词的总数 ➡️ 和召回率类似,但分母换成了候选摘要词数,表示的是 LCS 匹配占候选词总数的比例。 #### **3. F-measure (F分数)**:公式 (7) $$ \begin{aligned} F_{l c s} & =\frac{\left(1+\beta^{2}\right) R_{l c s} P_{l c s}}{R_{l c s}+\beta^{2} P_{l c s}} \end{aligned} $$ * $\beta$:用于调整召回率与准确率权重的因子 * 实际应用中(如 DUC 评测),通常令 $\beta \rightarrow \infty$,也就是**只考虑召回率** #### 🧪 举例解释 * 给定: * 参考句 $r_i = w_1, w_2, w_3, w_4, w_5$ * 候选摘要包含两个句子: * $c_1 = w_1, w_2, w_6, w_7, w_8$ * $c_2 = w_1, w_3, w_9, w_5$ * 最长公共子序列分别为: * $r_i$ 和 $c_1$ 的 LCS 是 $w_1, w_2$ * $r_i$ 和 $c_2$ 的 LCS 是 $w_1, w_3, w_5$ * 联合 LCS 是:$w_1, w_2, w_3, w_5$ * 长度为 4 * 所以 $LCS_{\cup}(r_i, C) = 4$ #### ✅ 总结要点 * **Summary-Level ROUGE-L** 是通过**联合 LCS** 来度量参考摘要与候选摘要的整体相似性。 * **Recall(召回)更受重视**,因为摘要任务倾向于覆盖更多重要信息。 * 本质上:参考摘要的每个句子与候选摘要中所有句子比对,取出最长公共子序列的并集,统计长度来算得分。 ### 3.3 ROUGE-L vs. Normalized Pairwise LCS 计算公式如下: $$ LCS(S_1, S_2)_{MEAD} = \frac{ \sum_{i, s_i \in S_1} \max_{s_j \in S_2} LCS(s_i, s_j) + \sum_{j, s_j \in S_2} \max_{s_i \in S_1} LCS(s_j, s_i) }{ \sum_{i, s_i \in S_1} length(s_i) + \sum_{j, s_j \in S_2} length(s_j) } \tag{8} $$ 假设 S1 有 $m$ 个词,S2 有 $n$ 个词,由于对称性,公式(8)可以简化为如下形式: $$ \frac{ 2 \cdot \sum_{s_i \in S_1} \max_{s_j \in S_2} LCS(s_i, s_j) }{ m + n } \tag{9} $$ --- 接下来我们定义 MEAD 中使用的 LCS 召回率($R_{LCS-MEAD}$)和 LCS 准确率(( P\_{LCS-MEAD} \))如下: $$ R_{LCS-MEAD} = \frac{ \sum_{s_i \in S_1} \max_{s_j \in S_2} LCS(s_i, s_j) }{m} \tag{10} $$ $$ P_{LCS-MEAD} = \frac{ \sum_{s_j \in S_2} \max_{s_i \in S_1} LCS(s_j, s_i) }{n} \tag{11} $$ --- 我们可以用 $R_{LCS-MEAD}$ 和 $P_{LCS-MEAD}$ 将公式(9)重写为如下形式的 F-score,其中参数 $\beta = 1$: $$ LCS(S_1, S_2)_{MEAD} = \frac{ (1 + \beta^2) R_{LCS-MEAD} P_{LCS-MEAD} }{ R_{LCS-MEAD} + \beta^2 P_{LCS-MEAD} } \tag{12} $$ * **Sentence-level normalized pairwise LCS** 和当 $\beta = 1$ 时的 ROUGE-L 是相同的。 * **Summary-level normalized pairwise LCS** 和 ROUGE-L 的差别在于:** * **ROUGE-L**:一个参考句子的 LCS 分数来自于其与候选摘要所有句子的**LCS 并集**。 * **归一化成对 LCS**:取的是该参考句子在所有候选句中**LCS 最大值**的那一个。 * 所以,归一化成对 LCS 更像是“句子之间找最强匹配”,而 ROUGE-L 更像是“多个句子一起联合覆盖参考句”。 * ROUGE-L 是 Normalized Pairwise LCS 的一种特殊归一化变体,两者均基于 LCS,但 ROUGE-L 更适合摘要任务中 “候选摘要对参考摘要的覆盖度” 评估,而 Normalized Pairwise LCS 更适合需要对称衡量两个序列相似度的场景(如句子相似度计算)。 ## 4 ROUGE-W: Weighted Longest Common Subsequence ### 核心思想 * 连续匹配的词应该比零散匹配的词得分更高。 ### ROUGE-L 的问题 * 普通的 LCS(最长公共子序列, 如ROUGE-L)能找出候选句子和参考句子之间的匹配部分,但不区分连续匹配和分散匹配 * 比如两个句子LCS长度一样,但一个连续匹配、一个分散匹配,其质量应不同。 * 如:在下面两个候选句中,虽然 Y₁ 连续匹配了 ABCD,但 Y₂ 把它们拆散了,ROUGE-L 给的分数却一样,这不合理。 ``` 参考:A B C D E F G Y₁ :A B C D I H K ← 连续匹配 Y₂ :A H B K C I D M ← 零散匹配 ``` ### 解决方法 * 引入了“加权的LCS”,简称 **WLCS**,对**连续匹配**的部分给予**更高的权重**。 * 具体方法是用一个二维动态规划表记录每一对词之间的“连续匹配长度”。 ### 具体操作 * 使用一个权重函数 `f(k)` 表示连续匹配长度为 k 的重要性。 #### 权重函数的设计要求: * 函数 $f(k)$ 必须满足“连续性加分越来越多”: $$ f(x+y) > f(x) + f(y) $$ 这保证了**连续匹配比零散匹配得更多分**。 #### 权重函数示例 * $f(k) = k^2$:平方函数,连续性加分很明显。 * $f(k) = \alpha k - \beta$:线性函数加惩罚项,模拟间隔造成的损失 * $\alpha k$:每多匹配一个词,增加 $\alpha$ 分,这表示匹配的“好处”。 * $-\beta$:减去一个固定值,表示**非连续匹配的惩罚项**,因为你中间有断开(不连续)了,就扣点分 * 示例 * 情况1:匹配长度为 3,连续 → $f(3) = 2×3 - 1 = 5$ * 情况2:三个词分散匹配,不连续 → 每次都从 $k=1$ 开始,三次总共得 $3×f(1) = 3×(2×1 - 1) = 3$ #### 说明 * 用一个动态规划表 $c(i,j)$ 记录得分,另一个表 $w(i,j)$ 记录连续匹配长度。 * 每次匹配时,根据连续长度 $k$ 来给分,使用一个函数 $f(k)$ 来定义“连续性带来的额外奖励”。 * 比如连续匹配2个词,就得 $f(2)-f(1)$ 分;连续3个词,就得 $f(3)-f(2)$。 ### 得分计算 * 先求出WLCS得分 $WLCS(X, Y) = c(m,n)$; * 然后用函数的**逆函数** $f^{-1}$ 计算召回率 $R$、精确率 $P$; #### 公式 $$ \begin{array}{l} R_{wlcs}=f^{-1}\left(\frac{WLCS(X, Y)}{f(m)}\right) \\ P_{wlcs}=f^{-1}\left(\frac{WLCS(X, Y)}{f(n)}\right) \\ F_{wlcs}=\frac{\left(1+\beta^{2}\right) R_{wlcs} P_{wlcs}}{R_{wlcs}+\beta^{2} P_{wlcs}} \end{array} $$ #### 函数的逆函数来计算召回率、精确率 * 因为 WLCS 的得分是加权的,不是简单地数词的个数了。为了计算“比例”(即召回率和精确率),我们必须把这个“加权得分”还原回词的数量,这样才好与句子长度做比较。 * 具体逻辑如下: 1. **原来的召回率公式** 是: $$ R = \frac{\text{匹配词数}}{\text{参考句子长度}} $$ 这要求**分子和分母单位一致**,都是“词数”。 2. 但 WLCS 得到的是: $$ \text{加权后的得分} = f(k_1) + f(k_2) + \dots $$ 这个得分是经过函数放大的,不是“原始词数”。 3. 所以我们要**反过来“解码”这个得分**,用 $f^{-1}(\text{得分})$ 来估计它相当于多少个词。 * 示例 * 假设: * 我们用的是 $f(k) = k^2$ * WLCS 得分是 25(可能是因为连续匹配了5个词) * 那么我们要问:“这个得分等价于连续匹配了多少个词?” * 答案是: $$ f^{-1}(25) = \sqrt{25} = 5 $$ * 所以我们认为这段匹配相当于5个词,再拿这个“5”去算召回率。 ### 小结 Rouge-W 是对 Rouge-L 的改进,**更看重连续匹配的质量**,通过引入加权函数 $f(k)$ 来实现。 ## 5.ROUGE-S: Skip-Bigram Co-Occurrence Statistics * **什么是 Skip-Bigram?** 是指**句子中任意两个按顺序出现的单词对**,中间可以有空格(不一定是连续的)。例如句子 “police killed the gunman” 中就有这些 skip-bigrams: `("police killed", "police the", "police gunman", "killed the", "killed gunman", "the gunman")` * ROUGE-S 评分方法: 比较候选句和参考句中这些 skip-bigram 的**重合程度**。 它用 F1 分数来衡量,公式考虑了查全率(Recall)和查准率(Precision),可调节 β 来平衡二者。 * 优点: * 比 BLEU 更灵活,不要求词连在一起; * 又比 ROUGE-L 更细,因为它统计所有有序词对,不只是一条最长公共子序列。 * **可加限制:** 为了避免“the the”这种无意义的配对,可以设置跳跃最大距离 d,比如 d=4 表示词对最多隔4个词。 ### ROUGE-SU:ROUGE-S 的扩展版 * **问题:** 有些句子比如 “gunman the killed police” 虽然词顺不同,**每个词都在原句中出现**,但 skip-bigram 是 0,导致 ROUGE-S 得分为 0。 * 解决方案: 在 ROUGE-S 基础上**加入 unigram(单词)匹配统计**,这样即使没有词对匹配,也能通过单词匹配拿到一定分数。这个改进版叫 **ROUGE-SU**。 ### 总结对比: * **ROUGE-S** 看的是跳跃式词对重合度; * **ROUGE-SU** = ROUGE-S + 单词重合; * **优点:** 更灵敏,更合理; * **表格**展示了各种 ROUGE 指标(R-1, R-2, R-SU 等)与人工评价的相关性。 ## 6 Evaluations of ROUGE ### 目的 评估 ROUGE 自动摘要评分指标的有效性,看它是否和人类评分一致。 ### 评估方法 1. 数据来源: * 使用 DUC(2001~2003)的多种摘要数据,包括单文档、非常短摘要(类似标题)、多文档摘要。 * 每个系统的摘要都由人类进行评分,作为“真实值”。 2. 评分对比: * 计算 ROUGE 得分(17种变体,如 ROUGE-1 到 ROUGE-9、ROUGE-L、ROUGE-S 等)和人类评分之间的相关性。 * 使用 3 种统计方法:**Pearson、Spearman、Kendall 相关系数**。 3. 额外变量: * **CASE**(原始文本)、**STEM**(词干提取后)、**STOP**(去停用词)三种预处理方式。 * 单一 vs 多个参考摘要。 ### 主要发现: 1. 单文档摘要(100词): * ROUGE-2、ROUGE-L、ROUGE-W 和 ROUGE-S 表现较好。 * 去除停用词、词干化对结果影响不大。 * 多参考摘要略有提升。 2. 单文档极短摘要(10词): * ROUGE-1、ROUGE-L、ROUGE-W、ROUGE-SU 表现好。 * ROUGE-N(N > 1)效果差。 * 去停用词有助于提升结果。 3. 多文档摘要: * ROUGE-1、ROUGE-2、ROUGE-S4/SU4/S9/SU9 表现较好(尤其去停用词时相关性 > 0.70) * ROUGE-L 和 ROUGE-W 效果反而较差 * **摘要越长,ROUGE 得分与人类一致性越高**(200词、400词相关性更高) 4. 样本数量影响稳定性: * 单文档样本数量多(>100),结果更稳定 * 多文档任务样本较少(\~30),相关性波动大 ### 结论: * ROUGE 各变体在不同摘要任务中的表现有差异。 * 整体来说: * ROUGE-1、ROUGE-2、ROUGE-L、ROUGE-SU4 是较稳妥的选择; * 多个参考摘要、去除停用词可适度提升表现; * 数据量充足时(样本多、摘要长)评估更可靠。 ![](https://img.zhaoweiguo.com/uPic/2025/07/i3QhsR.jpg) Table 1. Pearson’s correlations of 17 ROUGE measure scores vs. human judgments for the DUC 2001 and 2002 100 words single document summarization tasks. * 图片解释 * 表 1 展示了 DUC 2001 和 DUC 2002 中 100 词单文档摘要数据集上,17 种 ROUGE 指标与人工评分之间的 Pearson 相关系数。每列中表现最好的数值用深色(绿色)标出,与最佳值在统计上相当的数值用灰色标出。 * 我们发现,在该数据集中,词干还原(stemming)或停用词去除对相关性影响不大;在 ROUGE-N 系列中,ROUGE-2 表现最佳;ROUGE-L、ROUGE-W 和 ROUGE-S 的表现也都较好;使用多个参考摘要虽然带来提升,但提升幅度不大。 * 在 DUC 2002 数据中,所有 ROUGE 指标与人工评分的相关性都非常高,这可能是由于该数据集中每个系统的样本数量是 DUC 2001 的两倍(DUC 2002 为 295,DUC 2001 为 149)。 ![](https://img.zhaoweiguo.com/uPic/2025/07/llUTPm.jpg) Table 2. Pearson’s correlations of 17 ROUGE measure scores vs. human judgments for the DUC 2003 very short summary task. * 图片解释 * 表 2 展示了 DUC 2003 单文档极短摘要任务的相关性分析结果。 * 我们发现,在这一任务中,ROUGE-1、ROUGE-L、ROUGE-SU4 和 9,以及 ROUGE-W 是表现非常好的指标;而 N>1 的 ROUGE-N 指标表现显著差于其他指标。 * 去除停用词总体上能提升性能,但 ROUGE-1 是一个例外。 * 由于该数据集的样本数量很大(624),使用多个参考摘要并未进一步提高相关性。 ![](https://img.zhaoweiguo.com/uPic/2025/07/YBx5hP.jpg) Table 3. Pearson’s correlations of 17 ROUGE measure scores vs. human judgments for the DUC 2001, 2002, and 2003 multi-document summarization tasks. * 图片理解 * 表 3 的 A1、A2 和 A3 展示了在 DUC 2001、2002 和 2003 的 100 词多文档摘要任务上的相关性分析结果。 * 结果表明,使用多个参考摘要可以提高相关性,而去除停用词通常能提升性能。 * ROUGE-1、2 和 3 的表现不错,但不够一致。 * ROUGE-1、ROUGE-S4、ROUGE-SU4、ROUGE-S9 和 ROUGE-SU9 在去除停用词的条件下,其相关性都超过了 0.70。 * 而 ROUGE-L 和 ROUGE-W 在该组数据中表现不佳。 * 表 3 的 C、D1、D2、E1、E2 和 F 显示了在其余 DUC 数据上,使用多个参考摘要进行的相关性分析。 * 这些结果再次表明,去除停用词能获得更好的性能,尤其是在50词的多文档摘要任务中。 * 在长摘要任务中(即 200 和 400 词的摘要),观察到更好的相关性(大于 0.70)。 * ROUGE 各评估指标的相对表现趋势,与100词多文档摘要任务中观察到的模式相同。 * 将表 3 的结果与表 1 和表 2 进行比较,我们发现:除了长摘要任务之外,多文档任务中的相关性值很少能达到 90% 以上。造成这种情况的一个可能原因是:我们在多文档任务中没有足够多的样本。在单文档摘要任务中,我们拥有超过 100 个样本;而在多文档任务中,我们仅有约 30 个样本。唯一拥有超过 30 个样本的任务是 DUC 2002,其在 100 词摘要任务中 ROUGE 指标与人工评估的相关性表现明显更好且更稳定,优于 DUC 2001 和 2003 中的类似任务。由于样本数量不足,系统性能的人工评估可能在统计上不够稳定,从而导致相关性分析的不稳定性。 ## 7 Conclusions * 本研究介绍了用于自动评估摘要质量的工具 ROUGE,并基于 DUC 三年的数据进行了全面评估。 * 主要结论如下: 1. **ROUGE-2、ROUGE-L、ROUGE-W 和 ROUGE-S** 在单文档摘要任务中效果很好。 2. **ROUGE-1、ROUGE-L、ROUGE-W、ROUGE-SU4 和 ROUGE-SU9** 适合评估简短摘要(如标题)。 3. 多文档摘要中很难达到和人工评分高度一致(90%以上)的相关性,但在去除停用词后,**ROUGE-1、ROUGE-2、ROUGE-S4、S9、SU4、SU9** 表现还不错。 4. 去掉停用词通常能提升评分结果与人工的一致性。 5. 使用多个参考摘要有助于提高和人工评分的相关性。 * 此外,ROUGE 在机器翻译评估中也很有效,并且在不同数据量下表现稳定。但如何让 ROUGE 在多文档摘要中也能像单文档中那样与人工评分高度一致,仍是未解决的问题。