1803.01937_ROUGE2.0: Updated and Improved Measures for Evaluation of Summarization Tasks¶

Abstract¶

本文研究背景：摘要指出，评估机器生成摘要的质量至关重要，ROUGE已成为标准的自动评估指标，但现有ROUGE措施在捕捉同义概念和主题覆盖方面存在局限性，导致评分无法真实反映摘要质量。
总结任务的评估对判断机器生成摘要的质量非常重要。
过去十年里，ROUGE 成为了主流的自动评估方法，它能衡量机器摘要和人工摘要之间的 n-gram 重合程度。
但 ROUGE 也有缺点，比如不能很好地识别同义词或主题覆盖情况，所以得分有时不能准确反映摘要的真实质量。
为了解决这些问题，本文提出了改进版的 ROUGE 2.0，包括多个新指标，如加入同义词和主题信息的变种，提升了对摘要质量的多角度评估能力。
示例: ROUGE-N+Synonyms、ROUGE-Topic、ROUGE-Topic+Synonyms、ROUGE-TopicUniq和ROUGE-TopicUniq+Synonyms

1. Problems with the current ROUGE measures¶

ROUGE是一种通过比较系统生成的摘要与理想摘要（通常由人类创建）来自动评估摘要质量的方法，主要关注n-gram的重叠。
ROUGE的召回率得分（如ROUGE-1）无法全面反映摘要的性能，忽略了同义词和内容的实质性。
在比较多个摘要系统时，ROUGE的局限性较小，但在实际应用或新任务中，单靠ROUGE分数无法评估摘要效果。
示例中，两个系统生成的摘要（SysSum1和SysSum2）与参考摘要（RefSum）存在内容和表达方式的差异，ROUGE分数可能无法准确反映其质量。

SysSum1和SysSum2的 ROUGE-1 F-Score分别为0.727和0.286（去除停用词后分别为0.571和0.305）。
SysSum1虽然简洁且捕捉了所有重要内容，但ROUGE-1 F-Score仍然不高，原因在于ROUGE不支持同义词。
ROUGE评分要求系统摘要与参考摘要完全一致，导致得分偏低，实际表达相同内容的方式多样。
解决方案：允许同义词捕捉和评估主题覆盖率。
ROUGE评分无法有效捕捉主题或子集覆盖，主要关注参考摘要与系统摘要之间的n-gram重叠。
在摘要生成中，了解不同内容或主题的覆盖情况至关重要，尤其在新闻、推文和观点摘要中，主题定义依赖于具体应用。
提出ROUGE 2.0，旨在解决现有ROUGE的问题，包含以下新度量：
- ROUGE-{N|Topic|TopicUniq}+Synonyms：使用同义词字典捕捉同义词。
- ROUGE-Topic：主题或子集覆盖，主题可按词性自定义。
- ROUGE-TopicUniq：唯一主题或子集覆盖，主题可按词性自定义。
通过这些新度量，可以优化摘要算法，提高精确度和召回率，避免强制生成与参考摘要相同的内容。

2. ROUGE 2.0¶

ROUGE 2.0 具备改进的评分功能
- 支持通过同义词词典捕捉语义重叠
- 可针对特定主题或内容子集进行评估
新指标：
- ROUGE-N+Synonyms：考虑同义词的n-gram重叠。
  - 也叫 ROUGE-N+Synonyms，是对传统 ROUGE-N 的扩展，加入了同义词识别能力
- ROUGE-Topic：基于主题的评估。
- ROUGE-Topic+Synonyms：结合主题和同义词的评估。
- ROUGE-TopicUniq：评估独特主题的覆盖。
- ROUGE-TopicUniq+Synonyms：结合唯一主题和同义词的评估。
  - 只计算每个主题词的唯一出现，重复出现的词只算一次
  - 更关注摘要是否覆盖了所有关键主题点，而不是是否多次提到

2.1 Semantics Capture using Synonyms: Rouge-{NN|Topic|TopicUniq}+Synonyms¶

ROUGE-{NN|Topic|TopicUniq}+Synonyms通过同义词字典提高参考摘要与系统摘要之间的n-gram重叠一致性。
传统ROUGE只进行表面重叠，未考虑同义词，导致得分偏低。
使用同义词后，系统摘要的召回率可达到1.000，显示出完美重叠。
ROUGE 2.0使用WordNet获取名词、动词和形容词的同义词，支持模块化替换特定领域或语言的同义词字典。
可根据特定需求（如Twitter领域）使用相应的同义词字典。

2.2 Topic or Subset Coverage: ROUGE Topic¶

Table 3 Part-of-speech options for ROUGE-Topic and ROUGE-TopicUniq scoring.

ROUGE-Topic允许根据不同的主题评估摘要，支持指定词性组合。
评估维度可根据摘要任务定义，默认使用单词的出现频率（unigrams）。
通过Stanford的词性标注器支持多种语言。
ROUGE-Topic可以分别评估多个维度，计算公式涉及参考摘要和系统摘要的词性标记。
ROUGE-Topic评估系统摘要与参考摘要之间的重叠词汇，考虑特定词性（POS）。
重复词汇会影响ROUGE-Topic的精确度和召回率。
ROUGE-TopicUniq通过计算唯一词汇的集合交集，提供更准确的主题覆盖度评估。
REFUniq和SY SUniq分别表示参考和系统摘要中唯一的单词集合。

Table 4 ROUGE-TopicNN|JJ and ROUGE-TopicUniqNN|JJ scores

表4展示了 ROUGE-Topic 和 ROUGE-TopicUniq 评分，主题为名词（NN）和形容词（JJ），用于评估意见覆盖。
ROUGE-TopicNN|JJ召回分数显示，SysSum1和SysSum2都正确捕捉了大部分参考摘要中的意见。
使用同义词后，ROUGE-TopicNN|JJ的分数有所提升。
ROUGE-TopicUniqNN|JJ分数表明，精确度提高，重复被抑制，仅计算一次主题匹配。
SysSum1的ROUGE-TopicUniqNN|JJ + Synonyms F-Score显示其摘要完整且简洁。
SysSum2的精确度较低，表明包含了多余的主题和意见，需优化算法以减少冗余信息。