1803.01937_ROUGE2.0: Updated and Improved Measures for Evaluation of Summarization Tasks¶
参考: 181(2025-07-17)
Abstract¶
本文研究背景:摘要指出,评估机器生成摘要的质量至关重要,ROUGE已成为标准的自动评估指标,但现有ROUGE措施在捕捉同义概念和主题覆盖方面存在局限性,导致评分无法真实反映摘要质量。
总结任务的评估对判断机器生成摘要的质量非常重要。
过去十年里,ROUGE 成为了主流的自动评估方法,它能衡量机器摘要和人工摘要之间的 n-gram 重合程度。
但 ROUGE 也有缺点,比如不能很好地识别同义词或主题覆盖情况,所以得分有时不能准确反映摘要的真实质量。
为了解决这些问题,本文提出了改进版的 ROUGE 2.0,包括多个新指标,如加入同义词和主题信息的变种,提升了对摘要质量的多角度评估能力。
示例: ROUGE-N+Synonyms、ROUGE-Topic、ROUGE-Topic+Synonyms、ROUGE-TopicUniq和ROUGE-TopicUniq+Synonyms
1. Problems with the current ROUGE measures¶
ROUGE是一种通过比较系统生成的摘要与理想摘要(通常由人类创建)来自动评估摘要质量的方法,主要关注n-gram的重叠。
ROUGE的召回率得分(如ROUGE-1)无法全面反映摘要的性能,忽略了同义词和内容的实质性。
在比较多个摘要系统时,ROUGE的局限性较小,但在实际应用或新任务中,单靠ROUGE分数无法评估摘要效果。
示例中,两个系统生成的摘要(SysSum1和SysSum2)与参考摘要(RefSum)存在内容和表达方式的差异,ROUGE分数可能无法准确反映其质量。
SysSum1和SysSum2的 ROUGE-1 F-Score分别为0.727和0.286(去除停用词后分别为0.571和0.305)。
SysSum1虽然简洁且捕捉了所有重要内容,但ROUGE-1 F-Score仍然不高,原因在于ROUGE不支持同义词。
ROUGE评分要求系统摘要与参考摘要完全一致,导致得分偏低,实际表达相同内容的方式多样。
解决方案:允许同义词捕捉和评估主题覆盖率。
ROUGE评分无法有效捕捉主题或子集覆盖,主要关注参考摘要与系统摘要之间的n-gram重叠。
在摘要生成中,了解不同内容或主题的覆盖情况至关重要,尤其在新闻、推文和观点摘要中,主题定义依赖于具体应用。
提出ROUGE 2.0,旨在解决现有ROUGE的问题,包含以下新度量:
ROUGE-{N|Topic|TopicUniq}+Synonyms:使用同义词字典捕捉同义词。
ROUGE-Topic:主题或子集覆盖,主题可按词性自定义。
ROUGE-TopicUniq:唯一主题或子集覆盖,主题可按词性自定义。
通过这些新度量,可以优化摘要算法,提高精确度和召回率,避免强制生成与参考摘要相同的内容。
2. ROUGE 2.0¶
ROUGE 2.0 具备改进的评分功能
支持通过同义词词典捕捉语义重叠
可针对特定主题或内容子集进行评估
新指标:
ROUGE-N+Synonyms:考虑同义词的n-gram重叠。
也叫 ROUGE-N+Synonyms,是对传统 ROUGE-N 的扩展,加入了同义词识别能力
ROUGE-Topic:基于主题的评估。
ROUGE-Topic+Synonyms:结合主题和同义词的评估。
ROUGE-TopicUniq:评估独特主题的覆盖。
ROUGE-TopicUniq+Synonyms:结合唯一主题和同义词的评估。
只计算每个主题词的唯一出现,重复出现的词只算一次
更关注摘要是否覆盖了所有关键主题点,而不是是否多次提到
2.1 Semantics Capture using Synonyms: Rouge-{NN|Topic|TopicUniq}+Synonyms¶
ROUGE-{NN|Topic|TopicUniq}+Synonyms通过同义词字典提高参考摘要与系统摘要之间的n-gram重叠一致性。
传统ROUGE只进行表面重叠,未考虑同义词,导致得分偏低。
使用同义词后,系统摘要的召回率可达到1.000,显示出完美重叠。
ROUGE 2.0使用WordNet获取名词、动词和形容词的同义词,支持模块化替换特定领域或语言的同义词字典。
可根据特定需求(如Twitter领域)使用相应的同义词字典。
2.2 Topic or Subset Coverage: ROUGE Topic¶
Table 3 Part-of-speech options for ROUGE-Topic and ROUGE-TopicUniq scoring.
ROUGE-Topic允许根据不同的主题评估摘要,支持指定词性组合。
评估维度可根据摘要任务定义,默认使用单词的出现频率(unigrams)。
通过Stanford的词性标注器支持多种语言。
ROUGE-Topic可以分别评估多个维度,计算公式涉及参考摘要和系统摘要的词性标记。
ROUGE-Topic评估系统摘要与参考摘要之间的重叠词汇,考虑特定词性(POS)。
重复词汇会影响ROUGE-Topic的精确度和召回率。
ROUGE-TopicUniq通过计算唯一词汇的集合交集,提供更准确的主题覆盖度评估。
REFUniq和SY SUniq分别表示参考和系统摘要中唯一的单词集合。
Table 4 ROUGE-TopicNN|JJ and ROUGE-TopicUniqNN|JJ scores
表4展示了 ROUGE-Topic 和 ROUGE-TopicUniq 评分,主题为名词(NN)和形容词(JJ),用于评估意见覆盖。
ROUGE-TopicNN|JJ召回分数显示,SysSum1和SysSum2都正确捕捉了大部分参考摘要中的意见。
使用同义词后,ROUGE-TopicNN|JJ的分数有所提升。
ROUGE-TopicUniqNN|JJ分数表明,精确度提高,重复被抑制,仅计算一次主题匹配。
SysSum1的ROUGE-TopicUniqNN|JJ + Synonyms F-Score显示其摘要完整且简洁。
SysSum2的精确度较低,表明包含了多余的主题和意见,需优化算法以减少冗余信息。