# 2307.15020_SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark

* 首页: <https://arxiv.org/abs/2307.15020>
* PDF: <https://arxiv.org/pdf/2307.15020>
* 引用: 69(2025-07-27)
* 组织
    * 1CLUE
    * 2Westlake University


## 总结

* 数据集
    * 三个核心数据集：
        * CArena
            * LLM 对战平台的实际用户查询和评分
            * 收集了 9.9 万张投票
            * 十个能力类别
                * 语义理解与提取、闲聊、情境对话、生成与创作、知识与百科
                * 代码生成、逻辑与推理、计算、角色扮演和安全
        * OPEN
            * 单轮和多轮对话的开放式问题
        * CLOSE
            * 开放式单轮对话具有相同词干的封闭式问题
    * 以另一个流行的中文 LLM 基准测试 CLUE (Xu et al. 2020 ) 命名
* 其他
    * 没别的可看的，大概有个了解就行


## LLM 总结

这篇论文介绍了 **SuperCLUE**，这是一个全面的中文大语言模型（LLM）评估基准。以下是该论文章节的总结：

### 1. 背景与动机
随着大语言模型的快速发展，评估这些模型的能力变得尤为重要。虽然已有多个评估基准，但在中文评估方面仍然存在不足，尤其是在覆盖范围、任务多样性、以及对模型真实能力的评估方面。因此，论文提出 SuperCLUE，旨在提供一个全面、系统、具有挑战性的中文语言模型评估基准。

---

### 2. SuperCLUE 的设计目标
SuperCLUE 的设计目标主要包括：
- **全面性**：覆盖语言理解、生成、推理、对话等多个任务。
- **多样性**：包括多类型任务，如自然语言理解、文本生成、逻辑推理、数学计算、代码编写等。
- **挑战性**：设置高质量的测试集，以挑战当前最先进的模型。
- **系统性**：设计多个子任务和子集，便于模型能力的细分评估。

---

### 3. 任务与子任务
SuperCLUE 包含多个任务，每个任务下又细分多个子任务。例如：
- **文本理解类任务**：包括自然语言推理（NLI）、问答（QA）、实体识别等。
- **文本生成类任务**：如摘要生成、对话生成、故事生成等。
- **逻辑与推理类任务**：如常识推理、数学问题求解、代码生成与执行。
- **对话类任务**：包括多轮对话理解与生成、意图识别等。

---

### 4. 评估方法
论文介绍了 SuperCLUE 的评估方法：
- 使用自动评估指标（如 BLEU、ROUGE、F1 等）。
- 对于某些任务引入人工评估，以衡量生成内容的质量和合理性。
- 提供模型在不同任务上的表现对比，便于分析模型的强弱项。

---

### 5. 实验与结果
论文在多个领先的中文语言模型上进行了实验，包括 ERNIE、BLOOMZ、ChatGLM 等。实验结果显示：
- 不同模型在不同任务上的表现差异显著。
- SuperCLUE 能有效衡量模型在多维度能力上的综合表现。
- 当前模型在某些复杂任务上仍存在明显短板。

---

### 6. 未来方向
论文指出，SuperCLUE 作为一个开放的基准平台，未来将持续扩展任务类型、增加数据集规模，并支持社区参与，以推动中文大语言模型的研究与发展。

---

### 总结
SuperCLUE 是一个全面、系统的中文大语言模型评估基准，涵盖多种任务类型，具有高度的挑战性和实用性。它不仅有助于评估模型的综合能力，也为研究者提供了改进模型的方向。


## Abstract


本文提出了一项全面的中文大语言模型（LLM）基准测试 **SuperCLUE**，旨在弥补现有基准在评估模型实际应用表现方面的不足。现有基准主要依赖多选题的准确性来衡量模型性能，但这种评估方式难以反映模型在真实场景中满足用户偏好的能力。SuperCLUE 包含三个子任务：（1）来自实际用户在 LLM 比赛平台（CArena）中的问题与评分；（2）开放式问题与单轮或多轮对话（OPEN）；（3）与开放式问题相同但为封闭式问题的形式（CLOSE）。研究发现，封闭式问题的准确率无法完全反映用户在开放式问题中的偏好，但两者结合可以更好地预测实际用户偏好。此外，作者还验证了 GPT-4 在中文环境下可以作为评估开放式问题用户偏好的可靠自动评判工具。


## 1 Introduction


本章节主要介绍了一个旨在评估中文场景下大型语言模型（LLMs）多样化能力的基准测试平台。以下是该章节的总结：

1. **背景与动机**：近年来，大型语言模型在通用和专业领域均展现出卓越能力，推动其在日常生活中的应用。然而，现有评估方法（如用户评分和标准化基准）存在成本高、效率低、难以反映真实用户交互等问题，尤其是在中文语境中缺乏系统化的研究。

2. **相关工作回顾**：
   - **用户评分平台**：如 Chatbot Arena，允许用户匿名比较两个模型的对话表现。
   - **标准化基准**：如 MMLU、Big-Bench、AGIEval 等，用于评估模型在多种任务上的能力。
   - **现有不足**：多数基准以封闭式选择题为主，难以反映真实用户的开放性交互需求；且缺乏对用户真实感知与模型能力之间相关性的研究。

3. **本研究的创新点**：
   - 构建了一个基于 Elo 评分系统的匿名模型比较平台，模拟用户与两个中文 LLM 对话并评分。
   - 从真实用户收集了 9,900 条带评分的查询，以平均胜率和平局率为模型性能的黄金标准。
   - 对部分查询进行了人工标注，划分到十个能力类别（如推理、创作等）。
   - 构建了一个开放式子基准，涵盖 30 个单轮和 30 个多轮开放问题，并为每个问题生成对应的封闭式选择题作为补充。

4. **实验与结果**：
   - 在该基准上评估了 11 个先进的中文 LLM。
   - 使用 GPT-4 作为自动评分器评估开放式问题，结果显示 GPT-4 表现最优，中文模型中 MiniMax 表现突出。
   - 分析了封闭式准确率与 GPT-4 评分之间的相关性，发现封闭式问题在反映用户偏好方面存在局限。
   - 结论指出：结合开放式与封闭式问题可以更可靠地反映真实用户偏好。

总之，本文提出了一个更贴近真实用户交互场景的中文 LLM 评估框架，并通过实验验证了其有效性，为今后中文模型的开发和评估提供了新的方法和视角。


## 2 Related Work


本章综述了自然语言处理（NLP）中基准测试的发展历程及其在评估语言模型能力方面的作用。传统NLP基准（如SST-2、SQuAD等）主要针对特定任务进行评估，如情感分析或阅读理解。随着统一多任务模型的发展，综合类基准（如GLUE、CLUE）逐渐成为主流，推动了语言模型泛化能力的提升。然而，这些传统基准已难以全面评估当前大规模语言模型（LLMs）在复杂推理和问题解决方面的表现。

为更好地理解LLMs的优势与局限，研究者提出了新的综合评估基准，涵盖更广泛的知识和高级能力。例如，C-Eval等基准通过多学科考试题测试模型的推理能力；而MT-bench和Chatbot Arena则通过开放性问题评估模型的对话和指令跟随能力。然而，现有基准仍存在局限性，如语言单一（多为英文）、评估形式单一（多为封闭性或开放式问题）等。

相比之下，本文提出的中文基准结合了开放性和封闭性问题，强调仅靠封闭性问题不足以全面评估模型的实际效用，并指出两者的结合有助于更准确地预测人类对模型性能的偏好。


## 3 SuperCLUE Benchmark


本章介绍了**SuperCLUE Benchmark**，这是一个专为评估中文大语言模型（LLM）性能而设计的综合性基准。主要包括以下三个核心数据集：**CArena**、**OPEN** 和 **CLOSE**。

### 1. **CArena**
- **功能**：通过用户对两个匿名模型的回答进行打分，衡量模型在真实场景下的表现。
- **平台**：LangYa Leaderboard，一个类似于Chatbot Arena的中文模型对比平台。
- **数据收集**：截至2023年5月15日，已收集9900个用户投票。
- **用户查询分类**：将用户问题分为10类能力组，包括语义理解、闲聊、上下文对话、生成创作、知识百科、代码生成、逻辑推理、计算、角色扮演和安全性。
- **标注**：根据这些能力类别对查询进行标注，详见附录B。

### 2. **OPEN Set**
- **定义**：开放性问题，要求模型提供详细的、非简单的答案。
- **设计原则**：
  1. 问题应符合真实用户查询；
  2. 评估模型的多轮对话能力；
  3. 覆盖代表性能力类别，如文本理解、生成、知识、专业性与安全性。
- **结构**：
  - **OPEN SINGLE**：每个能力类别30个单轮问题，共300个；
  - **OPEN MULTIPLE**：基于单轮问题设计的多轮问题，每个单轮问题配一个后续问题，共300个；
  - **OPEN ALL**：OPEN SINGLE与OPEN MULTIPLE的总和，共600个问题。

### 3. **CLOSE Set**
- **背景**：封闭式问题（如多选题）虽然与真实用户查询有一定差距，但因其评估简单而被广泛使用。
- **构建方法**：
  - 将OPEN中的单轮开放式问题通过GPT-3.5转换为多选题，再由人工校对。
  - 每个问题包含四个选项，其中一个是正确答案。
- **目的**：评估封闭式问题在中文大模型评估中的适用性，并分析其局限性。

### 总结
SuperCLUE通过**用户投票数据**（CArena）、**开放性问题**（OPEN）与**封闭性问题**（CLOSE）三部分，系统地评估中文大语言模型在真实场景下的表现。其设计兼顾了用户偏好、多轮对话能力以及不同评估形式的有效性，为模型优化与比较提供了全面的基准。


## 4 Experiments


本章节主要介绍了在SuperCLUE基准上对八款面向中文的大型语言模型（LLMs）进行的实验评估与对比分析。以下是总结内容：

### 实验设置
1. **零样本评估**：实验采用零样本设置，即模型在未经过特定任务训练的情况下进行评估，以更贴近实际应用场景。
2. **评估指标**：
   - 对于**封闭性多选题**，使用**分类准确率**作为评估指标。
   - 对于**开放性问题**和**用户查询**，使用**平均胜率（胜与平局率）**作为性能指标。
3. **评估方法**：
   - 开放性问题通过**LLM作为裁判（LLM-as-a-judge）**的方法进行自动评估，使用GPT-4作为默认评分者进行两两模型答案比较。
   - 用户查询则直接从模型对战平台获取用户的自我评分结果。

### 模型选择
评估了包括GPT-4、Claude-instant-v1等在内的11个模型，其中重点评估了8个面向中文的LLMs。这些模型由中国的学术机构或个人开发，部分模型的规模和获取方式如下：
- GPT-4（130B参数，API）
- Claude-instant-v1（API）
- RWKV-world-7B（7B参数，开源）
- ChatGLM系列（130B/6B参数）
- Ziya-13B、360 Brain、Moss、SparkDesk等

### 实验结果
1. **GPT-4 vs 中文LLMs**：
   - GPT-4在封闭性任务（CLOSE）和开放性任务（OPEN SINGLE和OPEN ALL）上均显著优于所有中文模型。
   - **MiniMax**是表现最好的中文LLMs，但与GPT-4相比仍有较大差距，例如在CLOSE任务上差距超过10个百分点，开放性任务上的胜率仅为GPT-4的一半左右。

2. **中文LLMs之间的比较**：
   - **MiniMax**在LangYa排行榜上表现最佳，领先第二名ChatGLM2-6B约1%的胜率。
   - MiniMax在**闲聊、角色扮演、知识百科、生成与创作、逻辑推理等五类能力**上均优于ChatGLM2-6B，表明结合两者的模型可能具有更全面的能力。
   - 所有中文模型在CLOSE任务上的表现相似（55%-60%），但在OPEN任务上差异较大（12.50%-41.48%），说明仅靠封闭性问题难以区分模型的能力。

### 总结
- **GPT-4在整体表现上显著优于所有中文模型**，特别是在开放性任务上。
- **MiniMax目前是中文LLMs中的佼佼者**，但仍落后于GPT-4。
- 中文LLMs在多任务能力上存在明显差异，表明不同模型在不同应用场景下可能各有优势。
- 实验结果强调了零样本评估在模型比较中的有效性，并展示了当前中文LLMs在实际任务中的表现水平。


## 5 Additional Analysis


本章节对SuperCLUE基准测试中的模型评估方法和结果进行了深入分析，主要从以下三个方面展开：

---

### 一、GPT-4与人类评估的高一致性

为验证GPT-4作为模型评估工具的可靠性，研究人员让人类评估者在开放式（OPEN）问题上对模型生成的回答进行评分，并与GPT-4的评估结果进行对比。结果显示，人类和GPT-4在平均胜率上的Pearson相关系数达到80%，表明两者在评估结论上高度一致。这一结果验证了在中文语境下，GPT-4可以作为人类评估者的有效替代。

---

### 二、CLOSE集与OPEN集评估结果的不一致性

通过Spearman和Pearson相关性分析发现，CLOSE集（封闭式多选题）的准确率与OPEN SINGLE集（开放式单选题）的GPT-4评分之间相关性不显著（Spearman ρ=0.515，p=0.1915；Pearson ρ=0.555，p=0.1536），说明CLOSE集不能很好地反映模型在开放场景中的表现。进一步分析显示，CLOSE集的准确率集中在55%到60%之间，而OPEN SINGLE集的平均胜率范围更广（27.00% ~ 65.32%），分布也更离散，说明封闭式问题不适合作为区分模型能力的基准。

---

### 三、CLOSE集与OPEN集的互补性

尽管CLOSE集不能有效预测真实场景中的用户偏好，但它可以与OPEN集形成互补。研究人员将CLOSE、OPEN SINGLE与OPEN MULTIPLE进行线性组合，并与CArena（用户偏好数据）进行相关性分析。结果显示：

- 单独使用CLOSE集与用户偏好无显著相关性；
- 将CLOSE集与OPEN MULTIPLE结合使用，能够显著提高与用户偏好的相关性，相关系数达到0.9397；
- 用户偏好更反映在模型在OPEN MULTIPLE（多模型比较）中的表现，而非OPEN SINGLE（单模型比较）。

这表明，在实际应用场景中，结合CLOSE和OPEN MULTIPLE的评估结果，可以更全面地反映用户的真实偏好。

---

### 总结

本章节展示了GPT-4作为评估工具在中文语境下的有效性，并指出封闭式评估的局限性。同时，通过分析不同评估方式的互补性，提出了结合CLOSE和OPEN MULTIPLE进行综合评估的方法，以更准确地反映模型在真实场景中的表现与用户偏好。


## 6 Conclusion


本文总结了SuperCLUE这一全面的中文大模型基准测试框架。SuperCLUE包含三个相互补充的子任务：CArena（用户交互与模型评估平台）、OPEN Set（开放式单轮和多轮问题）和CLOSE Set（封闭式问题）。作者使用GPT-4对开放式问题进行自动评分，并验证了其与人工评分的一致性。评估结果显示，当前中文大模型与全球顶尖模型之间仍存在较大差距。此外，通过广泛分析表明，仅使用封闭式问题无法准确反映真实场景中的用户偏好，而结合开放式与封闭式问题的评估方法更具全面性。未来，作者计划扩展测试集、优化评估模型，并为更多社区用户提供评估服务。


## Appendix A Evaluation Process


本章节主要介绍了 **SuperCLUE** 项目中模型评估的具体过程和方法，主要内容包括以下几个部分：

1. **自动评估（Automatic Evaluation）**  
   - 使用 GPT-4 作为裁判模型，对两个模型（如 RWKV-world-7B 与 GPT-3.5-turbo）的回答进行对比评估，判断哪个模型更好（或相当）。  
   - 每个主题对进行两轮对话评估：  
     - 第一轮仅基于当轮内容进行评估；  
     - 第二轮则基于前一轮内容，但主要评估第二轮回答的优劣。  
   - 通过多轮对话评估，发现两个模型在处理选择题时表现相近，但在处理开放性问题时，GPT-3.5 表现更优。

2. **评估界面（Evaluation Interfaces）**  
   - 用户在模型对战平台上的评估界面被展示（图9），用户可通过该界面对模型的回答进行评价，作为模型性能的参考。

3. **零样本评估示例（Zero-shot Evaluation Examples）**  
   - 展示了 CLOSE 和 OPEN 两种任务类型的零样本评估示例（图10和图11）。  
   - 每个示例中，模型基于输入提示自动生成答案，红色部分为模型生成内容，下方提供英文翻译以便理解。

4. **OPEN SINGLE 转换为 CLOSE 的过程（Transformation Process of OPEN SINGLE to CLOSE）**  
   - 通过设计合适的提示（prompt），利用 GPT-3.5 将开放性问题（OPEN SINGLE）转换为闭合性问题（CLOSE）。  
   - 转换后的题目经过系统整理后，由三人组成的小组进行三轮人工评审，确保其符合要求。  
   - 每一轮评审中，团队成员会修改不符合规范的问题，以确保评估任务的准确性和一致性。

总结：  
该章节详细描述了 SuperCLUE 项目中对中文大语言模型的评估流程，涵盖自动生成评估、用户界面评估、零样本评估以及开放性问题向闭合性问题的转换方法。整个评估过程结合了自动和人工手段，以全面、系统地衡量模型性能。


## Appendix B Capability Categories


本附录B主要介绍了SuperCLUE中文大语言模型基准中的能力类别及其详细定义，并描述了标注过程。

### 能力类别详细定义
能力类别分为十个主要类别，每个类别下包含具体的子类别和定义：

1. **语义理解与生成**
   - 语义理解与提取：模型需理解输入文本的含义，识别关键信息并提取主题。

2. **闲聊（随意对话）**
   - 模型需与用户进行无特定目标的自然对话，输出流畅、符合语言习惯和文化背景。

3. **上下文对话**
   - 模型需理解并记住对话历史，以保持回应的连贯性，理解对话整体流程和上下文。

4. **生成与创作**
   - 模型需创作新的文本内容，如文章、广告文案、短篇小说和诗歌，注重语言风格、语境和受众。

5. **知识理解与应用**
   - 知识与百科：模型需提供类似百科全书的知识信息，回答广泛主题的问题，并提供准确、详细和最新信息。

6. **专业能力**
   - 代码生成：模型需理解并生成代码，包括理解编程语言的语法、结构和编程问题的解决方法。

7. **逻辑与推理**
   - 模型需理解和应用逻辑原理进行推理，包括问题分析、问题识别和推理过程。

8. **计算**
   - 模型需执行数学运算，包括加减乘除等基础运算，以及更复杂的数学问题的分步求解。

9. **环境适应与安全**
   - 角色扮演：模型需在特定情境中扮演角色，理解角色的行为方式、语言风格和适当回应。
   - 安全：模型需避免生成可能引起不适或危害的内容，识别并规避敏感或不当内容，遵循隐私和安全政策。

### 标注过程
基于上述能力类别的定义，研究者从LangYa Leaderboard平台收集并分类了用户问题。具体步骤如下：
1. **人工标注**：首先对部分问题进行人工标注，共标注300个样本，每个类别30个。
2. **训练分类器**：使用这300个标注样本训练BERT分类器。
3. **自动分类**：利用训练好的分类器对剩余数据进行分类。
4. **人工校验**：由四名评估者共同审核和修正BERT分类器的结果，最终确定每个样本的能力类别。

总结来看，附录B系统地定义了语言模型的十大能力类别，并通过人工与自动结合的方式，完成了用户问题的分类工作，为后续的大模型评估提供了清晰的能力维度划分。