2306.09212_CMMLU: Measuring massive multitask language understanding in Chinese¶
引用: 289(2025-07-10)
总结¶
简介
中文数据集
MMLU 的中文版本
Abstract¶
本论文提出了CMMLU,一个全面评估中文大语言模型(LLMs)的基准测试,涵盖自然科学、社会科学、工程和人文学科等多个领域。论文对20多个现有的多语言和中文LLMs进行了系统评估,结果显示大多数模型在中文考试中的准确率难以达到60%的及格线,显示出当前模型在中文环境下仍存在较大改进空间。此外,作者通过大量实验分析了影响模型表现的因素,并提出了提升LLMs能力的方向。CMMLU填补了中文语境下对大语言模型知识和推理能力评估的空白,数据和评估代码已公开在GitHub上。
1 Introduction¶
本文介绍了CMMLU(Chinese Massive Multitask Language Understanding),这是一个专门为评估中文语言和文化背景下大语言模型(LLMs)的知识与推理能力而设计的综合性评估套件。
主要内容总结如下:
研究背景:
大语言模型在自然语言处理和人工智能领域取得了显著进展,但其知识和推理能力的评估变得越来越具有挑战性。
MMLU 是一个广泛使用的英文多任务评估基准,但它偏向西方文化,难以准确评估中文及其他语言模型。
CMMLU 的提出:
CMMLU 是一个全面覆盖中国语言和文化背景的中文评估套件。
包含67个主题,从基础到高级专业领域,涵盖自然科学(如数学、物理)和人文社科等多个学科。
很多任务具有中文特有的语境和文化背景,难以直接翻译到其他语言。
实验评估:
评估了 GPT-4、ChatGPT 和 20 多个开源的多语言及中文大模型。
结果显示,大多数模型在 CMMLU 上的准确率低于 60%(随机准确率为25%),而 GPT-4 的平均准确率为71%。
模型在人文学科和社会科学上的表现相对较好,但在与中文文化相关的科目和STEM领域上表现较差。
深入分析:
多数模型在使用链式推理提示(chain-of-thought)时没有显著提升。
少量示例(few-shot examples)有助于基础模型提升任务理解与推理能力,但对经过监督微调(SFT)或人类反馈强化学习(RLHF)的模型帮助不大。
模型在包含否定词的问题上表现更差,但较新的模型通过更好的预训练或微调有所改善。
对于包含子选项的问题,所有模型表现较差,即使是 GPT-4 准确率也下降了约20%。
总结:CMMLU 为评估中文大模型提供了新的工具,实验证明当前模型在中文知识和语言理解方面仍有较大提升空间。
3 CMMLU¶
第三章 CMMLU 内容总结:
本章介绍了CMMLU(Chinese Massive Multitask Language Understanding),这是一个为中文设计的广泛多任务评估测试,旨在衡量语言模型在中文理解和跨领域知识上的能力。
任务概述(Task Overview)
CMMLU 覆盖了人文学科、社会科学、STEM(科学、技术、工程和数学)以及日常生活等多个领域,既包含通用知识问题(如数学、物理、化学题),也包含高度地域相关的中文特定内容(如中国交通规则、中国饮食文化、教师资格等)。其中部分任务只能用中文表达,例如古汉语和中文文学,这些内容对模型的中文理解与适应能力提出了更高要求。数据收集(Data Collection)
数据由四位拥有本科及以上学历的标注员手动收集,主要来自非公开材料、模拟考试题和电视节目等,以减少出现在大型语言模型训练数据中的可能性。约80%的数据是从PDF文件(经过OCR识别)中爬取,整个过程耗时约250小时,平均时薪为50元人民币。数据格式(Format)
所有题目为四选一的多选题,形式包括填空式和直接回答式。涉及化学公式和数学表达式时,采用50:50的LaTeX和纯文本混合形式,以确保表达清晰且不易产生歧义。质量检查(Quality Check)
对每个科目的5%题目进行随机抽样并进行在线验证,估计数据中约2%存在错误(如正确答案缺失或标注错误)。尽管如此,结合实验结果(多数模型平均准确率低于60%),认为该误差率不会对整体评估结果造成重大影响。统计信息(Statistics)
CMMLU 共有67个科目,11,528道题目。每个科目包含至少105道题,其中5题用于小样本开发集,其余为测试集。任务类型分布为:17个STEM任务,13个人文任务,22个社会科学任务,15个其他任务。其中有16个任务是中国特有的,这些任务在其他国家可能不存在或答案不同。
CMMLU 是一个综合性的中文多任务语言理解评估工具,兼顾广度与深度,特别强调对中文特定知识和表达方式的测试。
4 Experiments¶
4. 实验总结¶
本节主要介绍研究人员在中文语境下对大规模语言模型(LLMs)进行语言理解评估的实验设计和结果分析。该评估基于CMMLU数据集,包含多个主题的单项选择题,旨在衡量模型在不同学科领域的语言理解能力。
1. 实验设置¶
任务类型:多选题(每题一个正确选项)。
模型类型:包括商业化模型(如GPT-4、ChatGPT)和开源模型(如LLaMA、Baichuan、ChatGLM等),共计20多个模型,覆盖不同语言背景(中英文混合、英文、中文为主)。
输入策略:
免费生成策略(Free generation):适用于无法获取权重的商业模型(如GPT-4),模型直接生成答案,再通过正则表达式提取答案。
下一个token预测(Next token prediction):适用于开源模型,预测答案对应的字母(A、B、C、D),并选择概率最高的选项作为答案。
实验设置:零样本(zero-shot)和少量样本(few-shot,最多5个示例)设置。
2. 主要结果¶
模型表现总体趋势:
所有模型在人文、社会科学等记忆类学科中表现较好,在**STEM(科学、技术、工程、数学)**等需要复杂推理的学科中表现较差。
**中文模型(如Baichuan2-13B)**在中文特定领域(如法律、道德基础)中表现出更强的适应性。
GPT-4在总体表现中最强,平均准确率为70.95%,远超其他模型。
LLaMA2-70B是表现最好的开源多语言模型,平均准确率为53.21%,接近ChatGPT(55.51%)。
中文模型Baichuan2-13B在13B参数下表现优异,超越ChatGPT,表明高质量中文训练数据对小模型提升效果显著。
3. 按科目分类的表现¶
人文与社会科学:模型表现良好,主要依赖记忆。
中国特定科目:如法律、道德基础等,中文模型表现更好,说明中文训练数据的重要性。
STEM科目:普遍表现较差,模型在复杂推理任务中仍有待提升。
最难科目:古文、精算学等,表现接近随机猜测。
最容易科目:法律与道德基础。
4. 分析因素¶
链式推理提示(COT prompt):在大部分模型中未显著提升性能,甚至导致部分模型(如Xverse-13B)匹配失败率上升。
少量样本(few-shot):
基础模型(Foundation models):随着示例数量增加,整体表现提升。
微调模型(SFT/RLHF models):少量示例反而可能降低性能,可能因为训练数据分布不匹配。
模型大小:大多数模型随参数量增加,性能呈现上升趋势。
5. 结论与启示¶
中文语言模型需要高质量的中文训练数据来提高在特定领域的表现。
对于多语言模型,使用中文元素较多的科目(如哲学、艺术)可提升其表现。
STEM学科的复杂推理仍是LLMs的挑战,需进一步研究。
提供少量示例对不同模型的影响不同,基础模型受益较大,而微调模型可能受干扰。
链式推理提示尚未在当前任务中表现出明显优势,可能需要更精细的提示设计。
总结¶
本节通过多模型、多学科的系统评估,揭示了当前LLMs在中文语言理解任务中的优劣势。中文模型在中文特定领域表现突出,而多语言模型在STEM领域仍有较大提升空间。未来研究应关注训练数据优化、提示设计和推理能力的提升。
Impact of model size on performance¶
这一章节主要探讨了以下两个方面的问题:
1. 模型规模对性能的影响¶
实验方法:通过分析多个模型家族(如LLaMA、LLaMA2、Baichuan等),研究模型参数数量增加对五次样本(five-shot)准确率的影响。
主要发现:
将参数从7B增加到13B时,LLaMA和LLaMA2的得分提升了约5%,而Baichuan的得分提升了10%。这表明Baichuan在训练数据质量方面可能存在优势。
当模型规模继续扩大时(如从13B到65B),性能提升逐渐变慢。例如,LLaMA2在模型大小增加5倍时得分仅提升了15%。
相较之下,Baichuan-13B在较小参数量下表现优于LLaMA2-70B,说明高质量的单语训练数据可能比模型大小更加关键。
结论:模型大小并非唯一影响性能的因素,训练数据质量、优化方法(如SFT/RLHF)等同样重要。
2. 否定表达和子选项问题对模型的挑战¶
否定表达问题:
语言模型在处理否定表达时表现较差,这一问题在中文语境下依然存在。
不同模型通过训练优化(如LLaMA2使用SFT/RLHF)或改进预训练数据(如Baichuan2)显著提升了处理否定表达的能力。
GPT4和ChatGLM2在处理否定表达问题上表现良好,几乎没有显著性能差异。
子选项问题:
这类问题要求模型具备更强的推理和分析能力,因此对模型构成更高挑战。
所有模型在子选项问题上的表现普遍低于没有子选项的问题,下降幅度约10%至20%。
虽然链式思维(COT)提示有望增强模型对子选项问题的理解能力,但实验结果显示不同模型对此方法的响应不一。ChatGLM2和BatGPT从中受益,而Baichuan则未表现出明显提升。
总结¶
本章节通过实验分析了模型规模、否定表达处理能力、以及子选项问题对中文多任务语言理解(CMMLU)性能的影响。结果显示,虽然模型规模的增加通常带来性能提升,但训练数据质量、训练方法和模型架构优化同样重要。此外,否定表达和子选项问题对模型构成挑战,但通过适当优化手段如SFT/RLHF或COT提示,可以有效缓解这些问题。
5 Conclusion¶
本章总结如下:
本文介绍了CMMLU,这是一个创新性的基准测试集,旨在评估模型在中文环境下的多任务语言理解能力。实验结果表明,现有的大语言模型在该基准上仍有显著的提升空间。通过广泛的分析,作者识别出影响模型性能的多个因素,并提出了改进大语言模型(LLM)的具体方向。作者相信,该基准数据集和相关分析见解将有助于研究人员更有效地评估和设计中文大语言模型。
Appendix A Comparison to concurrent benchmarks¶
本附录比较了CMMLU与两个并行基准C-Eval和M3KE的异同。首先从任务分布上看,CMMLU在人文学科、社会科学及其他文化或地区相关领域(如中国特定主题)包含更多任务,而在STEM(科学、技术、工程和数学)相关任务上较少。这说明CMMLU更侧重于评估与社会、文化和区域因素相关的知识。
此外,作者进一步分析了CMMLU与这两个基准的数据重叠情况。通过统一题目和选项的格式,并去除标点符号后,使用精确字符串匹配计算重叠题目,结果发现CMMLU与C-Eval重叠74题,与M3KE重叠158题,约占CMMLU数据集总量的1%。这表明三个数据集之间有一定交集,但总体重合度较低,说明CMMLU具有一定的独特性。
最后,尽管三个数据集在任务类型上存在相似之处,但CMMLU在文化和社会相关任务上的独特分布,使其可作为评估中文语言模型在跨文化和跨区域理解方面能力的重要补充。
Appendix B CMMLU Subjects¶
本章节对CMMLU测试的科目及其统计信息进行了详细说明,主要包括以下内容:
附录B:CMMLU科目
表6 列出了CMMLU中全部67个测试科目,包括每个科目的测试概念、所属的超类别(STEM、人文学科、社会科学、其他及中国特有类别)以及每个科目中的题目数量。部分科目标注为“*”,表示为中国特有的主题,如“古汉语”“中国历史”等。
表7 提供了CMMLU测试集各超类别下的统计信息,包括任务数、总题目数、平均题目数、最大最小题目数、问题平均token长度和答案选项平均token长度。总体来看,各超类别中,STEM类包含17个任务,平均题目数为148.88;人文学科包含13个任务,题目数最多为411;社会科学研究包含22个任务,题目数分布较为均匀;其他类别包含15个任务,平均题目数为194。中国特有类别的平均题目长度最长(44.54 tokens),而其他类别的平均长度最短(31.31 tokens)。
图7
对各科目的问题和答案长度进行了可视化展示,进一步说明了各科目的语言复杂程度差异。
总结:本章节系统地整理了CMMLU测试中所有题目的科目分布及其统计特性,展示了CMMLU测试的广泛覆盖范围与内容复杂性,为后续分析模型在多任务语言理解上的表现提供了基础数据支持。
Appendix C CMMLU Examples¶
该章节内容总结如下:
本节为附录C:CMMLU示例,提供了一些来自CMMLU(用于衡量中文多任务语言理解能力的测试)在不同学科分类下的题目示例,并附上了英文翻译。每个题目都列出了四个选项,其中加粗选项为正确答案。
这些示例涵盖以下五个主要类别:
STEM(科学、技术、工程和数学):例如关于油罐车拖地铁链的作用,考察物理常识。
Humanities(人文学科):例如提问著名长篇小说《京华烟云》的作者。
Social Science(社会科学):例如考察某个民族的特色饮食“抓饭”属于哪个民族。
Other(其他):例如医学常识,关于身体黄染与维生素过量的关系。
China specific(中国特定):例如考察孔子弟子中擅长做生意的人。
每个问题都展示了中文原题与英文翻译,便于理解其内容。此附录展示了CMMLU测试在多领域、多任务上的语言理解和推理能力要求。
Appendix D CMMLU Difficulty Distribution¶
本章总结如下:
本附录从两个角度分析了 CMMLU 数据集的难度分布:
整体难度层次:
CMMLU 包含了多个不同教育阶段的学科,覆盖了小学(5 个)、中学/高中(10 个)、大学(23 个)以及专业水平(29 个),确保了难度的全面覆盖。学科内难度分布:
通过评估主表中排名前 20 的模型在每个问题上的表现(将每个问题视为一个数据点),统计每个问题被正确回答的模型数量,从而绘制出各学科的难度分布图。难度分布可视化:使用小提琴图展示,横轴表示回答正确的模型数量,纵轴表示具有该数量正确模型的问题数量。
左侧峰值表示难度较高(如大学精算科学),右侧峰值表示难度较低(如艺术)。
多峰值分布反映了学科内难度差异较大。
多数学科呈现单峰分布,表示难度相对一致;
一些学科(如机器学习、专业法律)呈现双峰分布,表明其中既有较简单的问题,也有较难的问题,中间难度的问题较少。尽管双峰存在,但两者之间的过渡是平滑的,说明难度变化是渐进的。
总体而言,CMMLU 的难度分布体现了广泛性和多样性,有助于全面评估模型在不同难度水平上的语言理解能力。
Appendix E Emergent Ability shown in CMMLU subjects¶
本章节探讨了LLaMA-2模型在CMMLU任务中的**涌现能力(emergent ability)**表现。主要内容总结如下:
研究方法与数据:
使用LLaMA-2系列模型(7B、13B、70B)在多个学科领域中进行性能评估。
通过图9展示了各模型在不同学科上的表现。
主要发现:
大多数学科中,模型参数规模越大,表现越好。
在某些特定领域(如大学教育、常识推理、人类性教育、公共关系等),7B和13B模型表现相近,而70B模型明显优于前两者,显示出在这些领域中更大的模型有更显著的性能提升。
分析与讨论:
70B模型表现的提升可能与其更广泛的训练数据覆盖有关,尤其是特定领域的数据更全面。
由于这些任务多属于社会科学领域,对深度推理的要求较低,因此不能简单地将这种性能提升归因于“涌现能力”。
作者指出,涌现能力的判断较为复杂,需要考虑数据规模、任务类型等多方面因素。
未来方向:
作者表示将在后续研究中进一步探索涌现能力,尤其是在更需要推理能力的STEM领域。
总结:本章节通过LLaMA-2模型在多个学科上的表现,初步探讨了模型规模与性能之间的关系,指出大模型在特定领域可能表现出更优性能,但需谨慎判断是否为“涌现能力”,并提出未来研究方向。
Appendix F Models being Evaluated¶
本文附录F总结了多种正在被评估的大语言模型(LLMs)及其主要特点和训练方式。以下是各模型的简要总结:
ChatGPT/GPT4
由OpenAI开发并基于人类反馈的强化学习(RLHF)进行微调。
具体模型规模、训练数据和训练过程未公开。
Falcon
单解码器模型,由TII开发,基于1000B个token的RefinedWeb数据训练。
由于高质量训练数据,Falcon-40B在多个基准测试中表现与LLaMA-65B相当。
LLaMA
Meta提出,改进了Transformer结构,训练数据来自公开来源。
在多个任务中表现优于或接近十倍规模的模型。
LLaMA2
LLaMA的升级版,训练数据量增加40%,采用更严格的清洗和数据混合。
使用分组查询注意力(GQA)以减少GPU内存占用。
BLOOM
多语言模型,由BigScience开发,支持46种自然语言和13种编程语言。
本文评估了7B参数的BLOOM模型。
BLOOMZ
基于BLOOM在跨语言任务集合上进行微调。
在非生成任务中表现与参数更多的模型竞争。
Bactrian-X
由MBZUAI开发,基于LLaMA、BLOOM和mT5,在52种语言的指令跟随数据集上微调。
在多语言生成任务中优于基模型。
ChatGLM/ChatGLM2
清华大学开发的双向密集模型,基于GLM算法,支持中英文。
通过监督微调和人类反馈强化学习(RLHF)优化中文问答和对话任务。
BatGPT
武汉大学与上海交通大学联合开发,支持中英文双向处理。
使用参数扩展方法和SFT/RLHAF增强模型,适合长对话任务。
评估了15B版本模型。
MOSS-SFT
复旦大学提出的开源中文模型,训练规模和对齐技术与ChatGPT相当。
基于CodeGen初始化,并在100B中文和20B英文token上预训练。
Chinese-LLaMA
中文扩展项目,扩展了LLaMA和Alpaca的词汇表,支持更多中文token。
在中文语料上进一步训练以提升性能。
Baichuan & Baichuan2
百川智能推出的模型系列,包含7B和13B参数版本。
Baichuan2使用近两倍高质量数据训练,支持4096上下文长度,性能进一步提升。
Xverse
深圳元象科技开发的多语言模型,支持8k上下文长度和高效分词。
基于1.4万亿token训练,具有高通用性和效率。
InternLM
上海人工智能实验室等联合开发的轻量训练框架。
支持大规模集群训练和单GPU微调,具备高效训练性能,加速效率高达90%。
发布了包含7B和20B版本的模型家族。
综上,这些模型在结构设计、训练数据、语言支持和优化技巧等方面各有特点,旨在在不同语言和任务场景下实现高性能表现。
Appendix G Strategies for Estimating Model Choices¶
本节主要对比了三种用于多选题评估的策略:下一词预测(Next Token Prediction)、困惑度比较(Perplexity Comparison)和自由生成(Free Generation),并分析了它们的原理、效率、优缺点以及适用场景。
1. 下一词预测(Next Token Prediction)¶
原理:将问题与所有选项输入模型,提示“Answer:”,然后根据模型预测下一个词的概率选择最高概率的选项(A/B/C/D)作为答案。
优点:
效率高,只需一次模型前向传播。
实现简单。
缺点:
模型可能不倾向于生成选项字母,导致准确率下降。
解决方法:加入少量示例(few-shot),引导模型输出选项字母。
使用工具:MMLU、HELM。
实验表现:在大多数模型中,该策略的得分高于自由生成策略,且效率更高。
2. 困惑度比较(Perplexity Comparison)¶
原理:将问题与每个选项分别拼接,分别输入模型计算其困惑度(Perplexity),选择困惑度最低的作为答案。
优点:
与语言模型的优化目标一致,理论上更准确。
缺点:
效率低,需要输入4倍的文本(4个选项),计算成本较高。
解决方法:优化实现方式,只计算公共部分一次。
使用工具:LM-Evaluation-Harness、OpenCompass。
未提供实验数据,因计算成本较高。
3. 自由生成(Free Generation)¶
原理:输入问题与选项,提示模型生成答案,然后通过模式匹配或正则表达式提取选项。
优点:
允许灵活的提示方式。
缺点:
生成过程可能较长,耗时。
需要额外的后处理(如正则匹配),容易出错且成本高。
解决方法:训练专用答案提取模型,或设计稳健的正则表达式,降低生成温度。
使用工具:OpenCompass、C-Eval。
实验表现:大多数模型下,该策略得分低于下一词预测,且无法匹配答案的比例较高。
总结与比较¶
效率:
下一词预测:高
困惑度比较:低
自由生成:中/低
准确性(从表9数据):
下一词预测在多数模型中表现更好,尤其是在零样本设置下。
自由生成的表现相对较低,且答案无法匹配比例较高。
结论:
作者认为,使用下一词预测策略可以更有效地反映模型的知识能力。
由于计算成本和实现难度,困惑度比较策略未广泛测试。
本节为模型评估提供了实用的对比参考,有助于研究者根据实际需求(如效率、准确性)选择合适的评估策略。
Appendix H Regular expressions matching algorithmsl¶
本章节介绍了一种用于从大型语言模型(LLM)输出字符串中提取选项(如A、B、C、D)的伪代码算法,名为 ExtractChoice。该算法设计的目的是为了适配不同LLM生成的复杂回答格式,从而准确提取出答案选项。
主要内容总结如下:¶
算法流程概述:
算法首先将输入的回答转换为字符串。
检查字符串的第一个字符是否是有效选项(A、B、C、D),如果是则直接返回该字符。
如果没有找到有效选项,将进入四步匹配机制。
四步匹配机制:
第一步:通过预定义的多种答案表达模式(如“答案是A”、“选项B是正确”等)进行匹配,提取选项。
第二步:对提取出的选项进行检查,判断其是否属于有效选项集合 [A, B, C, D]。
第三步:使用更“弱”的匹配规则(如匹配仅包含一个选项的简单模式),以应对更加简略的回答。
第四步:检查是否仅出现了一个单独的选项字符(如“B”),并在上下文中没有其他干扰项时返回该选项。
默认返回值:
如果上述所有步骤均未匹配到有效选项,则默认返回 “E”,表示无法确定答案。
技术实现细节:
使用正则表达式(regular expressions)进行匹配。
算法按优先级顺序执行多个正则表达式模式,一旦匹配成功且提取到合法选项,就立即返回结果。
总结:¶
该算法通过多层正则表达式匹配机制,确保能够从不同格式的语言模型输出中准确地提取出标准选项(A-D),从而为多任务语言理解测试(CMMLU)等任务提供可靠的答案提取方法。若无法确定有效选项,算法将返回默认值“E”,表示无法提取。
Appendix I Correlation to other Benchmarks¶
本章节主要探讨了模型在CMMLU(中文大规模多任务语言理解基准)上的表现与其他英文基准测试之间的相关性。研究选取了6个流行的英文大语言模型和5个基准测试进行相关性分析。结果显示,在大多数基准测试(如数学、常识推理、编码能力等)中,CMMLU与模型表现之间存在较强的正相关关系。其中,RACE(通用语言理解)、CommonSenseQA(常识推理)、GSM8K(数学)和HumanEval(代码能力)与CMMLU表现出显著的正相关。唯一的例外是PIQA任务,由于大多数模型在该任务上的得分极高(超过80%),导致相关性稍弱,但仍保持了0.88的强正相关。
Appendix J Breakdown of Model Performance¶
该论文章节总结如下:
本附录(Appendix J)主要对大型语言模型(LLMs)在 CMMLU 任务上的性能进行了详细分析,内容分为两个小节:
J.1 零样本结果(Zero-shot Results):
表格 11 展示了不同 LLMs 在 CMMLU 数据集上按五个子类别划分的零样本(zero-shot)性能结果,即模型在没有经过特定任务训练的情况下完成任务的表现。J.2 各学科的具体结果(Results of Each Subject):
本节对比了零样本(0-shot)和五样本(5-shot)情况下,各 LLMs 在不同学科上的表现(见表格 10)。
通过图 11 的分析可以发现,高性能模型在不同任务中展现出多样化的能力,而低性能模型则在大多数学科上面临挑战。此外,散点图显示了不同 LLMs 在各学科上的性能分布相对均衡,说明它们在不同任务上的表现差异并不大。
J.3 The effect of chain-of-thought prompt¶
以下是对所给论文章节内容的总结:
J.3 Chain-of-thought 提示(CoT)的影响¶
本节通过实验数据探讨了 Chain-of-thought(CoT)提示对多个大语言模型(LLMs)在 CMMLU(中文多任务语言理解评估集) 上性能的影响。文中展示了使用 CoT 提示前后模型在不同科目上的表现变化,并对整体效果进行了分析。
主要观察内容:¶
Table 12 展示了多个模型在 CMMLU 任务中使用 CoT 提示后的性能变化。每个类别(STEM、人文、社会科学、其他、中国特定)以及总分的变化均以数值形式表示,括号内的数字表示相对于 0-shot 情景下的变化(正数表示提升,负数表示下降)。
在使用 CoT 提示后,不同模型在不同科目上的表现变化不一:
ChatGLM2-6B 在使用 CoT 后,其 STEM 和 其他类别 的表现略有提升,但 社会科学 稍有下降,总体变化较小。
ChatGPT 在 STEM 和 社会科学 上有所提升,但在 人文 和 中国特定 领域略有下降。
大部分模型在使用 CoT 后,整体表现有所下降或提升有限,表明 CoT 提示对模型性能的影响具有不确定性。
在所有模型中,Baichuan2-13B-Chat 在使用 CoT 后整体表现下降幅度较大(-6.0),而 InternLM-Chat-20B 和 Xverse-13B-Chat 的表现也明显下降,说明 CoT 不一定能够提升所有模型的性能。
总结:¶
尽管 Chain-of-thought 提示在某些情况下能增强模型的推理能力,但在这项实验中,它对 CMMLU 上多个模型的性能影响并不显著,甚至在某些模型上导致了整体性能的下降。这表明:
CoT 的效果可能依赖于具体的模型架构和任务类型;
不是所有模型都能从 CoT 提示中受益;
对于中文多任务理解任务,可能需要更细致的提示设计或模型优化。
该部分为模型性能优化和提示策略研究提供了实证基础。