2404.06654_RULER: What’s the Real Context Size of Your Long-Context Language Models?¶
引用: 274(2025-07-09)
组织: NVIDIA
总结¶
数据集
长上下文处理
新的评估基准 Ruler
改进
现有的基准测试,仅侧重于检索能力
Ruler 包含四个任务类别
检索任务(Retrieval)
多跳追踪(Multi-hop Tracing)
信息聚合(Aggregation)
问答任务(Question Answering)
LLM 总结¶
主要观点与研究目的¶
问题提出:尽管近年来许多语言模型声称支持“长上下文”处理,但这些模型真正能有效利用的上下文长度往往被高估或不透明。作者指出,模型在表面上支持更长的上下文长度,但实际上在长文本处理中性能下降明显,缺乏真实有效的“长上下文”处理能力。
研究目标:本文旨在通过一系列系统的实验评估,揭示当前所谓“长上下文语言模型”的实际上下文处理能力,即在多长的文本输入下,模型仍能保持稳定的性能表现。
方法与实验设计¶
实验方法:作者提出了一种名为 RulerRuler 的系统,用来评估语言模型在不同上下文长度下的任务性能,具体包括:
上下文长度对任务准确率的影响;
上下文压缩、截断、采样等策略的有效性比较;
不同模型之间在上下文处理能力上的差异。
评估任务:使用了多种语言理解任务,如问答、摘要、逻辑推理等,涵盖从几百词到几十万词不等的上下文长度。
核心发现¶
性能衰减现象:尽管模型支持长输入,但随着上下文长度的增加,文本理解性能显著下降,尤其是在超过某个“临界点”之后,模型表现急剧恶化。
模型间差异:不同模型在长上下文处理能力上表现差异显著,部分模型在数千词后就明显退化,而少数模型能在更长文段中保持相对稳定的表现。
上下文压缩有效:实验发现,对长上下文进行适当的压缩或采样(如摘要或关键句提取)可以显著提升模型在长文本任务中的表现。
结论与意义¶
结论:当前语言模型在处理“真正的长上下文”方面仍存在明显瓶颈,模型的实际有效上下文长度远低于其标称长度。
意义:这项研究为模型开发者和使用者提供了重要的参考,揭示了“长上下文”能力的局限性,并为改进模型设计和实际应用策略提供了方向。
总结¶
本文通过系统实验揭示了当前语言模型在长上下文处理中的实际能力与宣传之间的差距,提出了一个评估工具 RulerRuler,为评估模型的真实上下文处理能力提供了科学依据,并强调了上下文压缩和采样在提升长文本任务表现中的重要性。
Abstract¶
该章节内容总结如下:
本研究针对长上下文语言模型(LMs)提出了一项新的合成评估基准 Ruler,以更全面地评估模型在长文本中的理解能力。传统“针在 haystack 中”(NIAH)测试虽然被广泛用于评估模型从长文本中检索信息的能力,但其仅反映了表面层次的理解。Ruler 在此基础上进行了扩展,提供了可定制的上下文长度和任务复杂度配置,并引入了 multi-hop tracing 和 aggregation 两种新的任务类型,以测试模型在复杂任务中的表现。
作者在 Ruler 中评估了17个声称支持长上下文(32K token以上)的语言模型,结果发现,尽管这些模型在传统的 NIAH 测试中表现良好,但随着上下文长度和任务复杂度的增加,其性能显著下降。值得注意的是,即使某些模型支持高达200K token的上下文长度(如 Yi-34B),在复杂任务下仍有较大提升空间。
最后,作者开源了 Ruler,以推动对长上下文语言模型的全面评估。
1 Introduction¶
本文提出了一种新的评估基准 Ruler,用于评估语言模型在长上下文处理方面的能力。当前虽然已有大量研究在扩展语言模型的上下文长度,但大多数评估方法(如 passkey retrieval 和 needle-in-a-haystack)仅侧重于检索能力,而未能全面反映模型对长上下文内容的理解能力。为弥补这一不足,作者设计了 Ruler,它包含四个任务类别,超越了简单的检索任务:
检索任务(Retrieval):基于针在稻草堆(needle-in-a-haystack)任务,测试模型在不同数量和类型“针”下的检索能力。
多跳追踪(Multi-hop Tracing):引入变量追踪任务,用于测试模型对具有多跳连接的实体进行追踪的能力。
信息聚合(Aggregation):通过常见/高频词提取任务,测试模型对长距离信息的汇总能力。
问答任务(Question Answering):在现有短上下文问答数据集中加入干扰信息,测试模型在不同上下文长度下的问答能力。
与现有的真实任务基准相比,Ruler 仅使用合成任务,具有更高的灵活性:可以通过控制上下文长度和任务复杂度,更准确地评估模型的长上下文处理能力。此外,Ruler 降低了对模型参数化知识(parametric knowledge)的依赖,从而更真实地反映其处理长上下文输入的能力。
作者使用 Ruler 对包括 Gemini-1.5、GPT-4 和 15 个开源模型在内的共 17 个长上下文语言模型进行了评估。结果显示,尽管大多数模型在传统针检索任务上表现良好,但在更复杂的任务中性能显著下降。尤其是当上下文长度增加时,模型表现普遍不佳。作者还发现,随着上下文长度的增加,模型更倾向于依赖参数化知识或直接从上下文中复制信息,而非真正理解内容。
此外,尽管 Yi-34B 声称支持 200K 上下文长度,但在 Ruler 上的表现却随着输入长度和任务复杂度的提高而显著下降。作者还指出,非 Transformer 架构(如 RWKV 和 Mamba)在 Ruler 上的表现远逊于 Transformer。
文章的主要贡献包括:
提出 Ruler,一个可通过合成任务灵活配置的长上下文语言模型评估基准。
引入多跳追踪和信息聚合等新任务类别,测试除检索外的其他长上下文理解能力。
在 Ruler 上评估了 17 个长上下文语言模型,并分析了模型在不同任务复杂度下的表现。
Ruler 源代码已开源,旨在推动长上下文语言模型的研究。
3 The Ruler Benchmark¶
本文详细介绍了 Ruler 基准测试,这是一个用于评估长上下文语言模型实际处理能力的测试框架,包含四种任务类型:检索(Retrieval)、多跳追踪(Multi-hop Tracing)、聚合(Aggregation)和问答(Question Answering)。每种任务通过不同的配置参数生成测试样例,例如上下文长度、键值类型、干扰项数量等,从而灵活调整任务的复杂度。
核心内容总结如下:¶
1. 任务设计与生成¶
Ruler 通过自动化的配置生成评估样例,这些配置定义了输入的长度和复杂度。任务复杂度可看作是输出token数量和上下文中信号与噪声比的函数。任务被设计为在受限领域内测试模型的长上下文处理能力。
2. 检索任务(Needle-in-a-Haystack, NIAH)¶
目标:测试模型在长文本中检索特定信息的能力。
子任务:
S-NIAH(单一检索):从长文本中检索一个指定的“针”(key-value 对)。
MK-NIAH(多键检索):在存在多个干扰项的情况下,仅检索与指定“键”相关的值。
MV-NIAH(多值检索):检索同一“键”对应的多个“值”。
MQ-NIAH(多查询检索):检索多个不同“键”对应的“值”。
3. 多跳追踪任务(Variable Tracking, VT)¶
目标:评估模型在长上下文中跟踪变量赋值链的能力。
方法:通过插入变量赋值语句(如 X2 = X1,X3 = X2 等),要求模型识别所有指向相同值的变量名。
任务复杂度通过增加变量链长度或引入干扰项来提高。
4. 聚合任务(Common Words Extraction, CWE;Frequent Words Extraction, FWE)¶
目标:评估模型对上下文中高频或常见词汇的识别能力,模拟总结任务。
CWE:从均匀分布中采样词汇,识别一组固定的常见词。
FWE:基于 Zeta 分布生成词汇频率,识别最频繁出现的词汇。
任务复杂度可通过调整词汇分布或上下文长度来控制。
5. 问答任务(QA)¶
目标:评估模型在长文本中寻找答案的能力。
方法:将包含答案的段落(“针”)插入到大量干扰段落中(“稻草堆”),测试模型能否准确定位答案。
数据来源:基于 SQuAD 数据集扩展,模拟长上下文问答场景。
总结¶
Ruler 基准测试通过设计多种任务类型和灵活配置参数,系统地评估了长上下文语言模型在信息检索、变量追踪、聚合总结和问答等方面的能力。该基准强调模型不仅需要处理长文本,还需具备识别关键信息、过滤干扰、多跳推理等能力,为评估模型的真实上下文处理能力提供了全面的视角。
4 Experiments & Results¶
本文的实验和结果部分主要围绕17个长上下文大语言模型(LLMs)在不同上下文长度下的性能表现,通过设计的任务和评估方法,探究模型的“实际有效上下文长度”与其“声称的上下文长度”之间的差异。以下是该部分内容的总结:
1. 模型与推理设置¶
评估了17个长上下文模型,包括15个开源模型和2个闭源模型(Gemini-1.5-Pro 和 GPT-4)。
模型规模从7B到8x22B(MoE架构)不等,声称的上下文长度从32K到1M token。
使用 vLLM 系统进行高效推理,基于 BFloat16 精度,在8台 A100 GPU 上运行,采用贪婪解码。
2. 任务配置¶
选取了 Ruler 套件中的13个任务,涵盖不同复杂度,以评估模型在不同上下文长度下的表现。
每个模型在不同长度(4K、8K、16K、32K、64K、128K)下各测试500个样本。
为避免模型拒绝回答,使用带有答案前缀的提示,并通过“召回准确率”衡量输出是否包含正确答案。
3. 有效上下文长度(Effective Context Length)¶
随着输入长度增加,所有模型性能均有显著下降。
引入“有效上下文长度”的概念,定义为模型在某长度下仍能超过 Llama2-7B 在4K长度下的表现(85.6%)。
通过这一阈值确定模型的真实有效长度。
4. 模型排名标准¶
使用两种加权平均评分(wAvg. (inc) 和 wAvg. (dec))对模型在不同长度下的表现进行综合评估:
wAvg. (inc):长序列权重更高,模拟长文本占优的使用场景。
wAvg. (dec):短序列权重更高,模拟短文本占优的使用场景。
根据两种评分标准对模型进行排名。
5. 主要实验结果¶
闭源模型Gemini-1.5-Pro 表现最佳,其有效上下文长度远超测试的最大长度(128K)。
开源模型中,Llama3.1(70B)、Qwen2(72B)、Command-R-plus(104B) 表现最好,尽管它们的训练上下文长度各不相同,但都具有较大的模型尺寸和较大的 RoPE 基频率。
多数模型在达到声称的上下文长度时性能大幅下降,未能维持 Llama2-7B 的基线水平。
一些声称超长上下文(如 LWM 和 GradientAI/Llama3)的模型在实际测试中表现不佳,表明训练时的长上下文并不一定意味着推理时的性能提升。
LWM 虽然在长序列权重下排名较高,但在4K长度下表现仍低于 Llama2-7B,说明其存在性能与上下文扩展之间的权衡问题。
6. 总体结论¶
模型的“有效上下文长度”与其“声称长度”之间存在显著差异。
大模型规模、训练策略(如 RoPE 配置)和推理时的长度外推能力对长上下文性能影响明显。
未来研究可进一步探索更复杂任务下的压力测试(如 RULER 的更难版本),以及模型在训练与推理阶段的长上下文处理机制。
此部分通过系统实验揭示了当前主流大语言模型在处理长上下文任务时的真实能力,为模型开发和评估提供了重要参考。
5 Task Error Analysis¶
第五章 任务错误分析 对 Yi-34B-200K 在更长输入上下文(最多 256K)下的复杂任务表现进行了评估,重点分析了模型在不同任务配置和失败模式下的行为。
主要发现总结如下:¶
对“针型”任务的鲁棒性不足
Yi 在使用“词-数字”键值对的简单针型检索(NIAH)任务中表现良好,但在面对其他形式的针(如 UUID)时性能显著下降。尤其在长上下文(>128K)中,模型有时无法返回完整的 32 位 UUID。无法有效忽略干扰项
当上下文中干扰项(distractors)增多时,Yi 的性能迅速下降。在极端情况下(干扰项填满上下文),模型常常错误地检索到干扰项对应的值,表明其缺乏在噪声中精确定位目标键的能力。返回信息不完整
随着需要检索的项目数量增加,Yi 的性能显著下降。例如,从 1 个问题增加到 8 个问题,性能下降约 15 分。此外,当需要返回与同一键相关的多个值时,Yi 常常重复输出部分答案,而不是完整集合,说明其对键-值之间复杂关联的理解存在不足。倾向于直接复制上下文内容
Yi 在处理长上下文时表现出强烈的复制行为,尤其是在变量追踪(VT)和常见词提取(CWE)任务中。在 128K 长度下,超过 80% 的输出直接复制了示例或输入开头的文本。这种行为在其他模型(如 LWM 和 LongAlpaca)中也存在,但在 Mixtral 等模型中较少见。上下文内追踪不可靠
在变量追踪任务中,随着上下文长度和变量子链数量的增加,Yi 的性能显著下降。模型经常返回空字符串或错误变量,表明其无法在长上下文中可靠地跟踪同一实体。聚合能力不足
在聚合任务中,Yi 常常依赖模型内部知识而非上下文信息,尤其是在长上下文下。例如,某些模型会返回常见词(如 “the”)而忽略上下文统计。此外,在高频词提取任务中,Yi 难以识别出真正高频的词,尤其是在词频差异较小的情况下。长上下文问答中幻觉现象严重
在问答任务中,随着上下文中干扰段落的增加,Yi 的性能接近其无上下文基线。模型倾向于不依赖上下文进行推理,甚至生成与问题无关的回答。这表明,相比简单的 NIAH 检索任务,模糊匹配在长上下文问答中更具挑战性。
总结:¶
本章揭示了 Yi-34B-200K 在长上下文任务中的多个失败模式,包括检索不稳定、信息不完整、复制行为、追踪失败、聚合错误以及问答中的幻觉问题。这些发现表明,即使在具备长上下文能力的模型中,任务复杂度和上下文规模的增加依然会显著影响模型的性能与可靠性。因此,需要更全面的评估方法来测试模型在各种复杂任务下的真实表现,而不仅仅依赖于简单的检索任务。
6 Model Analysis¶
本章节“6 Model Analysis”主要分析了模型在长上下文任务 Ruler 上的表现,从训练上下文长度、模型规模和架构三个方面进行了实验和比较。
总结如下:¶
训练上下文长度对模型性能的影响
在相同参数规模(7B)下,训练上下文长度越长,模型在 Ruler 上的总体表现越好。
然而,性能排名在长序列上可能不一致。例如,训练上下文为 1M 的模型(LWM-1M)在 256K 长度上反而不如 512K 的模型,这可能是由于 RoPE 频率调整不足所致。
当模型需要处理超出训练范围的长度时,会出现明显的性能骤降,并且在最大训练长度内,性能随长度增加呈近似线性下降。
模型规模的影响
模型参数规模的增加有助于提升长上下文建模能力。
在相同训练上下文长度(200K)下,34B 参数规模的 Yi 模型在 Ruler 上的表现显著优于 6B 模型,特别是在 4K 长度下的性能和性能退化方面。
模型架构的影响
两种非 Transformer 架构(RWKV-v5 和 Mamba-2.8B-slimpj)在长上下文建模中表现较差。
它们在扩展到 8K 长度时性能显著下降,且在 4K 以内也明显落后于 Transformer 基线模型 Llama2-7B。
Llama2-7B 虽然在较短长度上有一定优势,但在更长长度上的外推能力较弱。
结论:¶
训练上下文长度和模型规模是提升长上下文建模能力的重要因素。
当前的 非 Transformer 架构在长上下文任务中仍存在较大差距。
Transformer 架构仍是当前长上下文语言模型的主流选择,但在更长长度上的外推能力仍需进一步改进。
7 Conclusion¶
本章总结了论文中提出的Ruler基准测试,这是一个用于评估长上下文语言模型(LLM)能力的合成基准。Ruler涵盖了多种任务类型,包括检索、多跳追踪、聚合和问答,提供了一个灵活且全面的评估框架。作者使用Ruler对17个长上下文语言模型进行了基准测试,上下文长度从4K到128K不等。尽管这些模型在常用的“针在 haystack 中”测试中表现良好,但在Ruler的其他任务中,随着输入长度的增加,几乎所有模型的性能都显著下降。研究还发现,模型在长上下文中常见的失败模式包括无法忽略干扰信息和无法有效利用长上下文(如简单复制上下文内容或依赖内部参数知识)。作者指出,即使是当前排名靠前的开源模型,在任务复杂度增加时,Ruler也具有挑战性。分析表明,模型在Ruler上仍有较大改进空间,并且通过扩大模型规模可以提升长上下文处理能力。
8 Limitations¶
本章节总结了 Ruler 方法在评估长上下文语言模型时所存在的几个主要限制,具体如下:
缺乏位置控制(Position Controlling)
当前 Ruler 只对每种输入长度提供一个总体的单一数值指标,而没有提供深度级别的性能分析。已有研究表明,深度级别的性能评估(如通过 NIAH 测试、LV-Eval 和 LOST-IN-THE-MIDDLE 现象)可以更有效地揭示模型在不同位置上的表现差异。作者意识到这一局限,并计划在其代码库中加入对关键信息位置的控制支持。缺乏与真实长上下文任务的关联性(Lack of Correlation with Realistic Long-Context Tasks)
虽然 Ruler 中的任务(如变量追踪、高频词提取)作为真实长上下文任务的代理,但目前缺乏易于评估的真实任务来验证这些代理的有效性。因此,作者强调,Ruler 可作为长上下文语言模型的行为检查工具,但在评估时不应优先于如 NoCHA 等更贴近真实场景的评估框架。缺乏对短上下文的评估(Lack of Evaluation on Short Context)
Ruler 的任务套件主要关注在长上下文下的性能退化,当前任务在 4k 上下文长度下通常表现良好,但并未说明模型在 4k 上下文时的性能是否完美。已有研究(如 FlenQA)表明,即使输入长度仅增加到几千个 token 时,模型性能也可能显著下降。因此,作者指出在 Ruler 中增加任务复杂度后,较短上下文下的性能也更差,但这些结果未在论文中展示。缺乏提示鲁棒性验证(Lack of Verification of Prompt Robustness)
大型语言模型对提示格式可能非常敏感,但 Ruler 仅在初步阶段进行了有限的提示鲁棒性测试,未进行系统性的研究。此外,现有任务中的某些超参数(如变量名长度、合成词库大小)也未进行大量实验调整。
综上所述,Ruler 是一个用于评估长上下文语言模型的有用工具,但其在位置控制、真实任务关联性、短上下文评估和提示鲁棒性方面仍存在明显局限,需在未来工作中进一步完善。
Appendix A Models¶
本节总结如下:
本论文的附录A部分介绍了用于评估和分析的37个模型。其中,主文中展示结果的模型是对齐模型(Aligned Models),共包括GPT-4、Gemini-1.5以及15个开源模型。除了这些对齐模型,作者还使用Ruler测试工具评估了另外7个开源基础模型(Base Models)。
文中提到,判断模型是否具有有效上下文长度的标准是基于Llama2-7b(base)和Llama2-7b(chat)在4K上下文长度下的表现作为阈值。
在分析部分,作者总共评估了11个模型,其中包括Yi和LWM系列模型,以及一些具有新颖架构的模型,例如Mamba和RWKV。
表格中详细列出了每个模型的信息,包括是否为对齐模型、模型大小、支持的上下文长度以及来源(Huggingface或API)。部分模型还提供了不同版本或不同上下文长度的变体,例如LWM系列支持128K、256K、512K等不同的上下文长度。
总结:本节提供了实验中所用模型的详细信息和分类,为后续的评估和比较提供了基础数据支持。
Appendix B Task Configurations¶
本附录介绍了 Ruler 任务配置的多样性及其具体设置,以支持不同长度的序列和复杂度的任务。文中评估了涵盖 Ruler 四个类别(检索、多跳追踪、聚合和问答)的 13 个代表性任务配置。这些任务配置涵盖了从简单到复杂、从单跳到多跳的多种场景。
以下是关键任务的配置总结:
检索任务 (Retrieval)¶
S-NIAH:包括 passkey retrieval 和 vanilla NIAH,使用 word-number 作为键值对,背景不同。此外,还测试了 value 类型为 UUID 的情况,以检验模型在长字符串检索中的鲁棒性。
MK-NIAH:在 haystack 中添加了三个干扰项(distractor needles),并引入了 line retrieval 和 key-value retrieval 的经典设置。
MV-NIAH:测试 4 个值的检索。
MQ-NIAH:测试 4 个查询的检索。
多跳追踪 (Multi-hop Tracing)¶
VT(变量追踪):包含一个包含 4 个名称绑定跳转的链,总共需要返回 5 个变量名。
聚合任务 (Aggregation)¶
CWE(常见词计数):需要返回 10 个每个出现 30 次的常见词,而非常见词仅出现 3 次。
FWE(频率加权词):使用 Zeta 分布,α 值设为 2.0 来生成合成词。
问答任务 (QA)¶
SQuAD:用于模拟单跳 QA 场景。
HotpotQA:用于模拟多跳 QA 场景。
这些任务配置共同构成了 Ruler 的 13 个主要实验设置,全面评估模型在不同上下文长度和复杂性下的表现。
Appendix C Task Correlation Analysis¶
本章节《附录C 任务相关性分析》主要研究了Ruler框架中不同任务类别之间的相关性,以验证任务分类的有效性,并指导代表性任务的选择。研究假设不同类别的任务能够揭示模型的不同行为特征。作者评估了八个开源模型在18种任务配置下的表现,每种任务的表现以不同上下文规模下的性能向量表示。通过使用相关系数作为距离度量,利用聚合聚类算法对这18个任务向量进行聚类分析。
分析结果表明,尽管某些任务之间存在中等程度的相关性,但NIAH、VT、AG和QA四大类任务各自形成了独立、紧密的聚类,没有冗余。在此基础上,作者剔除了与同簇中其他任务高度相关的冗余任务,最终确定了13个代表性任务用于后续的大规模评估。
Appendix D Prompt Templates¶
本附录 D 主要介绍了 Prompt Templates(提示模板),用于测试长上下文语言模型的实际上下文处理能力。内容分为两大部分:模型模板(Model Templates)和任务模板(Task Templates)。
1. 模型模板(Model Templates)¶
模型模板是不同模型在接受输入时所需的聊天格式(chat format)。这些模板因模型而异,例如:
GPT-4:在任务模板后添加指令“请直接给出答案,不提供任何解释”,并附上答案前缀。
Llama3:使用特定的开始和结束标记来组织用户和助手的对话。
GLM、Phi3、Command-R 等模型:也都有各自的特殊标记结构。
统一的做法是:在任务模板(Task Template)后附加一个任务答案前缀(Task Answer Prefix),用于引导模型回答问题,并避免模型拒绝回答。这种设计不会破坏模型原有的聊天模板结构。
2. 任务模板(Task Templates)¶
任务模板是具体的测试任务,主要分为以下几类:
(1) S-NIAH & MK-NIAH¶
目标:测试模型从长文本中提取特定信息(如数字、词、UUID)的能力。
形式:在一段文本中隐藏多个信息项,模型需要记住并回答指定项。
子任务:
Subtask-1/Subtask-2:提取特定单词对应的数字。
Subtask-3:提取特定单词或UUID。
MK-NIAH:测试模型从多个条目中提取指定索引的数据(如 word-x)。
(2) MV-NIAH & MQ-NIAH¶
目标:测试模型从文本中提取多个信息项的能力。
形式:
MV-NIAH:提取一个关键词对应的所有数字(如 word 对应的多个 number)。
MQ-NIAH:提取多个关键词各自对应的数字。
(3) VT(Variable Tracking)¶
目标:测试模型跟踪变量赋值链的能力。
形式:文本中出现一系列变量赋值语句(如 VAR X1 = number),要求模型找出所有被赋予特定数值的变量。
(4) CWE(Common Word Extraction)¶
目标:测试模型从一个词表中找出最常见词语的能力。
形式:给出一个包含重复词语的列表,模型需列出出现频率最高的前10个词。
(5) FWE(Frequent Word Extraction)¶
目标:测试模型在编码头文中找出出现频率最高的三个词。
形式:给出一段模拟的加密文本,模型需忽略“……”符号,找出出现频率最高的三个词。
(6) QA(Question Answering)¶
目标:测试模型基于多个文档进行问答的能力。
形式:
Single Hop QA:基于单个文档回答问题。
Multi Hop QA:基于多个文档,需要跨文档推理来回答问题。
模型需要仅输出答案,不能提供解释。
总结:¶
本附录系统地整理了不同语言模型在处理长上下文任务时所需的输入格式(模型模板)和测试任务设计(任务模板)。所有任务都旨在评估模型在不同上下文长度和信息提取任务中的表现。通过添加“任务答案前缀”,可以引导模型直接输出所需答案,避免拒绝响应,从而更准确地评估其真实能力。
Appendix E Passkey Retrieval and Vanilla NIAH Results¶
该章节总结了两种任务(Passkey Retrieval 和 Vanilla NIAH)下多个大模型在不同文本长度上的表现,文本长度从 4K 到 128K。主要内容包括:
Passkey Retrieval 结果(Table 10):
大多数模型在其声称的最大长度(如 32K、64K、128K、1M)上都表现良好,准确率达到或接近 100%。
一些模型在长度超过其声称值时,性能有所下降。例如,Qwen2 和 Command-R-plus 在 128K 时部分指标下降,但平均仍表现不错。
某些模型(如 LongAlpaca、DBRX、Together)在超过其声称长度后性能明显下降,甚至降至 0%。
Gemini-1.5 和 LWM 等模型在 1M 长度上仍保持接近满分的性能,表现出色。
Vanilla NIAH 结果(Table 11):
同样,大多数模型在其声称长度上表现很好,准确率接近 100%。
一些模型(如 Qwen2、Mistral-base)在长度超过其声称值后性能下降较为明显,准确率显著降低。
像 LongAlpaca 和 Mistral-v0.2 这样的模型在长文本处理上表现不稳定,尤其在 128K 时准确率大幅下降。
部分模型(如 GLM4、LWM、Yi)在较长文本中仍能保持稳定的高准确率。
总结:
几乎所有模型在其声称的最大长度上表现优异。
性能随文本长度增加而波动,部分模型在超长文本处理上存在明显短板。
总体来看,70B 及以上的大规模模型在长文本任务中表现更稳定,而一些 7B 或更小规模的模型在超长文本任务中的表现较差。
Appendix F Additional Results¶
本附录内容总结了多个模型在不同长度(从4K到128K)下的性能表现,覆盖了多个任务(如检索、多跳追踪、聚合和问答),通过平均任务得分进行评估。
关键总结:¶
性能模型领先者:
Gemini-1.5 和 GPT-4 在大多数任务中表现最佳,尤其是在长文本处理(128K)和复杂任务(如多跳追踪)中保持高准确率。
Llama3.1(70B)、GLM4 和 Qwen2(72B) 也在多个任务中表现出色,特别是在中等长度文本处理(如64K)中。
模型能力与宣称长度的对比:
某些模型(如 Gemini-1.5 和 Jamba-base)支持超长文本处理(>128K),但实际性能在长文本下有所下降。
Mixtral-8x22B 和 Mistral-base 在中等长度文本处理(如32K-64K)表现较好,但在超长文本任务中性能下降明显。
不同任务表现差异:
检索任务(Retrieval)中,Command-R-plus 和 LWM(7B) 表现优异。
多跳追踪任务(Multi-hop Tracing)中,LWM-base 和 Jamba-base 在长文本处理中表现突出。
问答任务(Question Answering)中,Jamba-base 在32K-64K长度下表现较好,而 Mistral-base 在8K-16K长度下更优。
基础模型与对齐模型差异:
Llama2-7B(chat) 和 Llama2-7B(base) 在多个任务中表现较为中等,尤其是在长文本处理上性能明显下降。
对齐模型(如 Llama3.1 和 GradientAI/Llama3(70B))在附加任务中表现出更高的鲁棒性。
长文本处理能力:
模型对长文本的处理能力存在显著差异,如 Gemini-1.5 在128K-256K长度下仍能保持较高准确率,而部分模型(如 LongLoRA-base 和 Yarn-base)在长文本处理中性能下降明显。
结论:¶
在多个任务和文本长度下,Gemini-1.5 和 GPT-4 表现最全面且稳定,适合处理长文本和复杂任务。
模型对长文本的支持能力与其实际性能并不完全匹配,需根据具体任务需求选择合适模型。