# 2412.15115_Qwen2.5 * [https://arxiv.org/abs/2412.15115](https://arxiv.org/abs/2412.15115) * 组织: 阿里 * GitHub: [https://github.com/QwenLM/Qwen2.5](https://github.com/QwenLM/Qwen2.5) ## Abstract * Qwen2.5 是一系列全新的大语言模型(LLM),在训练前和训练后都做了大幅改进: * **预训练阶段**:使用了 18 万亿高质量 tokens(之前是 7 万亿),提升了常识、专业知识和推理能力。 * **后训练阶段**:用了超百万条数据做精细微调,还结合了多阶段强化学习(如 DPO 和 GRPO),显著提高了人类偏好适应能力、长文本生成、结构化数据分析和指令跟随能力。 * Qwen2.5 提供多种模型配置,参数量从 0.5B 到 72B,支持基础版和指令微调版,还有量化版本,可在 Hugging Face 等平台获取。专有版本如 Qwen2.5-Turbo 和 Qwen2.5-Plus 可通过阿里云使用。 * 在多个基准测试中,Qwen2.5 表现优异,72B 指令版甚至能媲美 5 倍大小的 LLaMA-3-405B。Turbo 和 Plus 版本也分别接近 GPT-4o-mini 和 GPT-4o 的性能,性价比高。此外,它还被用于训练数学、编程和多模态专用模型。 ## 1. Introduction ### 背景与趋势 * 人工通用智能(AGI)的曙光正在显现,得益于大型语言模型(LLM)的快速发展。 * 当前技术路径是:**大规模预训练 → 精细监督调优(SFT)→ 人类反馈强化学习(RLHF)**。 * 最近在推理能力方面取得突破,如 OpenAI 的 o1 模型,能更好地进行**逐步推理和反思**。 * 同时,**开源 LLM 的爆发**(如 LLaMA、Mistral、Qwen)让更多人能参与研究和应用开发。 ### Qwen2.5 的发布亮点 1. **模型种类更多、更灵活** * 开源模型涵盖 **0.5B 到 72B 共七种规模**。 * 提供原始精度(bfloat16)和多种量化版本。 * MoE 模型(Qwen2.5-Turbo、Qwen2.5-Plus)与 GPT-4o-mini 和 GPT-4o 性能接近。 2. **训练数据大幅升级** * 预训练数据从 **7 万亿 tokens 提升至 18 万亿**,重点涵盖知识、编程和数学。 * 微调阶段使用了约 **100 万条高质量数据**,包括 SFT、DPO 和 GRPO 三种方法。 3. **使用体验大幅提升** * **生成长度从 2K 提升至 8K tokens**。 * 更好地支持结构化输入/输出(如表格、JSON)。 * Qwen2.5-Turbo 支持 **最长 100 万 tokens 的上下文**。 ## 2. Architecture and Tokenizer * Qwen2.5 系列包括两类模型: * **开源的稠密模型**:如 Qwen2.5-0.5B 到 72B * **面向 API 服务的 MoE(专家混合)模型**:如 Qwen2.5-Turbo 和 Qwen2.5-Plus ### 稠密模型结构: * 基于 Transformer 解码器,关键组件包括: * GQA:提高 KV cache 效率 * SwiGLU:非线性激活 * RoPE:位置编码 * QKV bias 和 RMSNorm:优化注意力机制和训练稳定性 ### MoE 模型结构: 在稠密模型基础上,用多个 FFN 专家和路由机制替代普通 FFN,实现更强性能。 ### 分词器: 使用 Qwen 的 BBPE 分词器,词表大小为 151,643。新增了多个控制 token(从 3 个扩展到 22 个),增强了功能一致性和兼容性。 ![](https://img.zhaoweiguo.com/uPic/2025/06/2GsmoM.jpg) Table 1: Model architecture and license of Qwen2.5 open-weight models. ## 3. Pre-training ### 1. **预训练数据** * Qwen2.5 在数据质量上比 Qwen2 提升明显,主要体现在: * **更好的数据筛选**:用已有模型对训练数据进行评分和多维评估,剔除低质量样本,保留高质量内容。 * **更强的数学和代码数据**:引入专门的数学和编程数据集,让模型在这些任务上表现更好。 * **更优的合成数据**:使用强大的大模型生成高质量的合成数据,并通过奖励模型严格筛选。 * **更合理的数据配比**:减少低质量、重复性强的内容(如电商、娱乐),增加高价值领域(如科技、学术)内容。 > 数据规模从 Qwen2 的 7 万亿 tokens 增加到 Qwen2.5 的 18 万亿 tokens。 ### 2. **超参数优化(Scaling Laws)** * 建立了一套用于不同模型规模的 **超参数缩放规律**。 * 系统研究了模型大小、数据量与学习率、批大小等关键参数的关系。 * 适用于多种模型结构,包括稠密模型(dense)和专家模型(MoE)。 * 通过这些规律可以更精确地调参,甚至让小的 MoE 模型达到大模型的性能水平。 ### 3. **长上下文预训练** * 除Qwen2.5-Turbo外,分两阶段训练:先用 **4K tokens 的上下文长度**,再扩展到 **32K tokens**(或更长)。 * Qwen2.5-Turbo 特别采用了 **逐步扩展上下文长度** 的训练方式, * 分4阶段训练:32,768 tokens, 65,536 tokens, 131,072 tokens, and ultimately 262,144 tokens * 使用了两个关键技术来提升长文本能力: * **YARN**:优化注意力机制。 * **DCA(双块注意力)**:提高处理长序列的效率和质量。 * 效果:最多能处理 **100 万 tokens** 的输入,同时保持短文本任务的性能不下降。 ## 4. Post-training ### 两大核心改进: 1. **更广的监督微调数据覆盖(Expanded Supervised Fine-tuning Data Coverage):** 微调数据大大增加,专注补足模型在以下方面的短板: * 长文本生成 * 数学解题 * 编程能力 * 指令理解与执行 * 结构化数据处理 * 逻辑推理 * 跨语言能力 * 系统提示的鲁棒性 2. **双阶段强化学习(RL):** * **离线RL**:解决奖励模型难评估的能力(如推理、事实准确性、指令执行),使用人工+自动筛选高质量数据做正负样本进行DPO训练。 * **在线RL**:强化模型输出质量,确保内容真实、有帮助、简洁、相关、安全、无偏见。使用GRPO算法,优先训练不确定性高的样本。 ### 4.1 Supervised Fine-tuning 1. **长文本生成**:最长支持8K token,构建专门数据集并用回译(back-translation)、过滤低质数据等手段提升质量。 2. **数学能力**:引入多来源链式思维数据,通过奖励模型筛选步骤清晰的推理过程。 3. **编程能力**:采集多语言代码任务,自动测试代码正确性。 4. **指令跟随**:LLM生成指令+验证代码+单元测试,确保能正确执行指令。 5. **结构化数据理解**:强化表格问答、错误纠正等任务,提升结构化信息推理能力。 6. **逻辑推理**:7万多样化问题,涵盖各种推理类型,逐步淘汰错误答案提升推理准确性。 7. **跨语言迁移**:用翻译模型扩展到低资源语言,保证语义一致。 8. **系统提示鲁棒性**:设计多样系统提示并验证模型性能稳定性。 9. **响应过滤**:结合打分模型与多Agent系统,严格筛选高质量输出。 ### 4.2 Offline Reinforcement Learning * **离线RL**:专注客观题,如数学、编程等,构造15万对训练样本,使用DPO方法训练。 * **定义**:与在线RL不同,离线RL可以提前准备好训练数据,适用于有“标准答案但难打分”的任务,比如数学、编程、逻辑推理等。 * **方法**:先用已有模型生成多个答案,再通过自动/人工方式筛选出好的答案作为“正样本”,差的答案作为“负样本”,用于DPO(直接偏好优化)训练。 * **流程**:这个过程用了以前的质量控制机制(比如执行反馈、答案匹配),共构建了约15万个训练对,然后用Online Merging Optimizer进行一次epoch的训练。 ### 4.3 Online Reinforcement Learning * **在线RL**:构建奖励模型(根据真实性、有用性、简洁性等打分),再用GRPO优化主模型。训练时优先处理评分波动大的样本,提升学习效率。 * **目标**:进一步提升模型质量,用强化学习优化模型输出,让其更加真实、有用、简洁、相关、安全、无偏。 * **打分标准**:包括真实性、有用性、简洁性、相关性、无害性和去偏见。 * **数据来源**:包括公开数据和复杂的内部查询集,使用不同方法(SFT、DPO、RL)微调后的模型生成回答,并采样不同温度值形成多样性。 * **训练方法**:使用GRPO算法,优先训练那些模型回答差异大的问题(即打分方差高的问题),每个问题采样8个回答,训练批大小为2048。 ### 4.4 Long Context Fine-tuning * **阶段一**:使用32K token以内短指令训练,奠定基础。 * **阶段二**:结合32K短指令与最长262K长指令微调,提升长上下文指令跟随能力。 * **RL阶段**仍只用短指令,因为: 1. 长文本RL训练代价高; 2. 缺乏适用于长文本的奖励模型。 ## 5. Evaluation ### 评估方法 * **评估数据集**:使用公开评测数据集(如 MMLU、GSM8K、HumanEval 等)和自建内部数据集,涵盖语言理解、数学、编程、多语言能力等多方面。 * **防止数据泄漏**:通过 n-gram 和最长公共子序列(LCS)比对过滤训练集中的测试数据。 * **评估方式**:主要自动评估,人工干预最少。 ### 5.1 Base Models ![](https://img.zhaoweiguo.com/uPic/2025/06/Rd0GJj.jpg) Table 2: Performance of the 70B+ base models and Qwen2.5-Plus. * **Qwen2.5-72B**:比 LLaMA3-405B 小五倍的参数量,在多数任务上表现相当甚至更好。 * **Qwen2.5-Plus**:成本更低,但在很多任务上甚至超过72B版本,尤其擅长数学、代码、多语言任务。 * **Qwen2.5-14B/32B/Turbo**:在相似大小模型中表现优异,Turbo版本虽然成本低,但效果接近或优于14B。 * **Qwen2.5-7B**:虽然参数较小,但超越多个主流7B模型,如 LLaMA3-8B 和 Gemma2-9B。 * **Qwen2.5-0.5B/1.5B/3B**:体积小但性能强,尤其在边缘设备部署上具备优势,0.5B版本在数学和编程上超过了Gemma2-2.6B。 ### 5.2 Instruction-tuned Model ### 5.2.1 Open Benchmark Evaluation ![](https://img.zhaoweiguo.com/uPic/2025/06/Rr6fEu.jpg) Table 6: Performance of the 70B+ Instruct models and Qwen2.5-Plus. * **Qwen2.5-72B-Instruct & Plus**:在多个关键任务上超越LLaMA3.1-405B-Instruct;Plus版本在13个测试中有9个胜出。 * **Qwen2.5-14B/32B-Instruct & Turbo**:32B表现优异,Turbo在成本更低的前提下超过14B-Instruct。 * **Qwen2.5-7B-Instruct**:在数学、编程任务上领先Gemma2-9B-IT、LLaMA3.1-8B-Instruct。 * **Qwen2.5-3B/1.5B/0.5B-Instruct**:尽管参数少,数学和编程表现优于Phi3.5-mini和MiniCPM3-4B等模型。 ### 5.2.2 In-house Automatic Evaluation * **为什么做内部评估**:虽然已有一些公开基准,但不能全面评估大模型能力,因此团队开发了自己的评测数据,覆盖知识理解、文本生成、编程等能力,支持中英双语。 * **中英文表现对比**:Qwen2.5 系列模型在中英文任务上整体表现优秀,尤其是在小模型上效率提升显著,如 Qwen2.5-0.5B 表现甚至优于 Qwen2-1.5B;Qwen2.5-72B 接近或超过 GPT-4、Claude3.5-sonnet,表现优于 LLaMA-3.1-405B(除了指令遵循)。 * **多语言评估**:扩展了多个基准测试(如 IFEval、MMLU、MGSM8K),覆盖多种语言(如阿拉伯语、韩语、印尼语等),并用 BLEnD 测试文化细节理解。Qwen2.5 在多语言和数学推理任务上表现与同级别模型相当,文化理解相较上一代有所提升,但仍有进步空间。 ### 5.2.3 奖励模型评估(Reward Model) * **评估方式**:使用多个基准(Reward Bench、RMB、PPE,以及内部中文偏好数据)评估 Qwen2.5 的奖励模型,比较对象包括 Nemotron、LLaMA、Athene 等。 * **结果总结**: * Qwen2.5-RM 在 PPE 和中文人类偏好上表现最佳; * 在 RMB 略逊于 Athene,在 Reward Bench 略低于 LLaMA。 * **重要发现**:目前的评估标准(如 Reward Bench)未必能预测实际 RL 模型效果,高分不等于好结果。需要开发更能反映 RL 效果的奖励模型评估方法。 ### 5.2.4 长上下文能力(Long Context Capabilities) * **评估方法**:使用 RULER、LV-Eval、Longbench-Chat 三个基准测试上下文处理能力。 * **结果**: * Qwen2.5-72B-Instruct 长上下文处理能力领先,优于 GPT-4o-mini 和 GPT-4; * Qwen2.5-Turbo 在 100 万 token 的信息检索任务中达到 100% 准确率。 * **技术优化**:通过稀疏注意力机制(基于 Minference)实现推理提速,在处理超长文本时推理效率提升 3.2–4.3 倍。 ## 6. Conclusion * Qwen2.5 是一个先进的大语言模型,训练数据达到 18 万亿 tokens,经过精细的微调和多阶段强化学习,提升了模型对人类偏好的理解、长文本生成能力和结构化数据分析能力,非常适合用于执行指令类任务。 * 它有多个版本,既有开放参数版本(从 0.5B 到 72B),也有更高效的 MoE(专家混合)版本,比如 Qwen2.5-Turbo 和 Qwen2.5-Plus。 * 实验证明,Qwen2.5-72B-Instruct 的性能可媲美 LLaMA-3-405B-Instruct,尽管参数量小了 6 倍。它还能作为其他专业模型的基础,具有很强的扩展性,适用于科研和工业场景。 * 未来的计划包括三个方向: 1. 不断优化模型质量,引入更多样、更高质量的数据。 2. 继续研发多模态模型,实现文字、图像、语音的统一处理。 3. 提升模型的推理能力,通过扩大推理计算资源来实现。