2507.19849_Agentic Reinforced Policy Optimization¶
引用:
组织:
总结¶
From Moonlight¶
三句摘要¶
关键词¶
摘要¶
Abstract¶
本论文提出了一种新的强化学习算法 Agentic Reinforced Policy Optimization(ARPO),专门用于训练能够进行多轮推理和工具交互的大型语言模型(LLMs)。当前的强化学习方法在处理LLMs的长期推理能力和多轮工具使用方面存在不足。
作者通过实验发现,LLMs在使用外部工具后,生成的token熵值显著上升,表明其行为不确定性增加。基于这一观察,ARPO引入了一个基于熵的自适应rollout机制,在全局轨迹采样和步骤级采样之间动态平衡,从而在工具使用后高不确定性的步骤中增强探索能力。
此外,ARPO还结合了优势归因估计(advantage attribution estimation),帮助LLMs理解在每一步使用工具带来的优势差异。
实验结果显示,ARPO在13个涵盖计算推理、知识推理和深度搜索等任务的挑战性基准测试中,表现优于现有的轨迹级强化学习算法。尤其值得注意的是,ARPO在仅使用现有方法一半工具使用预算的情况下仍能取得更优性能,显示出其在资源效率和可扩展性方面的优势。
关键点总结:
问题背景:LLMs在多轮任务中需使用工具,但现有RL方法难以平衡长期推理与多步工具交互。
核心观察:LLMs在调用工具后生成token的熵显著上升,表明不确定性增加。
核心方法:
熵自适应rollout机制:动态调整采样策略,增强高不确定性步骤的探索。
优势归因估计:帮助模型识别每一步工具使用的收益。
实验结果:
在13个任务中表现优于现有方法。
仅使用一半的工具调用预算即可达到更好性能。
支持实时动态环境下的可扩展训练。
图1说明:
左图显示LLM在使用工具后token熵显著上升。
右图展示ARPO在仅使用1k RL样本和更少工具预算的情况下,在深度搜索任务中表现优于其他方法。
1 Introduction¶
背景与动机¶
近年来,大规模可验证奖励强化学习(RLVR)在提升前沿大语言模型(LLMs)能力方面展现出巨大潜力,尤其在单轮推理任务中表现优异。然而,在开放式的推理场景中,LLMs不仅需要具备长视野规划和自适应决策能力,还需与外部工具环境进行多轮动态交互。为此,基于代理的强化学习(Agentic RL)成为一种有前景的训练范式,推动LLMs从静态任务解决转向动态的代理-环境推理。
现有方法的局限性¶
当前的Agentic RL方法多采用轨迹级算法(如GRPO、DAPO),通过预定义特殊标记采样完整工具使用轨迹,并基于最终输出提供奖励信号。尽管一些研究尝试设计更优的奖励函数以缓解工具滥用和稀疏奖励问题,但这些方法往往忽视了LLM与工具环境之间的多轮交互机制。与单轮推理不同,多轮工具使用提供了实时、多样、信息丰富的反馈,这对发现有效的步级工具使用行为至关重要。
问题分析与观察¶
作者通过分析LLM在深度搜索任务中的token熵分布,发现每次工具调用后生成的初始token具有高熵,表明外部工具调用显著增加了LLM推理的不确定性。然而,当前的轨迹级RL方法过于强调完整轨迹采样,忽略了每一步工具使用行为的细粒度探索,从而限制了工具使用行为的多样性与对齐效果。
提出方法:ARPO¶
为解决上述问题,本文提出Agentic Reinforced Policy Optimization(ARPO),一种专为多轮LLM代理训练设计的Agentic RL算法。其核心思想是:在高熵工具调用阶段鼓励策略模型进行自适应分支采样,从而有效对齐步级工具使用行为。
ARPO主要包括两个关键机制:
基于熵的自适应rollout机制:
在rollout阶段,LLM进行多次全局采样并记录初始熵分布;
每次工具调用后,监控token熵变化,若超过阈值,则执行部分采样以探索更多样化的推理路径。
优势归因估计(Advantage Attribution Estimation):
对于同一推理路径上的token赋予共享优势值;
对于分支路径上的token赋予不同优势值,以帮助模型更好地区分不同步级行为的优劣。
实验与结果¶
作者在13个涵盖计算推理、知识推理和深度搜索的任务上进行了全面评估。实验结果表明:
ARPO在Agentic训练中显著优于传统样本级RL算法;
在仅使用轨迹级RL方法一半工具调用预算的情况下,ARPO实现了准确率与效率的最佳平衡;
扩展性分析验证了ARPO在提升LLM代理推理能力方面的可扩展性。
主要贡献总结¶
量化LLM在代理推理中的token熵变化,揭示了轨迹级RL算法在对齐LLM代理行为中的固有局限。
提出ARPO算法,结合基于熵的自适应rollout机制与优势归因估计,有效平衡全局与步级工具使用行为的学习。
理论分析支持ARPO在LLM代理训练中的合理性。
在13个具有挑战性的基准任务上验证ARPO优于主流RL算法,且所需工具使用预算仅为传统方法的一半,为Agentic RL研究提供了实用指导。
2 Preliminary¶
本节为后续介绍ARPO算法提供理论基础,主要包括基于智能体的强化学习(Agentic RL)、推理过程中的token熵分析以及智能体工具设计三部分。
2.1 基于智能体的强化学习(Agentic Reinforcement Learning)¶
本节提出了基于智能体的强化学习目标,其优化目标为:
其中:
\( T \):可用工具集合;
\( \pi_{\theta} \):策略LLM(语言模型);
\( \pi_{\text{ref}} \):参考LLM;
\( r_{\phi} \):奖励函数;
\( \mathbb{D}_{\text{KL}} \):KL散度;
\( x \):来自数据集 \( \mathcal{D} \) 的输入;
\( y \):输出,可能包含工具调用反馈。
与传统RL不同,agentic RL在推理过程中引入了工具调用反馈。其rollout采样过程可分解为两个部分:
其中:
\( \mathcal{R} \):推理轨迹(包含工具调用反馈);
\( y \):最终答案。
ARPO基于规则型RL算法(如GRPO、Reinforce++)设计,专门用于优化基于LLM的智能体。
2.2 推理过程中的Token熵分析(Analyzing Token Entropy in Agentic Reasoning)¶
Token熵的计算¶
在每一步生成token时,计算其熵值:
其中:
\( V \):词汇表大小;
\( \bm{z}_t \):softmax前的logits;
\( \tau \):解码温度。
该熵值反映的是token生成分布的不确定性,而非某个具体token的不确定性。
Token熵的初步实验¶
作者对两类基于LLM的智能体进行了实验分析:
使用搜索引擎处理知识密集型任务;
使用Python解释器处理计算任务。
实验结果如图2所示,主要发现如下:
每次调用工具后,token熵在前10–50个token内迅速上升;
早期推理阶段熵值上升,但低于工具反馈后的不确定性;
搜索反馈引入的不确定性高于Python反馈。
这些现象的原因包括:
外部反馈与模型内部推理存在分布偏移(Ob.1);
反馈带来的不确定性高于原始输入(Ob.2);
搜索引擎返回的是信息性文本,而Python输出是确定性数值,因此前者熵值波动更大(Ob.3)。
这些发现揭示了轨迹级RL方法的局限性:它们关注初始推理,却忽略了工具反馈带来的不确定性。ARPO通过引入基于熵的探索机制来解决这一问题。
2.3 智能体工具设计(Agentic Tool Design)¶
本节介绍了用于评估ARPO效果的三类代表性工具:
搜索引擎:通过网络执行查询,获取相关信息;
网页浏览器代理:访问并解析搜索引擎返回的链接,提取和总结关键内容;
代码解释器:自动执行语言模型生成的代码,返回执行结果或编译错误信息。
这些工具用于实证评估ARPO在不同任务场景下的有效性。
总结:
本章为ARPO算法提供了理论基础和实验依据,包括:
基于智能体的强化学习目标函数;
token熵的计算方法及其在推理过程中的变化规律;
三类典型工具的设计与用途。
这些内容为后续提出ARPO算法奠定了坚实基础。
3 Agentic Reinforce Policy Optimization¶
3. Agentic Reinforce Policy Optimization (ARPO)¶
本节提出了一种新的算法 ARPO(Agentic Reinforce Policy Optimization),旨在通过基于熵的引导机制,指导大语言模型(LLM)在逐步调用工具的过程中进行探索。该算法包含三个核心部分:
3.1 基于熵的自适应展开(Entropy-based Adaptive Rollout)¶
核心思想:
受初步实验中观察到的熵变化启发,ARPO 在 rollout 阶段不仅进行轨迹级采样,还在高熵的工具调用步骤进行分支采样,从而在全局和局部采样之间取得平衡,鼓励更广泛的工具使用行为探索。
四个核心步骤:
Rollout 初始化:
给定全局 rollout 大小 \( M \),LLM 首先基于输入问题 \( q \) 生成 \( N \) 条轨迹。
剩余 \( M - N \) 的轨迹预算用于局部采样。
使用公式(3)计算每条轨迹前 \( k \) 个 token 的熵,形成初始熵矩阵 \( H_{\text{initial}} \in \mathbb{R}^{1 \times k} \)。
熵变化监测:
每次调用工具后,模型生成 \( k \) 个额外 token,并计算步骤级熵矩阵 \( H_t \in \mathbb{R}^{1 \times k} \)。
使用公式(4)计算相对于初始状态的归一化熵变化: $\( \Delta H_t = \text{Normalize}(H_t - H_{\text{initial}}) \)$
正值表示不确定性增加,负值表示减少。
基于熵的自适应束搜索(Entropy-based Adaptive Beaming):
定义工具调用步骤 \( t \) 的局部采样概率: $\( P_t = \alpha + \beta \cdot \Delta H_t \)$
当 \( P_t > \tau \) 时,进行分支(Branch),生成 \( Z \) 条新路径。
否则继续当前路径(Continue)。
参数 \( \alpha \) 为基本采样概率,\( \beta \) 控制熵的稳定性,\( \tau \) 为阈值。
终止条件:
当分支路径总数 \( \hat{Z} \) 达到 \( M - N \) 时,停止分支。
若提前终止,则补充额外轨迹级样本以满足总数要求。
优势:
使模型在不确定性高的区域自适应分配探索资源。
计算复杂度从传统轨迹级 RL 的 \( O(n^2) \) 降低至 \( O(n \log n) \) 到 \( O(n^2) \) 之间。
3.2 优势归因估计(Advantage Attribution Estimation)¶
背景:
ARPO 的自适应 rollout 机制生成的轨迹包含共享推理 token 段和不同分支路径,因此需要更合理的 RL 策略更新方法。
两种优势估计方式:
Hard Advantage Estimation(硬优势估计):
明确区分轨迹中的共享和个体部分。
对个体 token 使用归一化奖励 \( R_i \) 计算优势: $\( \hat{A}_{i,t} = \frac{r_i - \text{mean}(\{R_i\}_{i=1}^G)}{\text{std}(\{R_i\}_{i=1}^G)} \)$
对共享 token 使用平均优势: $\( \hat{A}_{i,t}^{\text{shared}} = \frac{1}{d} \sum_{i=1}^{d} \hat{A}_{i,t} \)$
Soft Advantage Estimation(软优势估计):
通过 Group Relative Policy Optimization (GRPO) 框架,在策略优化中隐式区分共享和个体 token。
GRPO 目标函数为: $\( J_{\text{GRPO}}(\theta) = \mathbb{E}_{(q,a)\sim D,\{y_i\}\sim\pi_{\theta_{\text{old}}}} \left[ \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \min(r_{i,t}(\theta)\hat{A}_{i,t}, \text{clip}(r_{i,t}(\theta),1-\epsilon,1+\epsilon)\hat{A}_{i,t}) - \beta D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}}) \right] \)$
其中重要性采样比 \( r_{i,t}(\theta) \) 为: $\( r_{i,t}(\theta) = \frac{\pi_\theta(y_{i,t} \mid x, y_{i,<t})}{\pi_{\text{ref}}(y_{i,t} \mid x, y_{i,<t})} \)$
共享 token 的 \( r_{i,t}(\theta) \) 相同,个体 token 的不同。
实验比较:
软优势估计在训练中表现更稳定,奖励更高,因此 ARPO 默认使用软估计。
3.3 理论基础(Theoretical Foundation)¶
核心思想:
ARPO 的自适应局部 rollout 机制基于 广义策略梯度定理(Generalized Policy Gradient Theorem, GPG),适用于所有基于 Transformer 的策略模型。
GPG 定理:
将 Transformer 输出 token 分为 \( K \) 个宏动作(macro action): $\( MA_i \triangleq <OT_m, OT_{m+1}, ..., OT_{m+n}> \)$
宏状态定义为: $\( MS_1 \triangleq <IT_1, IT_2, ..., IT_{|input|}>, \quad MS_i \triangleq <MS_{i-1}, MA_{i-1}> \)$
GPG 定理形式为: $\( \nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left\{ \sum_{T=1}^{K} [\nabla_\theta \log \pi_\theta(MA_T | MS_T) A_T(\tau)] \right\} \)$
\( T \) 为宏步骤,\( A_T(\tau) \) 为轨迹 \( \tau \) 的优势。
意义:
传统策略梯度定理是 GPG 的特例(单 token 动作)。
ARPO 是 GPG 定理的高级实现,具有坚实的理论基础。
总结¶
ARPO 通过 基于熵的自适应 rollout 和 软优势估计机制,实现了对 LLM 在多轮工具调用中的高效探索与策略优化。其理论基础 GPG 定理为 Transformer 模型的策略梯度方法提供了更广泛的适用性。实验表明,ARPO 在训练过程中具有更高的稳定性和奖励表现。
4 Experiment¶
4.1 数据集¶
为了全面评估ARPO算法在训练基于LLM的工具使用代理中的有效性,我们在以下三类长视野推理任务上进行了实验:
数学推理:包括AIME2024、AIME2025、MATH500、MATH和GSM8K。
知识密集型推理:包括WebWalker、HotpotQA、2WikiMultihopQA、Musique和bamboogle。
深度搜索:包括GAIA、WebWalker、HLE和xbench-DeepSearch。
实验数据集的划分遵循了Tool-Star、Webthinker和HIRA的设置,以保持与现有工作的可比性。
4.2 基线方法¶
为了评估ARPO的有效性,我们考虑了以下三类基线方法:
直接推理:使用Qwen2.5、Llama3.1等模型的instruct版本,以及QwQ、DeepSeek-R1、GPT-4o等强推理模型。
轨迹级强化学习算法:比较ARPO与GRPO、DAPO、REINFORCE++等算法。
基于LLM的搜索代理:在深度搜索任务中,比较ARPO与RAG、Search o1、Webthinker、ReAct等方法。
4.3 训练指南¶
本研究旨在验证ARPO在算法层面相较于传统RL的有效性,而非单纯追求性能提升。实验采用冷启动SFT与RL结合的范式,以避免初始RL训练阶段的奖励崩溃。
冷启动微调阶段:使用LLaMAFactory框架,结合Tool-Star的54K训练样本和STILL数据集的0.8K样本。
RL阶段:在深度推理和深度搜索任务中分别使用Tool-Star的10K和SimpleDeepSearcher/WebSailor的1K样本进行训练。使用Bing搜索结果、Python编译器和token级F1分数作为正确性信号。
4.4 评估指标¶
在评估阶段,使用具有浏览器功能的搜索引擎以对齐标准推理性能。对于准确性,使用F1分数评估知识密集型推理任务,其他任务使用Qwen2.5-72B-instruct作为LLM-as-Judge。采用pass@1评估,设置温度为0.6,top-p为0.95。
表1展示了ARPO在10个挑战性推理任务中的整体性能,ARPO在多个任务中表现优异,平均准确率提升4%。
4.5 主要结果¶
数学与知识密集型推理结果:ARPO在公平设置下始终优于所有轨迹级RL算法。主要发现包括:
提示方法的无效性:TIR提示方法未能有效探索优越的工具使用行为。
轨迹级RL的局限性:DAPO等算法在单轮推理任务中表现良好,但在多轮工具调用中表现不佳。
ARPO的稳健性能:ARPO在10个数据集中始终优于其他RL算法,平均准确率提升4%。
深度搜索任务结果:ARPO在深度搜索场景中表现出色,使用Qwen3-8和14B模型在HLE和GAIA基准上分别达到10.0%和43.2%的pass@1分数。ARPO在平均性能和个别基准上均优于GRPO,特别是在GAIA和WebwalkerQA基准上提升了6%。
4.6 定量分析¶
采样分析:由于深度搜索评估的动态和多轮交互特性,Pass@1不足以捕捉模型的工具使用潜力。ARPO在Pass@3和Pass@5指标上表现出一致的改进,特别是在GAIA、HLE和xbench-DR任务上。
工具调用效率分析:ARPO在训练中使用工具调用的效率显著高于GRPO,仅使用一半的工具调用次数即可达到更高的整体准确率。
浏览器代理的消融实验:实验表明,依赖规则生成的网页摘要不足以提供必要的信息支持,而更强大的浏览器代理能够显著提升模型性能。
4.7 ARPO的扩展性分析¶
为了验证ARPO的可扩展性,我们对Qwen2.5-7B模型进行了三个核心参数的扩展性分析:
熵值:模型性能随熵值增加而提升,峰值在0.4,但过高的熵值会导致性能下降。
初始采样大小:随着初始采样大小的增加,模型性能提升,峰值在8。
全局展开大小:增加全局展开大小可以提升模型性能,表明ARPO算法具有可扩展性。
这些分析表明,ARPO在不同参数设置下具有良好的性能和稳定性。
6 Conclusion¶
本节总结了论文的核心贡献与实验结果,强调了所提出算法 ARPO 的优势与应用价值。
核心内容讲解:¶
ARPO 算法概述:
作者提出了 Agentic Reinforced Policy Optimization (ARPO),这是一种专为训练多轮、基于大语言模型(LLM)的智能体而设计的创新性强化学习算法。
关键机制:
熵自适应 rollout 机制(entropy-based adaptive rollout):通过分析 LLM 在使用工具时的 token 熵较高这一现象,ARPO 动态平衡全局与步级采样,鼓励在高熵阶段进行多样化探索。
优势归因估计(Advantage Attribution Estimation):该机制帮助 LLM 在逐步的工具使用中理解不同动作的优势差异,从而更好地进行策略优化。
实验结果与优势:
在 13 个具有挑战性的基准任务 上进行了测试,涵盖:
计算推理(computational reasoning)
知识推理(knowledge reasoning)
深度搜索(deep search)
ARPO 显著优于传统轨迹级强化学习算法。
更重要的是,ARPO 在仅使用其他方法 一半工具调用预算 的情况下仍能取得优异性能,表明其在资源效率和可扩展性方面具有明显优势。
小结:¶
本节强调了 ARPO 在 LLM-based agent 训练中的创新性与高效性,特别是在工具使用场景下的探索与策略优化能力,为动态环境下的智能体对齐提供了一个有前景的解决方案。
Appendix A Datasets¶
本节详细介绍了 ARPO 实验中使用的数据集。
A.1 Mathematical Reasoning Benchmarks¶
本小节介绍了用于评估模型数学推理能力的数据集,均为高难度数学问题集合,涵盖多个数学领域。
重点内容:¶
AIME24
包含 30 道来自美国邀请数学考试(AIME)的难题,涵盖代数、几何等多个领域,是当前流行的数学推理评估基准。AIME25
包含 2025 年最新发布的 AIME I & II 真题,共 30 题,知识覆盖面广,包括代数、几何、数论、组合数学等,能有效区分模型推理能力。MATH500
OpenAI 从 MATH 数据集中选取的 500 道高难度题目,涵盖代数、几何、微积分、数论等,难度接近或超过大学水平,常用于学术研究中的模型评估。MATH
由 Hendrycks 等人于 2021 年提出,用于测试模型数学推理能力,涵盖抽象代数、微积分、离散数学等,训练数据分为三个等级,便于评估模型在不同阶段的表现。GSM8K
OpenAI 发布的小学数学题集,包含需 2~8 步计算的问题,主要用于测试模型的逻辑与基础数学能力,广泛用于基准测试。
A.2 Knowledge-Intensive Reasoning Benchmarks¶
本小节介绍的是需要多跳推理和知识整合的问答数据集。
重点内容:¶
HotPotQA
来自 Wikipedia 的多跳问答数据集,具有丰富的知识库和结构化信息,是评估大语言模型复杂搜索理解能力的重要基准。2WikiMultihopQA
专为多跳问答任务设计,用于测试模型整合多文档信息、进行多步推理的能力。Musique
旨在作为多跳问答的挑战性基准,推动模型从信息检索向语义理解和逻辑推理发展。
A.3 Deep Search Benchmarks¶
本小节介绍的是用于评估模型在真实世界任务中深度搜索能力的数据集。
重点内容:¶
GAIA
包含 466 道精心设计的问题,用于评估 LLM 在推理、网页浏览、工具使用等基本能力上的综合表现,提供了一个通用人工智能助手评估的新框架。HLE
一个新兴且极具挑战性的基准,涵盖大量边缘性、跨学科问题,要求高度抽象思维,旨在模拟 AI 智能的终极测试。WebWalker
包含 680 个问答对,用于评估 LLM 在网页遍历任务中的表现,解决复杂信息处理限制,提升多跳推理和动态网页结构理解能力。xbench-DeepSearch
用于评估 AI 智能体深度搜索能力的评估集,强调搜索空间的广度与推理深度,相较于现有知识搜索基准,更能考察智能体的高阶能力。
总结¶
附录 A 对 ARPO 实验中使用的各类数据集进行了系统分类与介绍,涵盖数学推理、知识密集型问答和深度搜索三大类。每个数据集都明确了其来源、任务类型、评估目标及在学术研究中的地位,为后续实验设计和结果分析提供了坚实基础。
Appendix B Baselines¶
附录 B 基线模型¶
本节介绍了本研究所使用的基线模型,分为三类:直接推理模型、轨迹级强化学习算法和基于大语言模型的搜索代理。
B.1 直接推理模型¶
本节介绍了多个主流的大语言模型(LLM),用于直接推理任务。
Qwen2.5 系列(Qwen et al., 2024)
阿里巴巴团队开发的预训练大模型,包括通用模型 Qwen2.5、编程专用模型 Qwen2.5-Coder 和数学专用模型 Qwen2.5-Math。相比之前的 Qwen 系列,Qwen2.5 系列知识储备更丰富,在编程、数学和指令跟随任务中表现优异。Llama3.1 系列(Dubey et al., 2024)
Meta 发布的自然语言生成模型,包含 8B、70B 和 405B 三种参数规模。该模型支持长文本输入输出,多语言任务表现良好,在超过 150 个基准数据集上测试表现优异,尤其大模型在多项任务中具有竞争力。Qwen3 系列(Yang et al., 2025)
阿里巴巴开源模型,包含 2 个 MoE 模型和 6 个 Dense 模型,参数范围从 0.6B 到 235B。支持“思考模式”和“非思考模式”,分别适用于复杂和简单问题。训练语料基于约 36 万亿 token,具备强大能力和灵活性。QwQ(Team, 2024b)
阿里巴巴推出的推理模型,专注于数学、编程和逻辑推理。QwQ-32B 是一个 320 亿参数的密集模型,通过多阶段强化学习实现突破,在数学推理和代码生成任务中表现突出。DeepSeek-R1(DeepSeek-AI et al., 2025)
DeepSeek-AI 开发的推理模型,采用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万个 token,在数学、代码和复杂逻辑推理任务中表现出色。GPT-4o(Hurst et al., 2024)
OpenAI 发布的多模态大模型,支持文本、音频、图像的多模态输入与输出。在文本、推理和编程方面表现接近 GPT-4 Turbo,同时在多语言、音频和视觉功能方面有显著提升。o1-preview(Hurst et al., 2024)
OpenAI 推出的推理模型预览版,基于 GPT-4 架构,通过强化学习训练,专注于提升复杂任务的推理能力和实际问题解决能力。
重点总结:这些模型代表了当前主流的直接推理方法,涵盖通用、编程、数学、多模态等多个方向,是评估本研究方法性能的重要对比基准。
B.2 轨迹级强化学习算法¶
本节介绍了用于大语言模型训练的强化学习算法。
GRPO(Shao et al., 2024)
基于策略优化的强化学习算法,通过引入“相对优势”概念,在保持策略改进理论保证的同时简化计算,适用于连续和离散动作空间。DAPO(Yu et al., 2025)
字节跳动实验室开发的 LLM 强化学习算法,提出“Clip-Higher”策略提升熵值以生成更多样化样本,并引入动态采样、Token 级策略梯度损失计算和长奖励塑造机制,提升训练稳定性。REINFORCE++(Hu, 2025)
对经典 REINFORCE 算法的改进版本,通过引入基线函数和 TD 估计降低方差,支持增量更新,避免策略过早固化,提升梯度更新稳定性。
重点总结:这些算法是当前 LLM 强化学习的重要方法,DAPO 和 REINFORCE++ 在复杂任务(如数学推理、代码生成)中表现尤为突出。
B.3 基于大语言模型的搜索代理¶
本节介绍了结合搜索机制提升推理能力的模型框架。
RAG(Lewis et al., 2020)
检索增强生成技术,通过在生成前从外部知识库中检索相关信息,提升生成内容的准确性、可靠性和时效性,缓解模型内部知识不足或幻觉问题。Search-o1(Li et al., 2025d)
基于 Agentic RAG 和 Reason-in-Documents 模块的搜索增强推理框架,旨在解决推理过程中的知识不足问题。实验表明其在复杂推理任务中优于传统推理和 RAG 方法。WebThinker(Li et al., 2025e)
中国人民大学发布的开源深度研究框架,赋予语言模型自主搜索、深入浏览网页和撰写研究报告的能力。采用基于直接偏好优化的训练策略,提升工具使用能力。ReAct(Yao et al., 2022)
结合推理与行动的人工智能方法,通过“边做边想”的方式模拟人类思维,允许模型在决策过程中主动生成推理步骤并调用外部工具(如搜索引擎、数据库),最终通过迭代优化获得答案。
重点总结:ReAct 和 Search-o1 是当前搜索代理推理的代表性方法,WebThinker 则在工具使用方面提供了新的训练策略,RAG 作为基础技术被广泛采用。
总结¶
本附录系统介绍了本研究所依赖的基线模型与方法,分为三类:
直接推理模型:涵盖主流大语言模型,如 Qwen2.5、Llama3.1、Qwen3、QwQ、DeepSeek-R1、GPT-4o 和 o1-preview,用于评估推理能力。
轨迹级强化学习算法:包括 GRPO、DAPO 和 REINFORCE++,用于 LLM 的训练优化。
基于大语言模型的搜索代理:如 RAG、Search-o1、WebThinker 和 ReAct,用于增强模型的推理与外部信息交互能力。
重点内容:Qwen3、QwQ、o1-preview、DAPO、REINFORCE++、Search-o1 和 ReAct 是当前研究中最具代表性和性能优势的模型与算法,值得重点关注。
Appendix C Implementation Details¶
附录 C 实现细节总结¶
C.1 监督微调(Supervised Fine-Tuning)¶
在监督微调阶段,使用 Llama Factory 框架对 Qwen2.5-3B-Instruct 模型进行训练,学习率为 7×10⁻⁶。
使用 DeepSpeed ZeRO-3 和 FlashAttention2 进行优化;
批量大小为 128,权重衰减为 0.1,训练 3 个 epoch;
使用 BF16 混合精度,最大输入长度为 4096 token。
📌 重点:训练配置较高,强调优化器和精度设置,适用于大模型训练。
C.2 强化学习(Reinforcement Learning)¶
在 ARPO 阶段,基于 VERL 框架 实现 ARPO 算法。
不计算工具调用结果的损失,仅对文本推理和工具请求部分计算损失;
区分两类任务设置参数:
1. 深度推理任务(Deep Reasoning Tasks)¶
模型参数为 7B;
总训练批量大小:128;
PPO 小批量大小:16;
全局 rollout 大小:16;
初始采样大小:8;
每次交互响应长度限制为 4096 token;
ARPO rollout 参数:熵权重 0.2,参数 a = 0.5,阈值 0.5;
GRPO 中 KL 散度系数设为 0(用于稳定训练);
训练 2 个 epoch,使用 8 块 NVIDIA H800 GPU。
2. 深度搜索任务(Deep Search Tasks)¶
模型参数为 8B 或 14B;
参数设置与深度推理任务相同,但:
响应长度扩展为 8192 token;
对于 14B 模型,使用 16 块 H800 GPU;
由于数据集较小(仅 1K 样本),训练 5 个 epoch。
📌 重点:任务类型影响模型参数、响应长度和训练轮次,ARPO 参数统一设置。
C.3 搜索细节(Details of Search)¶
使用 Bing Web Search API 作为检索器,配置为 US-EN 地区语言;
每个查询检索 10 个网页 作为支持文档(参考多个 RAG 相关工作);
对于数学和知识推理任务,仅使用前 10 个摘要片段;
对于深度搜索任务:
从每个 URL 获取最多 6000 token 的内容;
使用与推理模型同规模的模型作为 浏览器代理 来精炼信息。
📌 重点:搜索策略因任务类型而异,深度搜索任务强调内容精炼和长文本处理。
C.4 扩展实验设置(Scaling Experiment Setup)¶
参数设置与 C.2 中一致:
总训练批量大小:128;
PPO 小批量大小:16;
全局 rollout 大小:16;
初始采样大小:8;
ARPO rollout 参数:熵权重 0.2,a = 0.5,阈值 0.5;
在扩展实验中,仅调整特定参数,其余保持不变。
📌 重点:用于评估模型扩展性,参数控制严格,便于对比分析。
C.5 C.3(重复章节)¶
该节内容与 C.3 完全重复,可能是排版或编号错误,建议忽略或合并处理。
总结¶
本附录详细描述了模型训练与推理的实现细节,结构清晰,重点包括:
监督微调 的优化策略与训练配置;
强化学习 的任务区分与参数设置;
搜索机制 的任务适配与内容处理;
扩展实验 的标准化设置;
重复章节(C.5)建议合并或删除。
Appendix D Theoretical Analysis and Proofs¶
D.1 软优势估计的理论分析¶
本节对软优势估计进行了详细的理论分析。首先,给出了经典的 GRPO 优化目标:
对于每个单独的问题,定义优化目标为:
因此,经典的 GRPO 优化目标可以表示为:
随后,我们专注于分析 \(J_{\text{GRPO}}^{q}(\theta)\)。假设对于问题 \(q\) 的推理,部分展开操作从第 \(l\) 个 token 开始。我们定义了两个重要性采样比率:
其中 \(r_{i,t}(\theta)^{<l}\) 和 \(r_{i,t}(\theta)^{>l}\) 分别表示在第 \(l\) 个 token 之前和之后的重要性采样比率。\(q\) 表示输入问题,\(p\) 表示共享 token,\(y_{i,<t}\) 表示从共享 token 到第 \(t\) 个 token 之前的部分。此外,定义 \(o_{l}^{i}\) 为第 \(i\) 个序列的第 \(l\) 个 token。然后 \(J_{\text{GRPO}}^{q}(\theta)\) 可以表示为:
我们做出以下定义:
其中 \(J_{i}^{<l}\) 表示第 \(i\) 个链的共享 token 部分的优化目标,\(J_{i}^{>l}\) 表示第 \(i\) 个链的部分展开后的优化目标,\(J_{\text{GRPO}}^{>l}\) 表示从第 \(l\) 个位置开始直接进行经典 GRPO 采样操作的优化目标。然后,原始优化目标 \(J_{\text{GRPO}}(\theta)\) 可以表示为:
在这种情况下,软优势估计下的 GRPO 优化目标可以表示为从部分展开位置的标准 GRPO 目标和该点前后目标的加权差之和。每个差的权重与其对应的推理链长度密切相关。
D.2 GPG 定理的理论证明¶
D.2.1 基于 Transformer 的策略¶
基于 Transformer 的策略 \(\pi_{\theta}(a_{t}|s_{t})\),通过应用链式法则,我们有以下:
其中 \(IT_{i}\) 和 \(OT_{i}\) 分别是输入 token 和输出 token;\(MS_{1}\triangleq<IT_{1},IT_{2},\ldots,IT_{|input|}>\) 和 \(MA\triangleq<OT_{1},OT_{2},\ldots,OT_{|output|}>\) 可以分别作为宏观状态和宏观动作。
在更一般的形式中,我们可以将完整的输出 \(OT_{1},OT_{2},\ldots,OT_{|output|}\) 分成 \(K\) 段,并得到广义的宏观状态和宏观动作,即 \(MS_{i}\triangleq<MS_{i-1},MA_{i-1}>\) 和 \(MA_{i}\triangleq<OT_{m},OT_{m+1},\ldots,OT_{m+n}>\)。在这种情况下,我们有:
其中 \(T\) 表示宏观时间步。
D.2.2 GPG 定理的推导¶
给定上述定义的宏观状态和宏观动作,我们可以得到广义策略梯度定理(针对基于 Transformer 的策略):
GPG 定理的一个关键优势是它允许任意长度的宏观动作分割。这种灵活性使定理非常实用:例如,可以根据特殊 token 进行轨迹分割。
证明如下:
证明中的关键步骤如下:
从方程 (30) 到方程 (31),这是因为对于基于 Transformer 的策略,\(s_{t+1}=[s_{t},a_{t}]\),所以我们有 \(P(s_{t+1}|s_{t},a_{t})=1\)。
从方程 (31) 到方程 (32),这是因为对于基于 Transformer 的策略,\(s_{t+1}=[s_{t},a_{t}]\),所以我们可以得到以下推导:
Appendix E The Algorithm Workflow of ARPO¶
本节总结论文中 ARPO(Agentic Reinforce Policy Optimization) 算法的完整流程,按照算法步骤进行结构化讲解。
输入参数¶
初始策略模型:\(\pi_{\theta_{\text{init}}}\)
奖励模型:\(r_\phi\)
任务提示集合:\(\mathcal{D}\)
超参数:\(\epsilon, \alpha, \beta, \mu, \tau, M, N, Z, k\)
算法流程¶
1. 初始化策略模型¶
将初始策略模型 \(\pi_{\theta_{\text{init}}}\) 赋值给当前策略模型 \(\pi_\theta\)
2. 主循环:迭代训练¶
进行 \(I\) 次迭代训练
3. 设置参考模型¶
每次迭代开始时,将当前策略模型复制为参考模型 \(\pi_{ref}\)
4. 内部训练步骤¶
每个迭代中进行 \(S\) 次训练步骤
5. 数据采样¶
从任务提示集合 \(\mathcal{D}\) 中采样一个批次 \(\mathcal{D}_b\)
6. 保存旧策略模型¶
将当前策略模型保存为旧策略 \(\pi_{\theta_{old}}\)
7. 生成推理路径¶
对每个问题 \(q \in \mathcal{D}_b\),使用旧策略模型生成 \(N\) 条推理路径 \(\{y_i\}_{i=1}^N\)
8. 计算初始熵¶
对每条路径的前 \(k\) 个 token 计算初始熵 \(H_{i,initial}\)
9. 初始化 rollout 集合¶
将所有推理路径初始化为 rollout 集合 \(\{rollout_i\}\)
10. 工具调用初始化¶
设置工具调用步数 \(t = 1\)
11. 工具调用循环¶
对未完成的路径 \(y_i\) 进行循环处理
12. 解析路径并调用工具
执行工具 \(T\),得到结果 \(d_i = T(y_i)\)
13. 插入工具结果
将结果插入到路径中:\(y_i \leftarrow y_i + d_i\)
14. 生成新 token 并计算熵
基于更新后的路径生成 \(k\) 个新 token,并计算当前步的熵 \(H_{i,t}\)
15. 计算熵的变化
计算归一化的熵变化:\(\Delta H_{i,t} = \text{Normalize}(H_{i,t} - H_{i,initial})\)
16. 计算采样概率
使用公式:\(P_{i,t} = \alpha + \beta \cdot \Delta H_{i,t}\)
17. 分支扩展条件判断
如果 \(P_{i,t} > \tau\),则对该路径分支出 \(Z\) 个新 rollout,并加入集合
18. 判断路径长度
如果路径长度 \(|y_i| = M\),继续采样直到输出最终答案
否则,继续生成新的推理步骤,并更新步数 \(t \leftarrow t + 1\)
19. 补充 rollout¶
如果路径长度小于 \(M\),则补充 \(M - |y_i|\) 个独立 rollout
20. 计算奖励¶
使用奖励模型 \(r_\phi\) 对所有 rollout 计算奖励 \(\{r_i\}_{i=1}^M\)
21. 优势估计¶
使用组相对优势估计(Group Relative Advantage Estimation)计算每个 token 的优势值 \(\hat{A}_{i,t}\)
22. GRPO 优化¶
进行 \(\mu\) 次 GRPO 优化迭代,最大化 GRPO 目标函数(见公式 6)
23. 更新奖励模型¶
使用回放缓冲区对奖励模型 \(r_\phi\) 进行持续训练
输出¶
最终训练完成的策略模型 \(\pi_\theta\)
重点内容总结¶
核心机制:
ARPO 通过动态调整推理路径的分支策略(基于熵变化)来增强策略探索。
使用 工具调用 和 奖励模型 来引导策略优化。
引入 GRPO(Group Relative Policy Optimization) 目标函数进行策略更新。
关键公式:
分支采样概率:\(P_{i,t} = \alpha + \beta \cdot \Delta H_{i,t}\)
熵变化归一化:\(\Delta H_{i,t} = \text{Normalize}(H_{i,t} - H_{i,initial})\)
关键参数:
\(N\):每次生成的初始推理路径数量
\(Z\):满足条件时分支出的新路径数量
\(M\):每条路径的最大长度
\(\tau\):分支阈值
\(\mu\):GRPO 优化迭代次数
不重要内容精简¶
图表和流程图(如图 1)未详细展开,仅作为算法流程的辅助说明。
如需进一步分析 GRPO 目标函数或熵变化的具体实现方式,可结合论文正文相关内容继续深入。
Appendix F Case Study¶
表 4:HLE 数据集中的一个例子¶
问题:
求非负整数解的个数,使得方程
$\(
x_1^2 + x_2^2 + x_3^2 + x_4^2 + x_5^2 = 2024
\)\(
成立,其中 \) x_1, x_2, x_3, x_4, x_5 \in \mathbb{Z}_{\geq 0} $。
模型输出(ARPO 14B):
使用暴力枚举法,对所有可能的 \( x_1, x_2, x_3, x_4 \) 进行遍历,计算剩余值是否为完全平方数。
遍历范围:从 0 到 \( \lfloor \sqrt{2024} \rfloor = 44 \)。
对每个组合,计算 \( x_5^2 = 2024 - (x_1^2 + x_2^2 + x_3^2 + x_4^2) \),并检查是否为完全平方数。
若是,则计数器加一。
Python 代码:
import math
count = 0
for x1 in range(45):
for x2 in range(45):
for x3 in range(45):
for x4 in range(45):
remaining = 2024 - (x1**2 + x2**2 + x3**2 + x4**2)
if remaining >= 0:
x5 = int(math.isqrt(remaining))
if x5**2 == remaining:
count += 1
print(count)
结果:
输出为 29010,与标注答案一致。
结论:
该方程的非负整数解共有 29010 组。
表 5:GAIA 数据集中的一个例子¶
问题:
《海底总动员》中主角鱼在哪些地方被发现为非本地物种?要求以 ZIP 编码格式输出。
模型输出(ARPO 14B):
主角鱼为小丑鱼(Amphiprion ocellaris)。
根据 USGS 数据库,小丑鱼在佛罗里达州 Tarpon Springs 的 Fred Howard 公园被发现。
通过搜索确认该地点的 ZIP 编码为 34689。
结果:
输出为 34689,与标注答案一致。
结论:
小丑鱼作为非本地物种被发现的 ZIP 编码为 34689。
表 6:GAIA 数据集中的另一个例子¶
问题:
在 ASEAN 国家中,哪两个国家的首都之间的地理距离最远?按字母顺序输出。
模型输出(ARPO 14B):
确定 ASEAN 成员国及其首都坐标。
使用 Haversine 公式计算所有首都之间的距离。
最远距离为 印度尼西亚(雅加达) 与 缅甸(内比都) 之间。
结果:
输出为 Indonesia,Myanmar,与标注答案一致。
结论:
印度尼西亚和缅甸的首都之间距离最远,按字母顺序输出为 Indonesia, Myanmar。
表 7:HLE 数据集中的另一个例子¶
问题:
《星际争霸》背景中的“第二次大战”持续了多久(以年为单位,向上取整)?
模型输出(ARPO 14B):
根据官方资料,第二次大战发生在 2504–2505 年,共 1 年。
即使核心冲突可能只有半年,但整体战争持续时间为 1 年。
结果:
输出为 1,与标注答案一致。
结论:
第二次大战持续时间为 1 年。
表 8:AIME24 数据集中的一个例子¶
问题:
设 \( p \) 是最小的素数,使得存在正整数 \( n \),使得 \( n^4 + 1 \) 能被 \( p^2 \) 整除。求最小的正整数 \( m \),使得 \( m^4 + 1 \) 也能被 \( p^2 \) 整除。
模型输出(ARPO 8B):
枚举小素数,找到最小的 \( p = 17 \),使得存在 \( n \) 满足条件。
再找到最小的 \( m = 110 \),使得 \( m^4 + 1 \) 能被 \( 17^2 \) 整除。
Python 代码:
from sympy import isprime, primerange
def find_n_for_p(p):
for n in range(1, p**2 + 1):
if (n**4 + 1) % (p**2) == 0:
return n
return None
primes = list(primerange(2, 100))
for p in primes:
n = find_n_for_p(p)
if n is not None:
for m in range(1, p**2 + 1):
if (m**4 + 1) % (p**2) == 0:
result = m
break
break
print((p, result))
结果:
输出为 110,与标注答案一致。
结论:
最小的 \( m \) 为 110。
表 9:HotpotQA 数据集中的一个例子¶
问题:
哪位剧作家活得更久,Edward Albee 还是 J. M. Barrie?
模型输出(ARPO 8B):
Edward Albee 出生于 1928 年,去世于 2016 年,享年 88 岁。
J. M. Barrie 出生于 1860 年,去世于 1937 年,享年 77 岁。
比较后得出 Edward Albee 活得更久。
Python 代码:
# Edward Albee
albee_birth_year = 1928
albee_death_year = 2016
albee_lifespan = albee_death_year - albee_birth_year
# J. M. Barrie
barrie_birth_year = 1860
barrie_death_year = 1937
barrie_lifespan = barrie_death_year - barrie_birth_year
print(f"Edward Albee lived for {albee_lifespan} years.")
print(f"J. M. Barrie lived for {barrie_lifespan} years.")
if albee_lifespan > barrie_lifespan:
print("Edward Albee lived a longer life.")
else:
print("J. M. Barrie lived a longer life.")
结果:
输出为 Edward Albee,与标注答案一致。
结论:
Edward Albee 活得更久。