# 2505.13308_*Seek in the Dark*: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space * 首页: * PDF: * 引用: 11(2026-01-26) * 组织: * 1 Institute for Artificial Intelligence, Peking University * 2 NLCo Lab, Beijing Institute for General Artificial Intelligence * 3 Department of Automation, Tsinghua University * 4 Shanghai Jiao Tong University * 5 Institute of Automation, Chinese Academy of Sciences * 6 University of California, Los Angeles * GitHub: - **代码开源**:GitHub 地址: - **项目主页**: ## 总结 ## From Moonlight ### 三句摘要 1. 💡 LATENTSEEK提出一种新颖的测试时实例级适应(TTIA)框架,通过策略梯度和自生成奖励,在大型语言模型(LLMs)的潜在空间中迭代优化潜在表示,以增强其推理能力,且无需修改模型参数。 2. 🚀 该方法在GSM8K、MATH-500和AIME2024等推理基准测试中显著优于Chain-of-Thought (CoT) 和基于微调等强基线方法,并展现出高效的收敛性。 3. 🧠 LATENTSEEK为提升LLMs的推理能力提供了一种轻量级、可扩展且有效的解决方案,并强调了潜在空间测试时扩展的巨大潜力。 ### 关键词 - Large Language Models (LLMs): 指的是参数量庞大的语言模型,它们在各种任务中表现出色,尤其在复杂推理和演绎分析方面。然而,在需要结构化思维和细致分步分析的任务中,LLMs 仍然存在困难。本文提出的 LATENTSEEK 框架旨在提升 LLMs 的推理能力,而无需修改其参数。 - Reasoning: 指的是人类智能的核心组成部分——推理能力。对于 LLMs 而言,特别是在需要结构化思维和细致分步分析的任务中,推理能力仍然是一个显著的挑战。本文的工作目标就是增强 LLMs 的这种能力。 - Test-Time Instance-Level Adaptation (TTIA): 是一种在测试阶段,针对每个具体问题实例进行适应性调整的方法,其关键特点是**不更新模型的参数**。与传统的通过修改模型参数来提升性能的方法(如微调或强化学习)不同,TTIA 旨在通过在推理时进行计算或调整来提高性能,LATENTSEEK 便是此范式下的一种创新方法。 - Latent Space: 指的是大型语言模型中,位于最终语言模型(LM)头层之前的 Transformer 主干网络的输出空间。在这个空间中的向量被称为“潜在表示”(latent representation),它们对应于语言 token 的隐藏状态。本文提出的 LATENTSEEK 在此潜在空间中进行优化,利用其丰富的语义信息来引导模型的推理过程。 - Policy Gradient: 是一种优化算法,本文中的 LATENTSEEK 利用它来迭代更新潜在表示。具体而言,它根据奖励信号(由模型自身生成)的方向调整潜在表示,以最大化预期的奖励。这使得模型能够在潜在空间中“寻求”更好的推理路径。 - Self-rewarding: 指的是 LATENTSEEK 框架中用于评估推理序列的奖励函数机制。这种机制完全依赖模型自身的内部能力来生成奖励信号,即模型根据其对自身输出的评估来给出反馈,而无需任何外部信息或人工标注。这使得 LATENTSEEK 能够进行自引导式的优化。 - Chain-of-Thought (CoT): 是一种提示工程(prompting)技术,通过鼓励大型语言模型生成中间推理步骤来解决复杂问题。在本文中,CoT 不仅作为一个重要的基线方法进行比较,还被用作 LATENTSEEK 初始化潜在表示的起始点,以利用其已有的推理能力。 - Best-of-N (BoN): 是一种提升模型推理性能的搜索策略。它通过生成 N 个独立的推理序列,然后根据某种奖励函数(例如,检查最终答案的正确性)从中选择表现最好的一个作为最终答案。在本文中,BoN 是 LATENTSEEK 重要的对比基线之一。 - Test-Time Scaling: 指的是在测试时增加计算量,以提升模型的推理性能,而无需更新模型的参数。本文提出了一种新的测试时扩展轴,即通过增加 LATENTSEEK 在潜在空间中的优化迭代次数来实现。研究结果表明,增加迭代次数可以持续提升性能,凸显了潜在空间测试时扩展的潜力。 - Perfect Sparse Reward Model (PSRM): 是一种理想化的、假想的奖励模型,在本文的实验中用于检验潜在空间探索的价值。它只在最终答案与正确答案完全匹配时返回 0 奖励,否则返回 -1。这种“全有或全无”的反馈信号即使在极端稀疏的奖励下,也显示出潜在空间探索能带来显著性能提升,证明了纯粹探索的有效性。 - Catastrophic Forgetting: 指的是在模型进行参数更新(例如通过微调或强化学习)时,新学到的知识可能会导致模型遗忘之前获得的通用能力。本文提出的 LATENTSEEK 框架通过在潜在空间中进行优化而不更新模型参数,从而有效避免了这种风险。 ### 摘要 这篇论文介绍了一种名为LATENTSEEK的新型框架,旨在通过在大型语言模型(LLMs)的latent space中执行Test-Time Instance-level Adaptation (TTIA) 来增强其推理能力。与传统的需要更新模型参数或依赖手动Prompt Engineering的方法不同,LATENTSEEK在测试阶段对每个实例的latent representations进行迭代优化,从而避免了灾难性遗忘等训练挑战。 **核心问题与挑战:** LLMs在复杂推理和演绎分析方面表现出色,但在需要结构化思维和精细分步分析的任务中仍面临困难。现有提升推理能力的方法通常涉及参数更新(如微调、强化学习),这会导致高昂的计算成本、潜在的灾难性遗忘,并可能限制模型的探索能力或导致冗长输出。Prompt Engineering作为一种TTIA方法,其表达能力有限。尽管有研究表明推理能力可内化于latent space中,但这些方法往往会大幅修改latent space,且性能不及Chain-of-Thought (CoT)。 **LATENTSEEK方法论:** LATENTSEEK通过引入更新的、实例特定的latent representations来引导预训练模型的推理过程,而无需修改模型参数。这些latent representations被视为规划或控制机制,指导模型针对每个具体问题实例找到更好的推理路径。 1. **问题重新表述:** 传统的推理目标是找到最优推理序列$x^* = \text{arg max}_x R(x, c)$,其中$c$是上下文Prompt,$\pi$是预训练的自回归语言模型,由Transformer骨干$\pi_{\text{Transformer}}$和LM头$\pi_{\text{LM-head}}$组成。$R(x, c)$是评估推理序列的奖励函数。 LATENTSEEK将问题重新表述为在latent representations序列$z = (z_1, z_2, \dots, z_N)$上进行优化,其中$z_t := \pi_{\text{Transformer}}(x_{, c)** 是 xₜ 对应的潜在表示。 测试时,真实标签未知,因此引入奖励函数 **R(x, c)** 来评估生成的推理序列。最终目标是找到最优推理路径: $$ \mathbf{x}^* = \arg\max_{\mathbf{x}} R(\mathbf{x}, \mathbf{c}) $$ > **重点**:本节建立了测试时推理的数学框架,强调了潜在空间表示 **zₜ** 的作用,并引入奖励函数作为优化目标。 --- ### 2.2 潜在空间中的策略梯度推理 为了解决上述优化问题,作者将任务重新定义为在潜在空间中进行序列优化,而非直接在 token 空间搜索。定义潜在表示序列 **z = (z₁, z₂, ..., z_N)**,其中 **N ≤ T**。 目标是找到最优潜在表示序列: $$ \mathbf{z}^* = \arg\max_{\mathbf{z}} \mathbb{E}_{\mathbf{x} \sim \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c})}[R(\mathbf{x}, \mathbf{c})] $$ 生成序列 **x ∼ π(x ∣ z, c)** 的方式是:先将潜在表示 **z** 解码为 token,然后继续自回归生成,其联合概率可分解为: $$ \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c}) = \left( \prod_{t=1}^{N} \pi_{\text{LM-head}}(x_t \mid z_t) \right) \left( \prod_{t=N+1}^{T} \pi(x_t \mid \mathbf{x}_{ **重点**:通过策略梯度方法在潜在空间中进行优化,避免直接在 token 空间搜索,提升了搜索效率和稳定性。公式 (4) 和 (7) 是核心数学表达。 --- ### 2.3 LatentSeek 算法 #### 算法流程 **输入**:问题上下文 **c**、学习率 η、预训练模型 π、奖励阈值 τ、序列比例 ρ、最大迭代次数 K **初始化**: - 用 CoT(Chain-of-Thought)生成初始序列 **x** 和潜在表示 **z** - 计算初始奖励 **r = R(x, c)**,其中奖励由自奖励机制生成: $$ R(\mathbf{x}, \mathbf{c}) \sim \pi(\cdot \mid \mathbf{x}, \mathbf{c}, \text{prompt}_{\text{self-reward}}) $$ - 保留前 **ρT** 个潜在表示,进行部分序列优化 **迭代优化**(最多 K 次): 1. 更新潜在表示:**z ← z + η ∇ₐJ(z)** 2. 采样新序列:**x ∼ π(x ∣ z, c)** 3. 计算新奖励:**r ← R(x, c)** 4. 若奖励超过阈值 τ,则提前终止 **输出**:优化后的推理序列 **x̃** > **重点**:LatentSeek 是一个迭代优化算法,结合了策略梯度和自奖励机制,在潜在空间中逐步提升推理质量。 #### 增强技术 1. **CoT 初始化**:使用 CoT 生成的推理路径作为潜在表示的初始值,提升优化起点。 2. **部分序列优化**:仅优化前 **ρT** 个潜在表示,平衡探索能力和优化效率。ρ 是一个超参数,通常取 20%。 > **重点**:这两个技术提升了算法的稳定性和效率,防止对不连贯的潜在表示进行过度优化,从而影响奖励函数的可靠性。 --- ### 总结 本章提出了一种在测试时通过潜在空间策略梯度进行推理的方法,核心思想是将推理路径搜索转化为潜在表示的优化问题。通过 LatentSeek 算法,结合 REINFORCE 策略梯度和自奖励机制,实现了在无监督条件下的高效推理优化。文中强调了潜在空间建模、策略梯度更新公式和部分序列优化等关键技术点,并通过 CoT 初始化和序列截断策略提升了算法的实用性和稳定性。 ## 3 Empirical Results ### 3. Empirical Results 总结 本节主要介绍实验设置、结果分析以及方法在多个数学推理任务上的表现。内容结构如下: --- ### 3.1 Experimental Setup(实验设置) #### **Reward Mechanism(奖励机制)** - 使用Lifshitz等人(2025)提出的数学推理提示来引导模型进行自我奖励计算。 - 对特定任务引入基于格式的奖励机制(DeepSeek-AI, 2025)。 - 引入**Perfect Sparse Reward Model (PSRM)**,用于验证方法在稀疏奖励下的潜力。 #### **Prompt Designation(提示设计)** - 使用两种提示格式进行评估: - Prompt 1:要求答案用 `\boxed{}` 包裹。 - Prompt 2:要求答案以 JSON 格式输出。 #### **Backbones(模型基座)** - 使用多个不同家族和规模的预训练大语言模型: - Qwen2系列(1.5B~14B) - LLaMA3.1-8B - Mistral-7B #### **Benchmarks(基准数据集)** - 评估集中在数学推理任务上,使用以下三个数据集: - **GSM8K**:用于基础推理能力评估。 - **MATH-500**:用于中等难度的数学问题评估。 - **AIME2024**:用于高难度复杂推理任务评估。 #### **Baselines(对比方法)** - **Prompting(无训练)**:CoT、Few-Shot CoT - **Explicit Search(无训练)**:Best-of-N (BoN) - **Reinforcement Learning(强化学习)**: - 自我奖励:Self-Rewarding、ScPO、CoH、Genius - 可验证奖励:SimpleRL-Zoo、GRPO、SPIN - **Latent Chain-of-Thought(隐式推理链)**:iCoT - **监督微调(SFT)**:在Magpie 25K或GSM8K训练集上微调 #### **表格数据(Table 1 和 Table 2)** - 表1展示了不同模型和提示下 LatentSeek 与基线方法在多个数据集上的准确率对比。 - 表2展示了使用 LLaMA3.1-8B-Instruct 作为基座模型时,LatentSeek 与更多基线方法的对比。 - **关键结果**: - LatentSeek(PSRM)在多个数据集上显著优于 CoT、BoN、SFT 等方法。 - 在 AIME2024 上,LatentSeek(PSRM)平均提升 CoT 4.73%。 - PSRM 在稀疏奖励下仍能取得优异表现,平均提升 CoT 19.12%。 --- ### 3.2 State-of-the-art Test-time Reasoning Performance(测试时推理性能) #### **GSM8K 和 MATH-500 的最佳表现** - 使用 LLaMA3.1-8B-Instruct 作为基座模型: - 相比 CoT,LatentSeek 提升 14.6%(GSM8K)和 7.0%(MATH-500)。 - 相比 BoN,提升 7.7%(GSM8K)和 3.4%(MATH-500)。 - 超过 iCoT(需训练)36.6%,超过 Genius(RL-based)20.0%。 #### **挑战性问题:AIME2024** - LatentSeek 平均提升 CoT 4.73%,在 Prompt 1 下 Qwen2.5-7B-Instruct 提升 13.33%。 - 即使是较小模型(如 Mistral),也有平均 1.67% 的提升。 #### **模型泛化能力** - **模型家族**:在 Qwen2、Qwen2.5、LLaMA3.1 上表现最佳,Mistral 上次优。 - **模型规模**: - 1.5B 模型在 GSM8K(Prompt 2)提升 CoT 28.89%。 - 7–8B 模型平均提升 BoN 11.75%。 - 14B 模型在 AIME2024 提升 6.67%。 #### **模型特定提示的泛化** - Qwen2.5 系列使用其训练时的 Prompt 1,LatentSeek 仍提升 0.91%(GSM8K)和 2.47%(MATH-500)。 - 其他模型在 Prompt 1 下也有显著提升(如 Qwen2 提升 16.37%)。 --- ### 3.3 Ideal Experiment: Perfect Sparse Reward Model(理想实验:完美稀疏奖励模型) - **PSRM 设计**:仅当答案完全正确时奖励为 0,否则为 -1。 - **结果**: - PSRM 平均提升 CoT 19.12%,优于 Self-Reward 模型 12.57%。 - 小模型(Qwen2.5-1.5B)在 PSRM 下表现优于大模型(Qwen2.5-7B)。 - 说明小模型具备知识但缺乏有效激活机制,LatentSeek 可激活其潜在能力。 --- ### 3.4 Test-Time Scaling: scaling up the iteration of LatentSeek(测试时扩展:增加 LatentSeek 迭代次数) #### **迭代次数与性能关系** - 随着迭代次数增加,PSRM 持续提升性能,Self-Reward 则在初期提升后趋于稳定。 - 图2显示不同模型在 GSM8K 上的准确率随迭代次数变化。 #### **极端扩展实验(Extreme Scaling)** - 使用 Qwen2.5-1.5B-Instruct 模型,在 PSRM 下进行极端扩展: - 在 AIME2024 上超越 GPT-4o 14%。 - 在 MATH-500 上仅次于 o1-preview,仅需平均 61.8 次迭代。 - 表明在合适奖励模型下,隐空间搜索比显式空间扩展更高效。 --- ### 3.5 Algorithmic Statistics(算法统计) #### **关键统计指标** - **答案长度 / CoT 长度比值**:除 Qwen2.5-1.5B(Prompt 2)外,其余均 ≤ 1.1,说明不依赖长输出。 - **平均迭代次数**: - GSM8K:平均 0.86 次 - MATH-500:平均 1.23 次 - 表明算法收敛快,计算效率高。 --- ### 3.6 Qualitative Analysis(定性分析) - 分析模型生成的 CoT 和 LatentSeek 推理路径: - 模型生成的前几个 token 中出现“thecy”、“theella”等无意义词汇。 - 示例显示模型即使生成语法错误的中间步骤,也能得出正确答案。 - 表明模型的推理路径与人类不同,更适合在隐空间中优化。 --- ### 总结 本节通过大量实验验证了 **LatentSeek** 在多个数学推理任务上的优越性,尤其在使用 **PSRM** 和 **测试时迭代扩展** 的情况下,显著优于 CoT、BoN、SFT 和 RL-based 方法。方法在不同模型家族和规模上均表现出良好的泛化能力,且计算效率高,适合实际部署。 ## 4 Related Work ## 4 相关工作(Related Work)总结 本章节从四个主要方向回顾了与本文研究相关的已有工作,分别是:语言模型的推理能力、语言模型的强化学习、可控生成与测试时优化、以及提示调优与软提示方法。以下是对各部分的重点内容进行结构化总结: --- ### 一、语言模型的推理能力(Reasoning in Language Models) **重点内容:** - **思维链提示(CoT prompting)**:通过引导模型生成中间推理步骤来提升推理能力,代表工作包括 Wei et al. (2022)、Kojima et al. (2022) 等。 - **动态推理优化**:与静态的 CoT 不同,本文提出的方法是**动态优化每个问题实例的推理过程**。 - **计算最优扩展(Compute-optimal scaling)**:根据任务复杂度自适应调整推理策略(Snell et al., 2025; Misaki et al., 2025)。 - **潜在空间推理(Latent CoT)**:使用连续表示替代显式的文本推理步骤(Hao et al., 2024; Shen et al., 2025 等)。 - **学习推理的更广泛领域**:包括过程监督(Uesato et al., 2022)和自我批评机制(Huang et al., 2022)。 **总结:** 该部分强调了当前推理提示方法的局限性(如静态性),并指出本文方法通过动态优化潜在空间推理过程,具有更强的适应性。 --- ### 二、语言模型的强化学习(Reinforcement Learning for Language Models) **重点内容:** - **人类反馈强化学习(RLHF)**:以 PPO 算法为基础(Schulman et al., 2017),结合人类偏好进行模型优化。 - **新方法进展**: - **DPO(Direct Preference Optimization)** - **SRS(Statistical Rejection Sampling)** - **GRPO(Guo et al., 2025)**:专门针对推理任务设计。 - **奖励建模创新**:包括基于人类偏好的架构、自动化语言模型驱动设计、多智能体验证框架等。 - **Chen et al. (2024b)**:使用变分方法改进潜在轨迹的拟合。 **关键区别:** 这些方法主要在**训练阶段修改模型参数**,而本文则是在**测试阶段优化潜在表示**,不改变模型参数。 --- ### 三、可控生成与测试时优化(Controllable Generation and Test-Time Optimization) **重点内容:** - **控制生成的方法**: - 控制码(control codes) - 梯度引导(gradient-based steering) - 提示优化(prompt optimization) - **测试阶段优化技术**: - 自洽性(self-consistency) - 引用增强生成(recitation-augmented generation) - 测试时对齐(test-time alignment) - **测试时训练(Test-Time Training, TTT)**:通过自监督目标进行在线模型更新(Sun et al., 2020, 2024)。 - **与本文方法的区别**:本文是在**连续潜在空间中优化**,而非进行离散搜索(如 Hao et al., 2023)。 **总结:** 强调本文方法在测试阶段通过潜在空间操作实现高效控制,区别于传统搜索或参数更新方法。 --- ### 四、提示调优与软提示(Prompt Tuning and Soft Prompt) **重点内容:** - **提示调优(Prompt Tuning)与前缀调优(Prefix Tuning)**:通过在输入或隐藏状态前添加可训练向量来调整模型行为。 - **代表工作**:Lester et al. (2021)、Liu et al. (2024a)、Li and Liang (2021) 等。 **局限性:** - 需要**标注数据**和**完整反向传播**,计算成本高。 **本文方法优势:** - 无需训练数据或模型更新 - 通过潜在空间操作实现**高效灵活的适配** --- ### 总体总结: 本章节系统回顾了与本文方法相关的多个研究方向,包括推理提示、强化学习、测试时优化和提示调优。文章强调其方法的三个核心优势: 1. **动态优化推理过程**(区别于静态 CoT) 2. **测试阶段优化潜在表示**(不修改模型参数) 3. **在连续潜在空间中进行高效控制**(不同于离散搜索或参数调优) 这些特点使得本文提出的方法在效率、灵活性和适应性方面优于现有技术。 ## 5 Conclusion ## 5 结论 本节总结了LatentSeek框架的主要贡献和实验结果,强调其在提升大语言模型(LLMs)推理能力方面的有效性。 ### 主要内容: - **LatentSeek框架概述**: LatentSeek提出了一种新颖且高效的方法,通过在**潜在空间(latent space)中应用测试时输入调整(TTIA)**,来增强LLMs的推理能力。与传统方法不同,它**无需更新模型参数**,而是通过**策略梯度优化潜在表示**,从而避免了大规模重训练或强化学习的需要。 - **实验结果表现优异**: 在多个推理基准任务上的实验表明,LatentSeek在性能上**优于现有的基线方法**,包括思维链(Chain-of-Thought, CoT)和基于强化学习的技术。 - **计算效率高**: 该框架具有**快速收敛性**,尤其在中等难度问题上表现突出,显示出良好的计算效率。 - **未来研究方向**: 本研究为在潜在空间中进行**测试时扩展(test-time scaling)** 提供了新的可能性,为未来改进LLMs推理能力的研究指明了方向。 ### 总结: LatentSeek代表了在提升LLMs推理能力方面的重要进展,特别是在TTIA范式下提供了一种参数高效、训练高效的新方法。 ## Acknowledgement ## Acknowledgement(致谢) 本节为论文的致谢部分,内容较为简短,主要表达了对以下两位专家的感谢: - **Yanpeng Zhao**(来自BIGAI) - **Haoran Sun**(来自北京大学) 作者感谢他们在论文撰写过程中提供的有益审阅和建议。这部分内容属于论文的辅助性信息,不涉及数学公式、算法步骤或具体数据,因此无需深入展开。 ## Appendix A Discussion and future works 以下是论文附录 **A:Discussion and future works** 的总结,按照原文结构进行讲解: --- ## **A. 讨论与未来工作** ### **Reward Models(奖励模型)** **重点内容:** - 当前方法的主要局限性在于依赖**自奖励机制(self-rewarding mechanism)**。虽然该机制有效,但其优化过程受限于基础模型自身的评估能力与潜在偏见,缺乏**客观的外部信号**。 - 理想情况下应使用**结果奖励模型(Outcome Reward Model, ORM)**,该模型能评估最终答案并提供明确的优化方向。 - 实验表明(见附录E.5节),目前公开的ORM在复杂推理任务中**不够鲁棒和通用**,其信号噪声较大,不如自奖励机制稳定有效。 **未来方向:** - 开发更强大的**验证器(verifiers)**,能够可靠地评估复杂推理任务的质量。 --- ### **Latent Optimization(潜在空间优化)** **重点内容:** - 当前实现采用的是**标准的策略梯度方法**(policy-gradient methods)。 - 未来可探索更先进的**强化学习算法**,如**PPO(Proximal Policy Optimization)**,以提升优化效果。 - 可进一步研究**针对潜在空间设计的优化策略**,提升搜索效率。 --- ### **Large Base Model(大基础模型)** **简要内容:** - 目前实验仅在最大**14B参数规模**的模型上进行,受限于计算资源。 - 未来工作可探索将该方法**扩展到更大规模的基础模型**,以验证其在更大模型上的有效性与可扩展性。 --- 总结:本节主要讨论了当前方法在奖励机制、优化算法和模型规模方面的局限性,并提出了多个未来研究方向,其中**开发更强大的外部奖励模型**是关键突破口。 ## Appendix B Methods of Test-Time Instance-Level Reasoning ### 附录 B 测试时实例级推理方法 本节介绍了两种经典的**测试时实例级推理方法**,并给出了它们的数学形式。 --- #### • 提示工程(Prompt Engineering) **核心思想**:直接使用语言模型的分布来生成最优输出。 **数学公式**: $$ \mathbf{x}^* = \operatorname{arg\,max}_{\mathbf{x}} \pi(\mathbf{x} \mid \mathbf{c}) $$ (公式 9) **解释**: 给定一个输入提示(prompt)$\mathbf{c}$,模型根据语言模型 $\pi$ 的概率分布选择最可能的输出 $\mathbf{x}^*$。这是最基础的推理方式,即贪心地选择概率最高的输出。 --- #### • N选最优(Best-of-N,BoN) **核心思想**:从多个独立同分布的生成结果中,选出在给定奖励函数下表现最好的一个。 **步骤**: 1. 从语言模型 $\pi(\cdot \mid \mathbf{c})$ 中采样 $N$ 个序列: $\mathbf{x}_{(1)}, \mathbf{x}_{(2)}, \ldots, \mathbf{x}_{(N)}$ 2. 使用奖励函数 $R(\mathbf{x}, c)$ 评估每个序列。 3. 选择奖励最高的序列作为最终输出。 **数学公式**: $$ \mathbf{x}^* = \operatorname{arg\,max}_{\mathbf{x} \in \{\mathbf{x}_{(1)}, \mathbf{x}_{(2)}, \ldots, \mathbf{x}_{(N)}\}} R(\mathbf{x}, c) $$ (公式 10) **重点说明**: 这种方法通过多采样+排序的方式,可以在不改变模型参数的前提下提升推理质量,尤其适用于有明确奖励函数的任务(如文本生成中使用BLEU、ROUGE等指标作为奖励)。 --- ### 总结 - **提示工程**是直接使用语言模型概率进行最大似然解码。 - **Best-of-N** 则是通过采样多个候选并用奖励函数评估,选出最优解,适用于有外部评估标准的场景。 - 两者都是**测试时推理策略**,不涉及模型训练或参数更新。 ## Appendix C Theoretical Analysis ## 附录 C 理论分析总结 ### C.1 预备知识:多证明者交互证明与 NEXP 本节介绍了**多证明者交互证明(MIP)**和**NEXP**的基本概念,为后续理论分析提供基础。 #### 定义 C.1(多证明者交互) 描述了验证者 $ V $ 与多个证明者 $ P_1, P_2, \ldots, P_k $ 之间的交互过程。每个证明者在每轮中根据验证者的问题 $ q_{ij} $ 提供回答 $ a_{ij} $,验证者根据这些回答决定最终输出 $ v $。 #### 定义 C.2(k-MIP) 语言 $ L \in k\text{-MIP} $,如果存在一个多项式时间验证者 $ V $,满足以下条件: - **效率性**:通信轮数和消息长度为多项式级别。 - **完备性**:若 $ x \in L $,存在一组证明者使得验证者接受的概率 $ \geq 2/3 $。 - **可靠性**:若 $ x \notin L $,任何证明者组合使得验证者接受的概率 $ \leq 1/3 $。 #### 定义 C.3(MIP) MIP 是所有 $ k\text{-MIP} $ 的并集。 #### 定义 C.4–C.6(NTIME、NP、NEXP) - **NTIME**:非确定图灵机在时间 $ T(n) $ 内能解决的语言类。 - **NP**:多项式时间非确定图灵机可验证的语言类。 - **NEXP**:指数时间非确定图灵机可验证的语言类。 > **重点**:MIP 与 NEXP 等价(后续定理 C.13 会说明),这为理解 LatentSeek 的表达能力提供了理论基础。 --- ### C.2 理论分析:独立更新 本节分析了 LatentSeek 中**潜在变量独立更新**的表达能力,尽管变量之间相互独立,但其理论表达能力依然强大。 #### 核心思想 - LatentSeek 的更新机制类似于 MIP 模型,其中每个 token 的更新相当于一个“证明者”。 - 不同于 MIP 中证明者可输出任意长度字符串,LatentSeek 中每个 token 输出长度受限(即“MIP-Bounded”)。 #### 定义 C.7(多证明者交互) 与定义 C.1 相同,用于描述交互过程。 #### 定义 C.8(MIP-Bounded) 语言 $ L \in \text{MIP-Bounded} $,如果存在验证者 $ V $ 和多项式函数 $ \text{poly}(\cdot) $,满足: - **有界性**:每个证明者的输出长度不超过常数 $ C $。 - **完备性与可靠性**:与 MIP 类似,接受概率分别为 $ \geq 2/3 $ 和 $ \leq 1/3 $。 #### 定理 C.10 > **MIP-Bounded = MIP** 说明即使每个 token 的输出长度受限,其表达能力仍等价于标准 MIP,即具有强大的理论表达能力。 #### 推论 C.11 > **NP ⊂ NEXP = MIP-Bounded** 说明 LatentSeek 所属的复杂度类(MIP-Bounded)包含 NP,并等价于 NEXP,意味着其具有解决复杂决策问题的能力。 --- ### C.3 定理 C.10 与推论 C.11 的证明 #### 定理 C.12(重复定理 C.10) > **MIP-Bounded = MIP** **证明思路**: 1. **MIP ⊆ MIP-Bounded**: - 将 MIP 中两个证明者的输出拆分为多个受限输出(每个长度为常数 $ C $)。 - 通过构造足够多的“受限证明者”,模拟原 MIP 的交互过程。 2. **MIP-Bounded ⊆ MIP**: - 将多个受限证明者的输出合并为两个证明者(奇数和偶数编号)。 - 通过截断机制确保输出长度不超过限制,从而模拟 MIP-Bounded 的行为。 #### 定理 C.13(Babai et al., 1990) > **MIP = 2-MIP = NEXP** 说明 MIP 的表达能力等价于两个证明者的情况,并且等价于 NEXP。 #### 推论 C.15(重复推论 C.11) > **NP ⊂ NEXP = MIP-Bounded** 进一步确认了 LatentSeek 的理论表达能力,其复杂度类强于 NP,属于 NEXP,说明其具有处理复杂问题的潜力。 --- ## 总结 | 章节 | 内容概要 | 重点 | |------|----------|------| | C.1 | 介绍 MIP 和 NEXP 的定义与关系 | MIP = NEXP,为后续分析提供理论基础 | | C.2 | 分析 LatentSeek 的独立更新机制 | 提出 MIP-Bounded 模型,证明其等价于 MIP | | C.3 | 证明 MIP-Bounded = MIP | 通过构造性证明,说明受限输出不影响表达能力 | > **核心结论**:LatentSeek 虽然采用独立更新机制,但其理论表达能力等价于 MIP/NEXP,具备解决复杂决策问题的能力。 ## Appendix D Derivation of Policy Gradient ## 附录 D 策略梯度的推导 本节的目标是推导出论文中给出的公式(公式7): $$ [\nabla_{\mathbf{z}}\mathcal{J}(\mathbf{z})]_{t} = \mathbb{E}_{\mathbf{x} \sim \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c})}\left[R(\mathbf{x}, \mathbf{c}) \nabla_{z_{t}}\log\pi(x_{t} \mid z_{t})\right] $$ ### 1. 初始目标函数 目标函数定义为: $$ \mathcal{J}(\mathbf{z}) := \mathbb{E}_{\mathbf{x} \sim \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c})}[R(\mathbf{x}, \mathbf{c})] $$ 即:在给定潜变量 $\mathbf{z}$ 和上下文 $\mathbf{c}$ 的条件下,对奖励函数 $R(\mathbf{x}, \mathbf{c})$ 求期望。 ### 2. 对 $\mathbf{z}$ 求梯度 对目标函数 $\mathcal{J}(\mathbf{z})$ 关于 $\mathbf{z}$ 求梯度,得到: $$ \nabla_{\mathbf{z}}\mathcal{J}(\mathbf{z}) = \nabla_{\mathbf{z}} \int_{\mathbf{x}} R(\mathbf{x}, \mathbf{c}) \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c}) d\mathbf{x} = \int_{\mathbf{x}} R(\mathbf{x}, \mathbf{c}) \nabla_{\mathbf{z}} \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c}) d\mathbf{x} $$ ### 3. 利用对数导数技巧 利用恒等式: $$ \nabla_{\mathbf{z}} \log \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c}) = \frac{1}{\pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c})} \nabla_{\mathbf{z}} \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c}) $$ 代入后得到: $$ \nabla_{\mathbf{z}}\mathcal{J}(\mathbf{z}) = \int_{\mathbf{x}} R(\mathbf{x}, \mathbf{c}) \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c}) \nabla_{\mathbf{z}} \log \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c}) d\mathbf{x} $$ 即: $$ \nabla_{\mathbf{z}}\mathcal{J}(\mathbf{z}) = \mathbb{E}_{\mathbf{x} \sim \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c})}[R(\mathbf{x}, \mathbf{c}) \nabla_{\mathbf{z}} \log \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c})] $$ ### 4. 利用策略的分解形式 根据策略的分解形式: $$ \pi(\mathbf{x} \mid \mathbf{z}, \mathbf{c}) = \prod_{t=1}^{N} \pi(x_{t} \mid z_{t}) \prod_{t=N+1}^{T} \pi(x_{t} \mid x_{