# 2308.10144_ExpeL: LLM Agents Are Experiential Learners * 首页: * PDF: * 引用: 300(2025-08-09) * 作者: 无 - 项目页:[https://andrewzh112.github.io/expel](https://andrewzh112.github.io/expel) - GitHub 代码库:[https://github.com/LeapLabTHU/ExpeL](https://github.com/LeapLabTHU/ExpeL) * Expel: Experience Learning ## From Deepseek ### **论文背景与核心思想** 该论文探讨了大语言模型(LLM)智能体通过**经验学习(Experiential Learning)**提升任务执行能力的方法。传统LLM在复杂任务中依赖静态知识或少量示例(few-shot),而**ExpeL**提出通过自主积累**动态经验**(如成功/失败的任务轨迹)来持续改进性能,无需人工干预或额外训练。 ### **关键创新点** 1. **自主经验收集**: LLM智能体在任务尝试中自动记录详细经验(包括环境状态、动作、结果),形成可复用的任务解决范例。 2. **经验库(Experience Library)**: 结构化存储历史经验,支持高效检索。通过分析相似案例,智能体可快速适配新任务,避免重复错误。 3. **经验驱动的推理与规划**: 在遇到新任务时,智能体从经验库中提取相关案例,生成更可靠的解决方案,显著减少幻觉(hallucination)。 ## Abstract 本文探讨了**将大语言模型(LLMs)应用于决策任务**的研究增长。随着研究兴趣的增加,LLMs 中嵌入的丰富世界知识被广泛用于提升决策任务的性能。然而,**定制化 LLM 以适应特定任务存在两个主要问题**: 1. **微调模型代价高昂**,并且可能影响模型的泛化能力; 2. **最先进的模型如 GPT-4 和 Claude 仅通过 API 接口提供**,其模型权重未公开。 这两个问题凸显了**一种新方法的需求**:**无需更新模型参数即可从智能体经验中学习**。为此,作者提出了**经验学习智能体(ExpeL Agent)**。该智能体能够**自主收集经验并利用自然语言提取知识**,在推理阶段**通过反思过往经验做出更优决策**。 实验结果表明,**ExpeL 的学习效果显著增强**,其性能随着经验的积累而不断提升。作者还通过定性观察和额外实验,**探索了 ExpeL 的新兴能力及其在迁移学习中的潜力**。 --- ### 图片与引用总结 文中引用了 Tom Mitchell 对机器学习的经典定义: > **“如果一个计算机程序在某个任务集合 T 上的表现(由性能指标 P 衡量)随着经验 E 的增加而提高,那么它就被称为从经验 E 中学习。”** ![](https://img.zhaoweiguo.com/uPic/2025/08/pCG3EB.png) Figure 1:ExpeL Agent Overview. - **左侧流程**分为三个阶段: 1. **经验收集**:收集成功和失败经验; 2. **知识提取**:从经验中抽象出跨任务的通用知识; 3. **经验应用**:在评估任务中应用学到的见解并回忆成功经验。 - **右侧说明**了关键机制: - **(A)** 通过 **Reflexion** 实现经验收集,智能体在失败后进行自我反思并重新尝试任务; - **(B)** **见解提取过程**:根据成功/失败经验对现有见解列表进行动态更新,支持 ADD、UPVOTE、DOWNVOTE 和 EDIT 操作,重点在于**提取常见失败模式或最佳实践**。 --- ### 总结重点 - **研究背景**:LLMs 在决策任务中的应用快速增长,但存在微调成本高和模型权重不可访问的问题。 - **核心贡献**:提出 ExpeL 智能体,不依赖模型微调,从经验中自主学习,提升性能和泛化能力。 - **方法创新**:采用经验收集与反思机制,结合自然语言处理抽取见解,并通过动态更新机制增强智能体的知识库。 - **实验验证**:性能随经验积累而提升,具备迁移学习潜力。 **关键词**:大语言模型(LLM)、决策任务、经验学习、ExpeL 智能体、无需微调学习。 ## 1 Introduction **本节概述了将大语言模型(LLM)与自主智能体结合的研究背景,并提出了本文的核心贡献——ExpeL 智能体。** --- ### 背景介绍 近年来,研究者将**大语言模型**(Large Language Models, LLM)引入自主智能体(autonomous agents),取得了诸多实际应用的进展。LLM 的一大优势在于其**丰富的世界知识**,使得它在多种场景中具有天然的**多功能性**。已有研究表明,LLM 能在多个领域(如科研、工业)中发挥重要作用。 --- ### 当前方法的局限性 目前主要有两类方法用于增强智能体能力: 1. **微调(Finetuning)方法**: - 通过大量环境交互或人工标注数据对 LLM 进行微调。 - 优点:可以显著提升模型在特定任务上的表现。 - 缺点: - 需要**访问模型的参数**,计算成本高。 - 微调可能导致模型**泛化能力下降**(Du et al. 2022)。 - 限制了 LLM 的**多功能性**。 2. **提示(Prompting)方法**: - 通过少量示例(in-context learning)增强 LLM 的**序列决策能力**。 - 优点:不需要修改模型参数,适用于封闭源代码模型(如 GPT-4)。 - 缺点: - 受限于 LLM 的**上下文窗口长度**(context window size)。 - 智能体**无法记住过去经验**,只能通过少量示例学习。 --- ### 本文提出的解决方案:ExpeL 智能体 为了解决上述方法的局限性,本文提出了**ExpeL(Experiential Learning)智能体**: - **自主学习机制**:ExpeL 通过**试错方式**在多个训练任务中积累经验。 - **知识总结与复用**:从这些经验中提炼出**自然语言形式的洞察**,并在测试时将其作为**上下文示例**使用。 - **类比现实学习过程**:类似于学生通过学习积累经验,最终在一次考试中应用所学。 - **关键特性**: - **无需参数更新**,适用于封闭源模型(如 GPT-4、Claude)。 - **跨任务经验复用**:强调**多任务经验积累**的重要性,提升整体性能。 - **数据高效**:不需要大量标注数据或人工干预。 --- ### 实验与贡献 作者通过多个领域的实验验证了 ExpeL 的有效性,并提出了以下**关键贡献**: 1. **提出 ExpeL**:一种**无需梯度更新**的 LLM 智能体,能通过经验自主学习。 2. **广泛评估**:在多种任务中验证了其学习能力和优于现有规划方法的性能。 3. **迁移学习新场景**:展示了 ExpeL 从源任务学习后能对目标任务产生**正向迁移(forward transfer)**。 4. **意外能力**:发现 ExpeL 智能体在训练过程中展现出一些**未预期的能力**。 --- ### 未来展望 作者认为,随着**规划算法**和**基础模型**的进一步发展,ExpeL 的范式将能从中受益,展现出更大的潜力。 ## 2 Related Work 本节讨论了与此工作最相关的研究,并将更详尽的讨论放在附录 [A](https://arxiv.org/html/2308.10144v3#A1 "Appendix A Detailed Related Works ‣ ExpeL: LLM Agents Are Experiential Learners") 中。 --- ### Prompt-based Learning(基于提示的学习) 基于提示的学习通过修改输入上下文来优化标签预测任务,能够在极少数据的情况下快速适应新任务(Liu et al., 2023a)。这种方法无需调整模型参数,利用上下文学习(in-context learning)即可引导大型语言模型(LLMs)生成答案(Brown et al., 2020)。早期的代表性工作包括 LAMA(Petroni et al., 2019)和 GPT-3(Brown et al., 2020),它们推动了这一思路的发展。为了减少提示设计的复杂性,研究者提出了自动推理链等方法(Kojima et al., 2022;Zhang et al., 2023)。与此类似,ExpeL 代理也通过改变执行提示,利用从经验中提取的洞察和自动生成的上下文轨迹来自主学习。 **重点:** ExpeL 代理继承了提示学习的思想,但更进一步地通过经验整合和自动生成的上下文轨迹实现自我学习。 --- ### Retrieval Augmented Generation(RAG,检索增强生成) 检索机制允许 LLM 访问数据库,从而减少幻觉(Li et al., 2022;Wang, Yang, and Wei, 2023;Rubin, Herzig, and Berant, 2022;Liu et al., 2022)。此外,检索也被用于增强决策代理的能力(Humphreys et al., 2022;Zhao et al., 2023a)。与这些研究不同,本文关注的是检索 ExpeL 代理自身生成的经验,从而减少对黄金样本的依赖,并能够利用特定领域的语料库。 **重点:** ExpeL 的检索机制不同于传统 RAG,强调从自身经验中检索,而非依赖外部数据库或标注数据。 --- ### Planning for LLM Agents(LLM 代理的规划) 近年来,LLM 代理在机器人、自然科学、游戏和工作流等领域得到了广泛应用,尤其强调其在 few-shot 场景中的世界知识应用(Ha, Florence, and Song, 2023;Mu et al., 2023;Bran et al., 2023;Boiko, MacKnight, and Gomes, 2023;Yang et al., 2023b;Lin et al., 2023a;Nakano et al., 2021;Wang et al., 2023c;Liu et al., 2023b)。此外,LLM 在多种配置中展示了突出的零样本或少样本规划和推理能力(Sumers et al., 2023),包括具身环境和推理任务(Huang et al., 2022;Yao et al., 2023a;Wei et al., 2022b;Yao et al., 2023b;Gong et al., 2023)。 **重点:** ExpeL 在这些规划能力基础上进一步引入了经验学习机制,使其更适用于动态和复杂任务环境。 --- ### Self-improvement and Memory for LLM Agents(LLM 代理的自改进与记忆) 像 Reflexion 等代理展示了基于反馈的自我改进能力,但通常缺乏跨任务的记忆能力(Shinn et al., 2023)。其他研究则在多代理环境中展示了持久性记忆的潜力(Park et al., 2023;Maas et al., 2023)。ExpeL 代理结合了这两种思路,既具备任务求解能力,又能够利用自动生成的上下文示例和抽象化的记忆洞察进行优化。 **重点:** ExpeL 的创新在于将自改进与记忆机制结合,形成一种经验驱动的智能代理系统。 --- ### 总结 本节综述了与 ExpeL 代理相关的主要研究方向,包括基于提示的学习、检索增强生成、LLM 代理的规划能力以及自改进和记忆机制。ExpeL 在这些研究的基础上,提出了一种基于经验学习的新方法,强调通过自动生成的上下文轨迹和记忆洞察实现代理的自我优化。 ## 3 Preliminaries ### 复杂交互任务 本研究探讨的是复杂交互任务。在每一步时间步 $i \in \{0, \dots, H\}$,智能体接收一个观察 $o \in \mathcal{O}$,并基于其观察历史 $H_t$ 选择一个动作 $a \in \mathcal{A}$。智能体的目标是完成某个目标 $g \in \mathcal{G}$。本文仅考虑确定性环境。 **重点**: - 智能体在每一步决策时依赖于历史观察。 - 任务的目标性明确,且环境是确定性的,即相同输入始终产生相同输出。 --- ### 大语言模型 大语言模型(LLM)是用于建模自然语言的统计模型,通常为神经网络。本文中使用的是**自回归语言模型**,例如 OpenAI、Brown 等人、Touvron 等人以及 Chowdhery 等人提出的模型。此类模型根据已有的 token 序列 $\mathbf{x} = \{x_1, x_2, \dots, x_{l-1}\}$,预测下一个 token 的概率 $p(x_l \mid x_{