# 2603.18743_Memento-Skills: Let Agents Design Agents


* 首页: <https://arxiv.org/abs/2603.18743>
* PDF: <https://arxiv.org/pdf/262603.18743>
* 引用: 
* 组织: Memento-Team


## 总结

### 一、 文献背景、研究目的与核心问题

**研究背景：**
当前基于大语言模型（LLM）的智能体在部署后，其模型参数通常是“冻结”的。这意味着它们无法从新遇到的错误或部署经验中持续学习。传统的微调或强化学习需要海量的算力和数据，成本极高，且容易发生“灾难性遗忘”。

**研究目的：**
本文旨在打破“必须修改模型参数才能提升能力”的传统范式，赋予冻结的LLM一种**“部署时持续学习”**的能力，使其能够像人类一样，通过积累经验（记忆）来不断优化自身行为。

**核心问题：**
如何设计一个系统，让LLM在不进行梯度下降（不重新训练）的情况下，能够自主创建、优化和复用解决特定任务的“技能”，从而实现智能体的自我进化？

---

### 二、 研究方法、关键数据、主要发现及结论

#### 1. 研究方法：Read–Write Reflective Learning（读写反思学习）
Memento-Skills 将强化学习中的“策略迭代”概念外化为一套对“外部记忆库”的读写操作循环：
*   **Read（读取 / 策略改进）：** 当遇到新任务时，系统通过一个**行为对齐的技能路由器**，从技能库中检索最相关的“技能”（以结构化的Markdown和代码文件形式存在），作为上下文输入给冻结的LLM。
*   **Act & Feedback（执行与反馈）：** LLM执行该技能，并由评判模型给出成功或失败的反馈。
*   **Write（写入 / 策略评估与进化）：** 如果执行失败，系统会进行“故障归因”，直接修改、优化现有技能文件，或者发明全新的技能存入库中。

#### 2. 关键技术创新：行为对齐的路由器
传统的检索方法（如基于词频的BM25或基于语义的向量Embedding）只关注“文本是否相似”，而忽略了“执行起来是否有效”。
为此，研究团队利用**单步离线强化学习**训练了一个检索模型。通过合成大量正负样本，让路由器学会预测“哪个技能能真正带来执行成功”，从而将检索过程转化为求解KL正则化的玻尔兹曼策略。

#### 3. 关键数据与主要发现
实验在两个高难度基准测试 **GAIA**（通用AI助手）和 **HLE**（人类最后一场考试）上进行：
*   **显著的性能提升：** 在GAIA上，测试集准确率从基线的52.3%提升至66.0%（+13.7%）；在HLE上，准确率从17.9%飙升至38.7%（相对提升116.2%）。
*   **技能库的自我扩张：** 系统从初始的5个基础技能（如网页搜索、终端操作），在GAIA学习后自主生成了41个技能，在HLE学习后自主生成了235个技能，并自动聚类成了物理、数学、临床等不同领域的专家技能簇。
*   **跨任务迁移的条件：** 实验发现，技能的跨任务迁移高度依赖于“领域对齐”。HLE具有明确的学科分类，因此技能复用率极高；而GAIA问题过于发散，跨任务迁移效果较弱。

#### 4. 结论
Memento-Skills 成功证明了：**持续学习不一定非要发生在模型权重中。** 通过构建一个不断进化、自我纠错的外部“技能记忆库”，冻结的LLM同样可以实现能力的持续迭代与泛化。

---

### 三、 新颖概念通俗易懂的解释

为了理解这篇论文的逻辑与创新，我们需要掌握以下几个核心概念：

**1. Agent-designing Agent（设计智能体的智能体）**
*   *通俗解释：* 传统的AI就像是一个只会做固定几道菜的厨师。而本文的AI是一个“能写菜谱的厨师”。当它遇到没做过的菜时，它会自己尝试，如果做砸了，它会总结经验写出一套全新的、正确的“菜谱（技能文件）”存起来。下次再遇到类似需求，它直接照着自己写的完美菜谱做。它通过给自己写工具，完成了自我进化。

**2. Stateful Reflective Decision Process (SRDP / 有状态反思决策过程)**
*   *通俗解释：* 传统的LLM是“金鱼记忆”，每次对话都是全新的。SRDP相当于给LLM外接了一个“经验笔记本”。这个笔记本不仅记录发生过什么，还记录着提炼好的“行动指南”。状态不再仅仅是当前输入，而是“当前输入 + 历史沉淀的经验库”。

**3. Behaviour-aligned Skill Router（行为对齐的技能路由器）**
*   *通俗解释：* 假设你在图书馆找书。传统检索是“通过书名找书”（语义相似）。但有时候书名很像，内容却没用。行为对齐的路由器就像是一个“不仅看过书名，还实际做过书里练习题的图书管理员”。它能根据“这本书到底能不能帮你解决眼下的问题（行为成功与否）”来给你推荐，而不是仅仅看字面意思。

---

### 四、 文献优缺点评价与后续研究方向

#### 优点
1.  **极高的工程与落地价值：** 完全避免了昂贵的LLM微调成本。企业可以直接通过沉淀“技能文件”来让AI客服或AI员工越用越聪明，即插即用。
2.  **理论严谨：** 论文并没有停留在启发式的工程堆砌上，而是将整个读写循环严格映射到了马尔可夫决策过程（MDP）和策略迭代中，并给出了收敛性证明，具有坚实的理论基础。
3.  **出色的可解释性：** 相比于神经网络中不可见的“黑盒权重”，Memento-Skills 的知识存储在人类可读的 Markdown 文件和代码中。当AI犯错时，工程师可以直接打开“技能库”查看它学到了什么，甚至手动修改。

#### 缺点
1.  **对底层LLM基座能力的强依赖：** 虽然不需要训练底层模型，但如果底层模型（如文中所用的Gemini-3.1-Flash）本身缺乏足够的代码编写或反思能力，Write阶段生成的新技能可能会充满错误，导致“错误累积”。
2.  **技能库的长期维护问题：** 随着时间推移，技能库可能会膨胀到成千上万个。如何进行“技能遗忘”、“技能合并”以及避免技能之间的逻辑冲突，论文尚未给出完善的解决方案。
3.  **领域迁移的局限性：** 正如实验所示，如果遇到高度发散、毫无关联的任务（如GAIA），系统很难进行有效的技能复用，这限制了其在完全开放世界的表现。

#### 后续研究方向
1.  **技能的自动压缩与生命周期管理：** 研究如何让系统自动识别过时的技能、合并重复的技能，或者在解决复杂任务时动态组合多个基础技能。
2.  **多智能体技能共享市场：** 探索不同的 Memento-Skills 实例（在不同场景下工作的AI）如何安全地共享、交易它们自主发明的技能，形成一个去中心化的“AI技能生态系统”。
3.  **安全与沙盒机制：** 由于AI可以自主编写并执行代码（技能），未来的研究需要建立更严格的沙盒隔离和自动化安全验证机制，防止AI在“试错学习”过程中对真实环境造成破坏。