2512.18746_MemEvolve: Meta-Evolution of Agent Memory Systems¶

首页: https://arxiv.org/abs/2512.18746
PDF: https://arxiv.org/pdf/2512.18746.pdf
引用:
- 0(2026-01-09)
组织:
- OPPO AI Agent Team, LV-NUS lab

总结¶

一、文献背景、研究目的与核心问题¶

1. 研究背景 随着大语言模型智能体的飞速发展，记忆系统已成为决定Agent能否在复杂环境中持续进化、积累经验的核心组件。现有的Agent记忆系统（如将轨迹转化为文本提示、提炼可复用工具等）虽然能让Agent像“熟练工”一样从经验中学习，但其底层架构（如何编码、存储、检索经验）都是静态且人工预设的。

2. 核心问题 作者指出，不存在一种万能的、静态的记忆架构能够适应所有任务。例如，提炼API的记忆架构适合网页浏览，但在数学推理中效果不佳。当前Agent面临的核心困境是：记忆系统帮助Agent进化，但记忆系统自身却无法进化。

3. 研究目的 为了打破这一瓶颈，本文旨在让Agent从“熟练学习者”进化为**“自适应学习者”——不仅能在环境中积累经验，还能根据任务反馈自动调整和优化自身的记忆架构**（即“元进化”），从而实现更高效、更通用的智能进化。

二、研究方法、关键数据与主要发现¶

1. 研究方法：MemEvolve 框架与 EvolveLab 代码库¶

为了实现记忆架构的自动进化，作者提出了一个双层优化框架和一个统一的设计空间：

EvolveLab：模块化的记忆设计空间 作者将任何复杂的记忆系统抽象为四个核心模块（即记忆的“基因”）：
- ♣ Encode（编码）：将原始交互轨迹转化为结构化经验。
- ♦ Store（存储）：将经验存入数据库（如向量库、JSON、知识图谱）。
- ♥ Retrieve（检索）：根据当前任务提取相关记忆。
- ♠ Manage（管理）：进行记忆的合并、遗忘或更新。
MemEvolve：双层元进化机制
- 内循环（经验进化，一阶）：Agent使用固定的记忆架构执行任务，积累经验数据，并生成表现反馈（任务成功率、Token消耗、延迟）。
- 外循环（架构进化，二阶）：基于内循环的反馈，通过**“诊断与设计”**机制优化记忆架构。系统会诊断当前架构的瓶颈（如检索失败、抽象无效），然后利用LLM自动修改四个模块的代码，生成新的记忆架构变体，保留表现最优的架构进入下一轮迭代。

2. 关键数据与实验设置¶

基准测试：在 GAIA, WebWalkerQA, xBench-DS, TaskCraft 四个高难度Agent基准上进行了评估。
基座模型：主要使用 GPT-5-mini，并在 Kimi K2 和 DeepSeek V3.2 上测试泛化性。
底层框架：将 MemEvolve 接入 SmolAgent 和 Flash-Searcher 等主流框架进行测试。

3. 主要发现与结论¶

性能显著提升：MemEvolve 为 SmolAgent 和 Flash-Searcher 带来了高达 17.06% 的性能提升。在 GAIA 基准上，其 pass@3 达到了 80.61%，超越了众多强大的多智能体系统。
强大的泛化能力：
- 跨任务：在 TaskCraft 上进化出的记忆系统，零样本迁移到 WebWalkerQA 和 xBench-DS 上依然能带来稳定增益。
- 跨模型与跨框架：使用 GPT-5-mini 进化出的记忆架构，直接迁移给 Kimi K2 或接入腾讯 CK-Pro 等异构框架，依然能显著提升表现。
成本效益：与现有的静态记忆系统（如 ExpeL, AWM）相比，MemEvolve 在大幅提升性能的同时，并未显著增加 API 成本和执行延迟。

三、新颖概念通俗解释与创新点剖析¶

为了更好地理解本文的逻辑，这里对几个核心创新概念进行通俗解释：

1. 从“熟练工”到“自适应学霸”（核心隐喻）

普通Agent：做错题只看答案（无记忆）。
带静态记忆的Agent（熟练工）：做错题会记在错题本上，但记笔记的方法（比如只抄题、不总结）是死板的，遇到换科目就不管用了。
MemEvolve（自适应学霸）：不仅记笔记，还会反思记笔记的方法。发现数学题靠“总结公式”有用，就自动把记忆系统调整为“公式提取”；发现历史题靠“死记硬背”有用，就调整为“原文存储”。这就是“元进化”。

2. 记忆系统的“基因重组”（EvolveLab 的 4 个模块） 作者把记忆系统拆解为 Encode, Store, Retrieve, Manage。这就像把汽车拆成发动机、底盘、变速箱。MemEvolve 在外循环中就像一个AI汽车工程师，发现车子（Agent）跑不快是因为变速箱（Retrieve 检索模块）不行，就专门重写检索模块的代码，进行“硬件升级”，而不是像以前的研究那样只在油箱里加好油（积累经验）。

3. Diagnose-and-Design（诊断与设计） 这是 MemEvolve 能自动进化的绝招。系统不仅看分数，还会去“看录像回放”（分析执行轨迹），诊断出是“记忆太长导致LLM分心”还是“没提取出可用工具”，然后对症下药，自动编写新的 Python 代码来替换掉表现不佳的记忆模块。

四、客观评价与后续研究方向¶

1. 优点¶

视角的降维打击：跳出了“如何设计一个更好的静态记忆架构”的内卷红海，提出了“让记忆架构自己进化”的元学习新范式，具有极高的启发性。
工程与科研的双重贡献：开源的 EvolveLab 统一了12种主流记忆系统的代码接口，为学术界提供了一个标准化的测试床，极大地降低了后续研究的门槛。
即插即用与泛化性：证明了通过自动搜索发现的记忆架构，不仅限于单一任务或单一模型，而是具备跨框架的普适增益能力。

2. 缺点与局限性¶

进化成本高昂：双层优化（尤其是外循环需要多次运行任务、调用LLM诊断并重写架构代码）在初期需要消耗大量的 API Token 和计算时间，对于资源受限的开发者不够友好。
依赖强大的基座模型：让系统自动“修改代码架构”并“诊断错误”高度依赖 GPT-5-mini 等前沿模型的代码生成与逻辑推理能力，若在开源小模型上运行，外循环的进化可能会产生大量无效或报错的架构代码。

3. 后续研究方向¶

降低进化成本：探索如何利用少量样本或强化学习（RL）来模拟外循环的反馈，减少架构搜索过程中的真实环境交互次数。
多模态记忆进化：当前主要处理文本和代码轨迹，未来可探索如何自动进化处理图像、视频等多模态信息的记忆架构。
终身元进化：目前的进化在特定阶段停止，未来可研究在Agent部署后，面对完全未知的现实世界分布偏移时，如何持续、安全地进行在线架构微调。

From Moonlight¶

三句摘要¶

💡 针对大型语言模型(LLM)智能体记忆系统无法随任务上下文动态调整其架构的局限性，本文提出了MemEvolve元进化框架。
⚙️ MemEvolve通过双层优化过程，联合进化智能体的经验知识和记忆架构，并借助EvolveLab将记忆系统分解为Encode、Store、Retrieve和Manage四个可演化模块。
📈 在四项挑战性基准测试中，MemEvolve显著提升了智能体性能，并展现出强大的跨任务、跨LLM及跨框架泛化能力，其自动进化的记忆系统在实践中表现高效。

Figure 2 The paradigm of agent self-evolution admits a natural analogy to human learning.

Figure 3 The overview of our proposed MemEvolve.

关键词¶

MemEvolve: MemEvolve 是一个元进化框架，它能够同时进化智能体的经验知识和其底层的记忆系统架构。该框架旨在解决当前记忆系统静态的局限性，使记忆系统不仅能够积累经验，还能逐步优化学习经验的机制，从而适应不同的任务上下文，实现更优异的性能和泛化能力。
EvolveLab: EvolveLab 是一个统一的、模块化的代码库和设计空间，它将十二种代表性的自进化记忆系统提炼为四个核心组件：编码（Encode）、存储（Store）、检索（Retrieve）和管理（Manage）。EvolveLab 提供了一个标准化的实现基础和公平的实验平台，用于研究自进化记忆系统，并为 MemEvolve 的进化过程提供了支持。
Meta-evolution: 元进化（Meta-evolution）是 MemEvolve 框架的核心概念。它指的是一个双层级的进化过程：下层循环（内循环）是智能体在固定记忆架构下积累经验并优化其知识基础，而上层循环（外循环）则是在此基础上，对记忆系统本身的架构（如编码、存储、检索、管理策略）进行“元级”的进化和优化，以加速未来的学习过程。
Agent memory systems: 智能体记忆系统（Agent memory systems）是指能够持续捕获智能体与环境交互信息，并将其提炼为知识和技能的系统。这些系统使基于大型语言模型（LLM）的智能体能够不断地在任务解决和环境探索中自我进化。论文主要关注其中的“自进化记忆系统”（self-improving memory systems），这些系统旨在通过持续交互来提升智能体的性能。
Modular design space: 模块化设计空间（Modular design space）是将复杂的记忆系统分解为四个功能独立但相互关联的核心组件的抽象框架：编码（Encode）、存储（Store）、检索（Retrieve）和管理（Manage）。这种模块化设计使得研究人员能够系统地分析、实现和进化各种记忆架构，为 MemEvolve 的元进化过程提供了结构化的基础。
Encode: 编码（Encode）是模块化记忆设计空间中的一个组件。它的作用是将原始经验（如轨迹片段、工具输出、自我批评等）转化为结构化的表示形式，以便存储和后续处理。编码过程的复杂性可以从简单的原始轨迹压缩到提取可泛化的经验教训。
Store: 存储（Store）是模块化记忆设计空间中的一个组件。它的作用是将编码后的经验信息整合到持久化的记忆库中。存储方式可以多种多样，例如向量数据库、知识图谱或其他数据结构。
Retrieve: 检索（Retrieve）是模块化记忆设计空间中的一个组件。它的作用是根据任务的上下文、查询和当前状态，从记忆库中查找并返回相关的记忆内容。检索到的信息用于指导智能体的策略决策。
Manage: 管理（Manage）是模块化记忆设计空间中的一个组件。它负责执行离线和异步的操作，例如记忆的巩固、抽象或选择性遗忘，以维持记忆库的长效质量和效率。
Dual-evolution process: 双进化过程（Dual-evolution process）是 MemEvolve 框架的核心机制。它包含两个嵌套的循环：内循环（Experience Evolution）负责在给定的记忆架构下，智能体通过与环境交互来填充和更新其记忆状态（经验知识）；外循环（Architectural Evolution）则基于内循环的性能反馈，对记忆架构本身进行进化和优化。这个过程实现了经验知识和记忆架构的共同进化。
Memory architecture: 记忆架构（Memory architecture）是指智能体记忆系统的组织结构和功能组件（如编码、存储、检索、管理策略的具体实现方式）。与传统的固定记忆架构不同，MemEvolve 框架能够通过元进化过程动态地设计和优化记忆架构，使其更能适应特定的任务或环境。
Adaptive learner: 自适应学习者（Adaptive learner）是论文中用来类比 MemEvolve 目标的一个概念。它指的是人类学习者不仅能够积累经验（像熟练学习者），还能动态地调整其学习策略和方法，根据学习内容的特点选择最有效的学习方式。MemEvolve 的目标就是让智能体记忆系统能够实现这种自适应学习能力。
Diagnose-and-Design Evolution: 诊断与设计进化（Diagnose-and-Design Evolution）是 MemEvolve 元进化（外循环）的具体实现方式。它包含两个阶段：首先，“诊断”阶段会分析高性能记忆系统的失败模式和瓶颈；然后，“设计”阶段基于诊断结果，在模块化设计空间内，通过修改特定组件（编码、存储、检索、管理）来生成新的、经过改进的记忆架构。

摘要¶

《MemEvolve: Meta-Evolution of Agent Memory Systems》提出了一种元演化框架MemEvolve，旨在解决大型语言模型（LLM）代理记忆系统静态性带来的局限性。现有记忆系统虽然能帮助代理从经验中学习并演化，但其自身的架构是固定的，无法根据任务上下文进行自适应调整。MemEvolve通过共同演化代理的经验知识及其记忆架构，使代理系统不仅能积累经验，还能逐步优化其学习方式。

该研究将自演化记忆系统分解为四个模块化组件：♣ Encode（感知和格式化经验）、♦ Store（存储信息）、♥ Retrieve（上下文感知检索）和♠ Manage（整合和遗忘）。为支持MemEvolve，作者引入了EvolveLab，一个统一的自演化记忆代码库，将十二种代表性记忆系统归纳为上述模块化设计空间，提供了标准化的实现基础和公平的实验环境。

核心方法：MemEvolve的元演化过程

MemEvolve的核心是一个双层优化过程：

内层循环（经验演化）： 对于每个候选记忆系统 $\Omega^{(k)}_j$ (在第k次演化迭代中)，代理在固定记忆系统指导下适应新的任务流。记忆状态 $M^{(k)}_{t,j}$ 从空记忆开始，并通过与环境和任务经验的交互进行更新： $$M^{(k)}_{t+1,j} = \Omega^{(k)}_j(M^{(k)}_{t,j}, \epsilon_\tau), \quad \epsilon_\tau \in E^{(k)}_j(\tau)$$ 其中 $E(\cdot)$ 是经验提取操作符，将轨迹 $\tau$ 映射到经验单元集合。代理使用 $\Omega^{(k)}_j$ 在任务批次 $T^{(k)}_j$ 上执行，生成每个轨迹 $\tau$ 的反馈向量 $f_j(\tau) \in \mathbb{R}^3$，包含任务成功率、token消耗和延迟。通过聚合操作符 $S$，总结出每个候选记忆系统的内层循环结果： $$F^{(k)}_j = S(\{f_j(\tau)\}_{\tau \in T^{(k)}_j})$$
外层循环（架构演化）： 根据内层循环的结果 $\{F^{(k)}_j\}_{j \in J^{(k)}}$ 更新记忆架构集合。元演化操作符 $F$ 选择高性能候选者并提出新的变体，生成下一迭代的候选集： $$\{\Omega^{(k+1)}_{j'}\}_{j' \in J^{(k+1)}} = F(\{\Omega^{(k)}_j\}_{j \in J^{(k)}}, \{F^{(k)}_j\}_{j \in J^{(k)}})$$ 具体来说，操作符 $F$ 包含两个协调组件：
- 架构选择 (Architectural Selection)： 根据每个候选记忆系统的摘要向量 $F^{(k)}_j \triangleq (\text{Perf}^{(k)}_j, -\text{Cost}^{(k)}_j, -\text{Delay}^{(k)}_j)$ 进行排序。首先通过Pareto非支配排序获得Pareto排名 $\rho^{(k)}_j$，然后在同一Pareto排名内按主要性能指标 $\text{Perf}^{(k)}_j$ 进一步排序。选择前 K 个候选者作为父代集合 $P^{(k)}$。
- 诊断与设计演化 (Diagnose-and-Design Evolution)： 对于每个父代架构 $\Omega^{(k)}_p \in P^{(k)}$，通过两阶段过程生成 $S$ 个后代 $\Omega^{(k+1)}_{p,s}$：
  - 诊断 (Diagnosis)： 使用来自执行批次 $T^{(k)}_p$ 的轨迹级别证据检查每个父代架构。代理提供结果统计信息（如成功指标、token成本）和结构化的任务查询描述。通过回放接口检查记忆行为，识别检索失败、无效抽象或存储效率低下等架构瓶颈，生成缺陷概况 $D(\Omega^{(k)}_p)$，描述在四个记忆组件 (E, U, R, G) 上的瓶颈。
  - 设计 (Design)： 根据缺陷概况 $D(\Omega^{(k)}_p)$，通过修改模块化接口中允许的实现点来构建重新设计的架构，生成 $S$ 个变体： $$\Omega^{(k+1)}_{p,s} = \text{Design}(\Omega^{(k)}_p, D(\Omega^{(k)}_p), s), \quad s \in \{1, \dots, S\}$$ 这些变体在编码策略、存储规则、检索约束或管理策略上有所不同。

通过迭代这个双重演化过程，代理不仅仅是在固定记忆系统中积累经验；记忆库和管理记忆的架构共同演化，从而随着时间推移产生更具适应性和资源意识的记忆驱动行为。

实验评估

研究在四个挑战性代理基准测试上进行了广泛评估：GAIA、WebWalkerQA、xBench-DeepSearch (xBench-DS) 和 TaskCraft。结果显示：

显著的性能提升： MemEvolve使得Flash-Searcher和SmolAgent等框架的性能提升高达17.06%。
强大的跨任务和跨LLM泛化能力： 在TaskCraft上演化出的记忆架构能够有效地迁移到未见的基准测试和骨干模型上，性能提升2.0%至9.09%。即使是使用GPT-5-Mini演化出的记忆系统，也能在Kimi K2和DeepSeek V3.2等不同LLM骨干上实现性能提升，例如Kimi K2在WebWalkerQA上提升17.06%。
跨框架泛化： MemEvolve发现的框架无关记忆抽象能够直接应用于不同架构的代理系统，如SmolAgent和Flash-Searcher，持续提升性能。
与现有记忆系统的比较： 许多现有的人工设计记忆系统无法提供稳定的性能提升，甚至可能在某些任务上表现不佳。相比之下，MemEvolve在所有测试的基准上都带来了稳定且强大的性能提升（3.54%至5.0%），且未显著增加每次任务的API成本或执行延迟。
记忆演化动力学： MemEvolve能够从如AgentKB或简单Few-shot记忆（如Lightweight）的基线架构演化出高效的记忆系统，这些演化出的记忆系统在实际任务执行中表现出强大的适应性，能够根据任务阶段提供不同粒度的指导，甚至预判信息来源（如图7所示的Lightweight系统）。

贡献

该研究的主要贡献包括：

统一代码库EvolveLab： 提出了一个包含编码、存储、检索、管理四个关键组件的模块化设计空间，并提供了广泛自演化代理记忆系统的统一实现和基准测试支持。
元演化框架MemEvolve： 提出了一个共同演化代理经验知识及其底层记忆架构的元演化框架，使代理系统能够逐步优化其学习机制。
全面的实验评估： 在四个挑战性代理基准上进行了大量实验，证明了MemEvolve的有效性、鲁棒性和泛化能力。