2505.22101_MemOS: An Operating System for Memory-Augmented Generation (MAG) in LLM (Short Version)¶

https://arxiv.org/abs/2505.22101
PDF: https://arxiv.org/pdf/2505.22101
引用次数: 1(2025-08-01)
组织:
- 1MemTensor (Shanghai) Technology Co., Ltd.,
- 2Shanghai Jiao Tong University,
- 3Renmin University of China,
- 4Research Institute of China Telecom
Github: https://github.com/MemTensor/MemOS
Website: https://memos.openmem.net/
Documentation: https://memos-docs.openmem.net/home/overview/

总结¶

简介
- 推出了一个专为 LLM 设计的内存操作系统——MemCube
- 涵盖三种核心内存类型：
  - 参数化内存
  - 激活内存
  - 纯文本内存
- 强调
  - 当前LLM的缺陷是未将记忆视为“explicit, schedulable, and governable” resource
MemOS
- 一个以memory为中心的执行框架
- 解决
  - 长期记忆（如用户画像的持续更新）。
  - 自适应演化（如自动整合新知识并淘汰旧知识）。
  - 跨任务共享（如多智能体间的记忆同步）。
LLM 记忆研究经历了三个主要阶段
- Memory Definition and Exploration stage
  - 如图1所示，按parametric vs. non-parametric and short-term vs. long-term memory分类
    - implicit long-term memory
      - pre-training and adapter-based methods embed knowledge directly into model weights
      - knowledge editing techniques enable targeted post hoc modifications
    - implicit short-term memory
      - KV-caches and hidden states constitute the core of implicit short-term memory,
      - preserving contextual continuity and guiding generation behavior during inference
    - Explicit short-term memory
      - prompt concatenation within the context window
    - Explicit long-term memory
      - external retrieval mechanisms
- Emergence of Human-like Memory
  - 针对长期持久性、情境感知和自我反思进行优化
    - 受人脑启发的架构，例如 HippoRAG 和 Memory 3
    - 支持行为连续性和个性化记忆建模的 PGRAG 和 Second-Me
- Systematic Memory Management
  - 将基于工具的操作与受操作系统启发的治理框架相结合
    - 支持显式内存操作的工具包（例如 EasyEdit 和 Mem0
    - 实现分页上下文管理和模块调用的系统（例如 Letta
Design Philosophy
- 一种支持以记忆为核心的训练范式
  - 将学习和推理统一为一个由记忆驱动的过程，
  - 具备结构化存储、接口调用、生命周期管理、统一调度和版本控制等基础功能。
- 核心目标
  - 通过记忆的重组、迁移和融合，支持LLM的长期能力演进
  - MemOS强调治理机制，通过访问控制、可追溯性和可解释性，确保模型在复杂环境中的安全与合规运行
- 总结
  - 强调以记忆为中心的架构是未来LLM持续演进的关键
  - 并通过统一管理与治理机制，为构建具备长期学习能力的智能系统奠定基础。
三类记忆
- 参数记忆（Parametric Memory）
  - 包括：model weights
  - 支持：pluggable LoRA-based modules
- 激活记忆（Activation Memory）
  - 包括：hidden layer activations, attention weights, and KV-cache structures
- 明文记忆（Plaintext Memory）
  - 包括：documents, knowledge graphs, and prompt templates.
- 关系：
  - 通过启用不同内存类型（例如，激活 → 纯文本、纯文本 → 参数）之间的转换路径
  - MemOS 建立了一个可扩展的内存运行时，将 LLM 从单纯的语言生成器提升为支持内存、自适应且持续演进的代理。
  - 参见：图3

Abstract¶

这篇论文章节的摘要主要总结了以下内容：

大语言模型（LLMs）在通向人工智能通用性（AGI）的道路上起到了基础设施的作用，尽管它们在语言理解和生成方面表现出色，但目前缺乏统一的结构化架构来处理记忆。现有的LLMs主要依赖于参数记忆（模型权重中编码的知识）和短暂的激活记忆（上下文受限的运行时状态）。虽然新兴方法如检索增强生成（RAG）引入了文本记忆，但缺乏生命周期管理和多模态整合，限制了其在长期知识演化上的能力。

为了解决这一问题，作者提出了一种专为LLMs设计的记忆操作系统（MemOS），首次将记忆提升为一种核心的可操作资源。MemOS构建了统一的机制，覆盖三种核心记忆类型——参数记忆、激活记忆和文本记忆的表示、组织与治理。其核心是MemCube，一种标准化的记忆抽象结构，能够对异构记忆进行追踪、融合和迁移，并提供结构化和可追溯的访问方式。MemOS建立了一个以记忆为中心的执行框架，具有强可控性、适应性和演化能力，填补了当前LLM基础设施中的关键空白，并为下一代智能系统的持续适应、个性化智能和跨平台协作奠定了基础。

1 Introduction¶

Figure 1: Memory (Mem) in LLMs.

Figure 1 Memory (Mem) in LLMs.

本章节主要讨论了当前大语言模型（LLMs）在记忆能力方面的不足，并提出了解决方案——MemOS（记忆操作系统）。

首先，文章指出，尽管LLMs被视为迈向通用人工智能（AGI）的重要路径，但它们在记忆能力上仍存在根本性限制。目前大多数模型依赖于隐式的参数化记忆，这类记忆难以解释、更新和迁移。虽然检索增强生成（RAG）引入了外部知识源，但其本质上仍是临时性的文本补丁，缺乏统一的结构化记忆管理机制。

这些架构上的不足导致了四个现实应用中的关键问题：

无法建模长期和多轮对话状态；
对新知识的适应性差；
缺乏对用户偏好和多智能体流程的持续建模；
不同平台间形成“记忆孤岛”，阻碍了交互的复用和迁移。

其根本原因在于：当前LLMs未将记忆视为一种可显式调度和管理的资源。

为了解决这些问题，作者提出了MemOS，这是一个专为LLMs设计的记忆操作系统。MemOS将记忆单元作为操作资源，构建了一个包含记忆生成、组织、使用和演化的完整生命周期。它提供了结构化表示、统一接口、版本控制和访问治理机制，彻底克服了现有系统的记忆处理限制。相比RAG，MemOS是一个可控、可适应、可演化的记忆基础设施，使LLMs能够追踪知识更新、内化用户偏好，并保持跨平台行为的一致性。

总体而言，MemOS代表着语言模型架构的根本转变：从仅能感知和生成的系统，转变为能够记忆、适应和持续进化的智能系统。

2 Memory in Large Language Models¶

本章节“Large Language Models 中的 Memory”总结如下：

该文回顾了大语言模型（LLMs）中“Memory”机制的研究发展历程，并将其划分为三个主要阶段：

Memory Definition and Exploration（记忆的定义与探索）
在这一阶段，研究者对记忆机制进行了分类与分析，主要从参数型与非参数型、短期记忆与长期记忆等维度入手。
- 隐式记忆包括预训练、适配器方法和知识编辑技术，这些方法将知识直接嵌入模型权重中，并允许后期的针对性修改。
- 隐式短期记忆依赖于KV缓存和隐藏状态，用于保持上下文连续性并指导生成过程。
- 显式短期记忆通常通过在上下文窗口内拼接提示实现，但由于上下文长度限制，其应用受限。
- 显式长期记忆借助外部检索机制，尤其是结构化数据形式（如图和树）来提升语义融合和检索效率。
Human-like Memory 的兴起（The Emergence of Human-like Memory）
此阶段的研究开始关注具备长期持久性、上下文感知和自我反思能力的系统。这些系统展现出类似于人类记忆的结构与行为特征。
- 例如，HippoRAG 和 Memory3 等脑启发架构。
- PGRAG 和 Second-Me 等系统则支持行为连续性和个性化记忆建模，表现出更强的模拟人类记忆的能力。
Systematic Memory Management（系统化记忆管理）
在此阶段，研究重点转向基于工具的操作和操作系统（OS）启发的治理框架。
- 工具包如 EasyEdit 和 Mem0 支持对记忆的显式操作。
- 系统如 Letta 引入了分页上下文管理和模块化调用机制。
- 然而，这些系统在统一调度、生命周期管理以及多角色或代理之间的记忆融合方面仍存在不足。

总体而言，LLM 的记忆研究正从基础探索迈向更系统、更智能化的管理方向，但仍面临统一性与扩展性的挑战。

3 MemOS Design Philosophy¶

本章节介绍了MemOS的设计理念，旨在应对当前大语言模型（LLM）在多任务、多角色协作和多模态环境下面临的挑战。随着AGI的复杂性不断提升，传统的语言模型架构已显不足，主要表现在缺乏结构化建模和统一管理的“记忆”系统，无法有效支持知识更新、状态保持和个性化适配。文章提出，未来LLM应将“记忆”视为核心资源，并构建以记忆为中心的执行范式，以实现持续适应和长期推理能力。

作者指出，传统模型能力提升的路径已接近边际效益递减，研究范式正从数据和参数驱动的预训练转向以对齐和微调为核心的后训练阶段，但这仍面临性能提升有限和工程复杂性增加的双重挑战。文章认为，下一阶段的关键突破在于LLM能够持续建模和调度记忆，从而保持上下文一致性、适应新知识，并支持跨任务的迭代优化。

为此，作者提出了MemOS系统原型——一种支持以记忆为核心的训练范式。MemOS将学习和推理统一为一个由记忆驱动的过程，具备结构化存储、接口调用、生命周期管理、统一调度和版本控制等基础功能。其核心目标是通过记忆的重组、迁移和融合，支持LLM的长期能力演进。同时，MemOS强调治理机制，通过访问控制、可追溯性和可解释性，确保模型在复杂环境中的安全与合规运行。

总结：本章节提出MemOS系统的设计理念，强调以记忆为中心的架构是未来LLM持续演进的关键，并通过统一管理与治理机制，为构建具备长期学习能力的智能系统奠定基础。

4 MemOS¶

本章节详细介绍了 MemOS（Memory-Augmented Generation Operating System），这是一个为大型语言模型（LLM）设计的“增强记忆生成操作系统”，旨在系统化地管理LLM在不同任务和场景下的记忆使用，从而提升模型的适应性、可进化性和可控制性。

4.1 MemOS 中的记忆类型¶

MemOS 将记忆分为三类，每类具有不同的表示形式、生命周期和调用机制，共同构成智能体的认知架构：

参数记忆（Parametric Memory）：
- 嵌入模型权重中，通过预训练或微调获得。
- 用于基础语言理解、通用知识和技能模块，支持零样本生成。
- 支持模块化和领域知识的注入，如法律、医学等。
激活记忆（Activation Memory）：
- 推理过程中产生的临时状态，如隐藏层激活、注意力权重等。
- 担任“工作记忆”角色，支持上下文感知、行为调节和任务调度。
- 可演化为结构化片段或参数模块，实现短时记忆的持久化。
明文记忆（Plaintext Memory）：
- 来自外部的显式知识，如文档、知识图谱、提示模板。
- 可编辑、共享、版本控制，用于解决上下文窗口限制和快速知识更新。
- 为多代理协作和知识治理提供基础。

这三种记忆通过 MemCube（记忆立方体） 实现统一调度、生命周期管理和结构融合，形成可控、可演化的记忆空间。

Figure 3:Transformation paths among three types of memory, forming a unified, controllable, and evolvable memory space.

4.2 记忆立方体（MemCube）：核心资源¶

Figure 4:MemCube: a unified abstraction for heterogeneous memory, comprising a metadata header and semantic payload—serving as the smallest execution unit of memory in MemOS.

MemCube 是 MemOS 的基本封装单元，统一异构记忆资源的表示和管理机制。它包含：

描述性元数据（Descriptive Metadata）：
- 标识记忆单元的语义角色，如时间戳、来源签名、语义类型等。
治理属性（Governance Attributes）：
- 控制访问权限、生命周期策略（如TTL、访问频率衰减）、优先级和合规机制（如水印、访问日志）。
行为指标（Behavioral Indicators）：
- 运行时指标（如访问频率、版本线程），用于动态调度和记忆类型转换。

MemCube 支持记忆间的自动转换路径，如：

明文 ⇒ 激活
激活/明文 ⇒ 参数
参数 ⇒ 明文

具备自我感知和持续适应能力，是 MemOS 的最小执行单元。

4.3 MemOS 架构¶

Figure 5:Overview of the MemOS architecture: showing the end-to-end memory lifecycle from user input to API parsing, scheduling, activation, governance, and evolution—unified via MemCube.

MemOS 采用模块化的三层架构，形成一个闭环的记忆治理框架：

接口层（Interface Layer）：
- 系统入口，解析用户输入，调用记忆 API。
- 内置 MemReader 组件，将自然语言请求转换为结构化操作链。
操作层（Operation Layer）：
- 核心控制器，调度 MemScheduler、MemLifecycle、MemOperator 等组件。
- 支持任务感知调度、生命周期管理和结构组织。
- 支持多种调度策略（如 LRU、语义相似性匹配）和版本回滚机制。
基础设施层（Infrastructure Layer）：
- 提供存储、访问控制和跨平台互操作支持。
- 包括 MemVault（存储管理）、MemGovernance（合规治理）、MemStore（共享与发布）等模块。

MemOS 的所有模块通过 MemCube 抽象统一接口，支持视图定制、访问隔离和未来多模态扩展。

4.4 系统执行流程¶

Figure 6:The three-layer architecture and memory I/O path of MemOS. From user input to scheduling and memory injection to response generation, each phase is executed via standardized MemoryCube structures that enable traceable and structured memory lifecycle management.

MemOS 的执行流程如下：

用户输入或任务触发，由 MemReader 解析为结构化 API。
MemScheduler 选择合适的记忆单元（参数、激活、明文）注入推理上下文。
MemOperator 进行语义和结构组织，MemLifecycle 管控状态转换。
记忆单元存入 MemVault，由 MemGovernance 管理，可通过 MemStore 进行跨代理协作。
支持 MemLoader/MemDumper 实现跨平台迁移，形成从输入到激活、存储、重用的闭环流程。

整个流程由声明式策略驱动，通过 MemCube 实现结构化和可追踪的记忆生命周期管理。

总结¶

MemOS 提出了一种全新的 LLM 操作系统架构，通过参数记忆、激活记忆和明文记忆的分类与统一管理（MemCube），实现记忆的结构化、生命周期治理和跨类型演化。其三层架构（接口、操作、基础设施）与闭环执行流程，使得 LLM 不再是“一次性”推理系统，而是具备持续学习、自适应和可治理能力的智能代理。该系统为大规模语言模型的记忆增强与多任务协作提供了系统性解决方案。

5 Conclusion¶

本文结论部分总结并展望了MemOS（面向大语言模型的内存操作系统）的研究成果与未来发展方向：

MemOS 提出了一种统一的内存抽象与管理框架，支持多种异构内存类型（如参数内存、激活内存和显式文本内存），并通过标准化的内存单元 MemCube，实现了内存调度、生命周期管理、结构化存储与透明增强等核心模块。这些模块共同提升了大语言模型的推理连贯性、适应性与系统可扩展性。

基于 MemOS，作者设想了一个以模块化内存资源为核心、由去中心化内存市场支持的未来智能生态系统。这一范式将推动下一代具备持续学习与长期演进能力的 AI 系统的构建。

未来的研究方向包括：

跨 LLM 的内存共享：通过内存交换协议（MIP）推动不同基础模型之间的内存互通与模块复用，支持语义一致性和安全交换。
自进化的 MemBlock：开发可根据使用反馈自我优化和演化的内存单元，减少人工维护。
可扩展的内存市场：构建去中心化的内存交易机制，支持资产级交易、协同更新与分布式演进，促进可持续的 AI 生态系统。

总体而言，MemOS 旨在将大语言模型从封闭、静态的生成系统转变为具备长期记忆、集成知识与行为可塑性的持续进化智能体。它不仅解决了当前模型的关键架构局限，也为跨任务、跨平台、多智能体协作智能奠定了基础。作者期望与社区共同推进 MemOS 的发展，使“内存”成为通用人工智能时代的一等计算资源。