MemOS: A Memory OS for AI System

LLM 总结:

本文介绍了 MemOS,这是一个专为 AI 系统设计的 Memory OS(内存操作系统)。MemOS 的核心目标是通过优化内存管理和计算资源的使用,提高 AI 系统的效率和性能。文章可能围绕 MemOS 的架构设计、关键功能、与传统操作系统的对比,以及其在 AI 应用中的实际效果等方面展开讨论。

Abstract

本文提出了一种名为 MemOS 的记忆操作系统,旨在解决大型语言模型(LLMs)在记忆管理方面的不足,从而提升其在长上下文推理、持续个性化和知识一致性等方面的能力。传统LLMs依赖静态参数和短时上下文状态,难以跟踪用户偏好或长期更新知识。虽然检索增强生成(RAG)引入了外部知识,但缺乏生命周期管理和持久表示的整合。本文从内存层级的角度出发,提出通过引入显式的内存层,将特定知识外部化,从而在计算效率上取得优化。MemOS 将内存视为一种可管理的系统资源,统一了不同形式记忆(文本、激活状态、参数)的表示、调度与演化。其核心单元 MemCube 封装了记忆内容及其元数据(如来源和版本),支持记忆的组合、迁移与融合,实现了不同类型记忆之间的灵活转换,连接了检索与参数学习。最终,MemOS 构建了一个以记忆为中心的系统框架,提升了LLMs的可控性、可塑性与可进化性,为持续学习和个性化建模奠定了基础。

1 Introduction

这篇文章的引言部分主要介绍了**MemOS(Memory Operating System)**的背景、动机和其在大语言模型(LLMs)发展中的关键作用。以下是该章节的总结:


1. 背景与动机

  • LLMs的发展现状:随着Transformer架构的普及和自监督预训练的成熟,大语言模型已成为现代自然语言处理(NLP)的核心。它们在开放域问答、文本生成、跨模态推理等多个任务中表现出接近人类的性能。

  • LLMs未来的演变趋势:未来的LLMs将从“无状态”的短期工具向“有状态”的长期智能代理发展,必须具备持续交互、状态积累和长上下文推理的能力。同时,它们将在更多用户、平台和生态系统中部署,需要支持一致性、可扩展性和个性化。

  • 知识管理的核心挑战:随着交互历史的扩展和上下文复杂性的增加,LLMs面临着如何组织、存储和检索知识的问题。传统方式(如参数记忆或RAG)难以满足长期、动态和多任务环境下的需求。


2. 现有方法的不足

  • 参数记忆的局限性:主流LLMs依赖于模型权重中的隐式知识存储,但这种方式更新成本高、可解释性差、灵活性不足,且存在灾难性遗忘的风险。

  • RAG的局限性:虽然RAG通过引入外部检索模块增强了模型对实时信息的访问能力,但它本质上是“即时检索+临时组合”的流水线,缺乏生命周期管理、版本控制、权限感知等核心功能,难以支撑长期、自适应的知识系统。

  • 缺乏显式、层次化的记忆结构:研究指出,LLMs缺乏中间的显式记忆层,无法在参数存储和外部检索之间进行高效的平衡。这导致模型在长依赖建模、知识演化、个性化和跨平台迁移等方面存在瓶颈。


3. 四大典型挑战

  1. 长距离依赖建模:模型难以在长对话或多阶段任务中保持状态一致性,受限于上下文窗口、注意力计算开销和用户指令与行为的脱节。

  2. 知识演化适应性:现实世界知识不断更新,但模型参数固定,RAG也缺乏版本控制和时间感知,无法有效应对知识的演化和更新。

  3. 个性化和多角色支持:模型缺乏持久的记忆痕迹,每次会话都重置为初始状态,无法保存用户偏好或风格,现有记忆机制存在容量限制、访问不稳定等问题。

  4. 跨平台记忆迁移与生态多样性:用户记忆无法在不同平台之间迁移,形成“记忆孤岛”,限制了记忆的复用和持续性发展。


4. MemOS的提出与核心理念

  • 核心思想:MemOS是一个专为大型语言模型设计的记忆操作系统,旨在将记忆视为一种可调度、可演化的系统级资源,从操作系统(OS)的视角重构记忆的组织、管理和调度。

  • 类比操作系统:MemOS借鉴操作系统对CPU、存储和I/O资源的统一调度机制,将记忆划分为可操作的模块(如工作记忆、长期存储、冷存档),支持生命周期管理、权限控制、迁移和复用。

  • 三大核心能力

    1. 可控性(Controllability):提供完整的记忆生命周期管理,包括创建、激活、融合、销毁,并通过权限控制和操作审计保障安全性与可追溯性。

    2. 可塑性(Plasticity):支持记忆在任务和角色间的重组与迁移,允许开发者构建灵活的记忆结构,适应不同推理目标。

    3. 可演化性(Evolvability):支持不同记忆形式(参数记忆、激活记忆、明文记忆)之间的动态转换和统一调度,促进知识整合、自主学习和模型演化。


5. 总结与意义

MemOS的提出标志着大模型发展从“感知与生成”向“记忆与演化”的关键转变。它通过系统级的架构设计,解决了现有方法在结构化记忆、生命周期管理、多源集成等方面的不足,为构建具备长期记忆和持续演化的下一代AGI系统奠定了基础。

2 Memory in Large Language Models

该论文章节综述了大型语言模型(LLM)中“记忆”能力的研究进展,主要分为四个阶段,并详细阐述了第一阶段(记忆定义与探索)中的内容,重点分析了隐式记忆显式记忆的分类、机制及其代表性技术。

总结如下:


一、记忆研究的四个阶段

  1. 定义与探索阶段
    研究者从多个维度对LLM的记忆系统进行分类,探索其优化机制,为后续研究打下基础。

  2. 类人记忆发展阶段
    为弥补LLM与人类在复杂任务中的表现差距,研究者引入受认知启发的记忆机制,使模型更接近人类的记忆处理方式。

  3. 工具化记忆管理阶段
    开始出现模块化接口,实现对已有记忆结构的插入、删除和更新操作,但功能仍较为基础。

  4. 系统化记忆治理阶段(作者提出的MemOS)
    引入操作系统式资源管理机制,提供标准化、统一的全生命周期管理接口,推动记忆系统向结构化、抽象化和安全控制发展。


二、第一阶段:记忆定义与探索

1. 记忆分类与框架

  • 提出从两个维度理解记忆:

    • 显式 vs 隐式记忆

    • 短期 vs 长期记忆

  • 短期记忆细分为:

    • 感觉记忆(瞬时、无意识)

    • 显式短期记忆(如提示、文本上下文)

  • 长期记忆分为:

    • 隐式长期记忆(参数化知识)

    • 显式长期记忆(如外部检索增强生成)

2. 隐式记忆

隐式长期记忆
  • 通过大规模训练,模型将语言结构、语义关系等编码进参数中,形成内部化的长期记忆

  • 主要技术包括:

    • 训练与微调(如BERT、RLHF、SLayer)

    • 适配器方法(如LoRA、PRAG、DyPRAG),用于快速适应新知识,无需重新训练全部参数

    • 记忆编辑(如ROME、MEMIT、EasyEdit),通过定位并修改模型参数来更新知识或行为

隐式短期记忆
  • 包括KV-cache(键值缓存)隐藏状态(Hidden States),在推理过程中动态生成,影响注意力分布和生成行为。

  • KV-cache优化:压缩、量化、动态剪枝、检索增强等(如vLLM、Memory3)

  • 隐藏状态控制:通过“引导向量”(Steering Vectors)干预模型输出方向,实现对生成内容的细粒度控制(如ACT、ITI、IFS)

3. 显式记忆

显式短期记忆
  • 存在于输入上下文(提示、历史对话、参考文档)中,由用户直接提供,模型在推理中直接使用。

  • 随着模型规模扩大,管理机制从静态提示演进到参数化提示指令跟随模型(如InstructGPT)。

  • 限制在于上下文窗口长度,长文本或多轮对话中易出现内容截断和语义丢失问题。

  • 现有应对方法包括:扩大上下文长度、外部检索、缓存优化等,但显式短期记忆容量仍是关键瓶颈。


三、MemOS 的初步构想

  • 提出MemOS,借鉴操作系统机制,提供统一接口对LLM的三种记忆底座(文本、激活、参数)进行结构化管理。

  • 通过MemCube模块实现多维语义片段组织和查询激活,提升记忆的可控性和系统性。


四、总结

本章系统梳理了LLM记忆研究的发展脉络,从定义与探索阶段出发,详细分析了隐式与显式记忆的机制和代表性技术。提出将记忆管理类比于操作系统,是迈向系统化、结构化记忆治理的重要一步。为后续更高效、可控的LLM记忆系统设计奠定了理论基础。

Explicit Long-term Memory in LLMs

本文系统性地回顾了大语言模型(LLMs)在显式长期记忆机制方面的研究进展,将其划分为四个演进阶段,并提出了一个面向未来的系统化记忆治理框架MemOS。以下是各阶段的总结:


2.1 显式长期记忆的建立(Stage 1)

本阶段的核心目标是为LLMs提供可持续访问外部非参数化知识的能力,重点在于优化记忆组织结构检索策略

  • 早期方法主要依赖独立的检索器如 BM25、DPR 及其混合版本。

  • **检索-生成(Retrieve-then-Generate)**范式存在内容整合瓶颈。

  • 部分研究转向更紧密的检索与推理结合,如 kNN-LM 将检索结果线性融合到模型输出中,提高参考准确度。

  • 随着研究深入,记忆结构从扁平格式转向层次化、图结构化形式,如树、图、异构图、超图等,以提升表达和泛化能力。

  • Zep 与 A-MEM 等系统引入了时间线建模动态更新机制,实现记忆的演变与持久化。


2.2 人脑式记忆机制的引入(Stage 2)

本阶段研究者借鉴人类记忆机制(如海马体理论、记忆层次结构),提出类人记忆结构与行为,增强LLMs在复杂任务中的记忆能力。

  • HippoRAG 结合 LLM、知识图谱与个性化PageRank算法,模拟大脑皮层与海马体功能。

  • Memory3 将注意力机制中的KV-cache显式作为记忆载体,降低成本并提升效率。

  • PGRAG 模拟人类笔记行为,自动生成思维导图作为长期记忆。

  • Second-Me 提出三层记忆架构(L0-L2),实现从原始数据到个性化推理的演进。

  • AutoGen 引入多智能体协作框架,模拟人类协作行为,提升复杂任务处理能力。


2.3 基于工具的记忆管理(Stage 3)

本阶段关注的是对记忆的显式编辑与操作,推动从隐式表征走向工具接口化管理

  • 提出标准化的记忆编辑框架,支持插入、修改、删除等操作,如 EasyEdit 和 Mem0。

  • Mem0 通过提取-更新流程管理外部记忆模块,后续版本进一步结构化记忆为图。

  • Letta 受操作系统启发,引入模块化上下文与函数式分页机制,实现动态记忆访问。

  • 尽管提供了基本的 CRUD 操作,但工具化管理缺乏系统性建模与治理,难以支持记忆的演化、协作与安全控制。


2.4 系统化记忆治理(Stage 4)

本阶段提出MemOS,一个面向 LLM 的记忆操作系统,标志着进入系统化记忆治理的新阶段。

  • MemOS 将记忆单元视为第一类资源,借鉴操作系统设计原则,构建包含调度、分层、API抽象、权限控制、异常处理的治理机制。

  • 与工具化管理不同,MemOS 不仅支持操作,还强调记忆的跨任务、跨会话、跨角色演化与整合

  • 核心模块如 MemScheduler、Memory Layering、Memory Governance 实现异构记忆的统一调度与行为驱动进化。

  • MemOS 所提出的“记忆即操作系统(Memory-as-OS)”范式,被视为构建通用人工智能(AGI)长期认知结构的关键基础设施。


总结

本文系统梳理了 LLM 显式长期记忆的发展路径,从初期的知识检索与结构优化,到类人记忆机制设计,再到工具化编辑与管理,最终进入系统化、操作系统级的记忆治理。MemOS 的提出不仅为当前 LLM 记忆管理提供了统一框架,也为未来构建可持续、自演进的智能系统奠定了基础。

3 MemOS Design Philosophy

这篇论文章节主要介绍了 MemOS(Memory Operating System) 的设计理念及其在下一代智能系统中的作用。以下是内容的总结:


一、MemOS 的愿景(3.1 Vision of MemOS)

随着人工智能(尤其是 AGI)系统变得越来越复杂,涉及多任务、多角色和多模态,传统的大语言模型(LLM)已显现出局限性。当前主流的 LLM 架构缺乏对“记忆”这一核心智能能力的系统性支持,表现为知识固化、上下文无法跨会话保存、个性化无法持续、知识更新成本高等问题。

作者提出,下一代 LLM 架构必须采用以记忆为中心的设计范式。通过引入连续记忆建模(continual memory modeling)动态记忆调度(dynamic memory scheduling),使模型具备长期知识积累、任务适应和行为进化的能力。

此外,记忆训练(Mem-training)还带来了空间扩展效应:多个异构部署的模型实例可以通过交换紧凑的记忆单元而非昂贵的参数或梯度,构建集体知识库,从而实现系统规模下的分布式智能生态。

该范式面临两个技术挑战:

  1. 高效的知识交换机制,特别是在高度异构的环境中;

  2. 严格的治理机制,在保护隐私和敏感数据的同时最大化共享效用。

作者提出了Mem-training 范式,强调通过可控制的记忆单元实现持续进化,而不是依赖传统的参数更新。MemOS 作为基础架构,支持记忆的生成、调度、融合与更新,实现长期知识积累和任务自适应

MemOS 设计的三大核心支柱是:

  1. 记忆作为系统资源:将记忆抽象为可调度、可管理的资源,打破平台间的“记忆孤岛”,提升记忆管理的效率与可访问性。

  2. 进化作为核心能力:支持模型与记忆的协同进化,使 LLM 能够根据任务、环境和反馈自我适应和升级,实现可持续演化的智能。

  3. 治理作为安全基础:提供全生命周期的记忆治理机制,包括访问控制、版本管理、溯源审计等,确保记忆的可控性、可追踪性和可解释性,为智能系统提供信任基础。

作者认为,MemOS 将推动智能系统从“基于感知的反应式系统”向“基于记忆的主动式进化代理”的范式转变,成为下一代智能体的基础设施。


二、从传统操作系统到记忆操作系统(3.2 From Computer OS to Memory OS)

在传统计算机系统中,操作系统(OS)负责统一管理 CPU、内存、存储等资源,为应用程序提供稳定、高效的运行环境。其资源抽象、统一调度和生命周期管理是现代计算基础设施可扩展和可靠性的基础。

随着 LLM 系统的复杂性提升,其内部和外部的“记忆资源”也变得越来越动态和异构,包括静态参数记忆、运行时激活记忆和动态检索的记忆模块。这些记忆资源不仅支撑推理,还随着任务和知识更新而持续演化。

因此,LLM 需要一个类似传统操作系统的系统化资源管理框架,以支持记忆资源的标准化抽象、动态调度和自主治理。MemOS 借鉴了传统操作系统中的成熟机制(如资源调度、接口抽象、访问控制等),提出了统一的 LLM 记忆资源管理理念。

文中通过一张表格(表 2)对比了传统操作系统组件与 MemOS 模块的对应关系,例如:

  • 传统调度器对应 MemScheduler;

  • 文件系统对应 MemVault;

  • 系统调用对应 Memory API;

  • 设备驱动对应 MemLoader/Dumper;

  • 权限控制对应 MemGovernance;

  • 日志系统对应 Audit Log;

  • 异常处理对应 Error Recovery。

这些模块共同协作,将传统资源管理理念适配到 LLM 中不断演化的记忆需求上。


三、总结

本章系统阐述了 MemOS 的设计理念,提出将“记忆”从模型的内部隐式依赖转变为可调度、可管理的系统级资源。MemOS 通过引入Mem-training 范式,实现模型的持续进化与自适应能力,推动智能系统从“被动感知”向“主动记忆驱动”转变。同时,MemOS 借鉴传统操作系统的架构思想,构建了一套完整的记忆管理系统,为下一代 LLM 和 AGI 提供了坚实的基础架构支持。

4 Memory Modeling in MemOS

本章节介绍了 MemOS 中的内存建模(Memory Modeling)机制,通过系统化地划分和管理三种核心内存类型(Plaintext Memory、Activation Memory 和 Parameter Memory),并引入统一的内存抽象单元 MemCube,为 AI 系统提供了一个结构清晰、可控、可演化的语义内存体系。以下是该章节的总结:


4.1 内存类型与语义演化路径

MemOS 在 Memory3 研究的基础上,进一步系统化地提出了三种核心内存类型,并构建了从感知(perception)到巩固(consolidation)的语义演化路径:

  1. Plaintext Memory(明文内存)

    • 定义:通过外部接口动态获取的可编辑、可追踪的知识模块。

    • 特点:适用于事实密集型、个性化和多代理任务,支持快速更新和任务定制。

    • 管理方式:封装为 MemCube,支持版本控制、冲突检测、多模态融合等。

    • 优势:可与 Activation Memory 交互,高频内容可转为激活路径,实现知识的动态外部化与内部化。

  2. Activation Memory(激活内存)

    • 定义:推理过程中生成的中间状态,核心是 KV 缓存。

    • 特点:短时、动态、隐式激活,用于长依赖建模、递归推理和上下文响应。

    • 管理方式:支持延迟加载、选择性冻结和优先级调整。

    • 应用场景:如多轮对话、代码辅助、医疗系统中的患者历史记录缓存等,有助于保持上下文连贯性与响应控制。

  3. Parameter Memory(参数内存)

    • 定义:模型参数中编码的长期知识,如语言结构、常识和语义表示。

    • 特点:隐式激活,无需检索,是零样本推理、问答和语言生成的基础。

    • 管理方式:支持模块化增强(如 LoRA)、知识蒸馏与能力模块化(如法律助理、摘要专家等)。

    • 优势:适合能力密集型代理,支持长期稳定的能力,但更新成本高、可解释性差。


4.2 Memory Cube(MemCube):内存的核心资源单元

为了统一管理异构内存资源,MemOS 引入了 MemCube,作为所有内存类型的封装和调度单位。

  • 组成结构

    • Memory Payload:承载语义内容(明文、激活状态或参数差异)。

    • Metadata:包含三个关键类别:

      1. Descriptive Identifiers(描述性标识符)

        • 标识内存块的来源、类型和组织形式(如时间戳、语义类型、来源签名等)。

      2. Governance Attributes(治理属性)

        • 控制内存的访问权限、生命周期、优先级、合规性和可追溯性。

      3. Behavioral Usage Indicators(行为使用指标)

        • 反映推理过程中的使用频率、访问模式等,用于动态调度和跨类型转换。

  • 功能特点

    • 统一调度:MemCube 为所有内存类型提供标准化接口,支持异构内存的统一管理。

    • 动态演进:支持内存单元在不同内存类型之间的动态转换(如明文→激活、激活→参数、参数→明文)。

    • 策略感知调度(Policy-Aware Scheduling):根据使用频率、上下文依赖和任务匹配,动态调整内存的层级与格式。

    • 上下文指纹(Contextual Fingerprint)与版本链(Version Chain):用于快速检索与任务对齐,支持版本控制、冲突解决与回滚。


总结

MemOS 通过构建 Plaintext、Activation 和 Parameter 三种核心内存类型,结合 MemCube 作为统一调度与管理的抽象单元,实现了内存资源的结构化封装、策略化治理和行为驱动的演化。这种设计不仅提升了内存系统的可控性和可扩展性,也为 AI 代理提供了更灵活、更智能的知识管理和推理能力,是构建透明、协作型 AI 系统的重要基础。

5 Architecture of MemOS

总结:MemOS 架构与执行流程

MemOS 是一个为 AI 系统设计的 内存操作系统(Memory OS),其架构旨在实现高效、动态和合规的内存操作管理,支持复杂任务的智能代理性能。系统基于三层架构:接口层(Interface Layer)操作层(Operation Layer)基础设施层(Infrastructure Layer),并通过统一的数据结构 MemCube 实现内存的动态流动与管理。


一、MemOS 的三层架构

1. 接口层(Interface Layer)
  • 功能:作为用户或系统任务的入口,解析自然语言输入,生成结构化的内存操作请求。

  • 核心组件

    • MemReader:解析用户输入,提取任务意图、时间范围、实体、上下文锚点等,生成结构化指令(MemoryCall)。

    • Memory API:提供统一的内存操作接口(如创建、更新、查询、审计),支持版本控制、日志追踪和权限管理。

    • Memory Pipeline:支持将多个内存操作组合为流程(如检索-更新-归档),实现任务自动化和内存流的可审计性。

  • 特点:支持对话上下文推理、提示重写和多回合交互。

2. 操作层(Operation Layer)
  • 功能:控制内存的组织、调度与生命周期管理,是 MemOS 的“控制中心”。

  • 核心组件

    • MemOperator:通过标签、图结构、分层抽象组织内存数据,支持混合检索(符号和语义)。

    • MemScheduler:根据任务语义、资源和优先级动态调度内存类型(如 KV 缓存、文本、参数),决定加载和调用顺序。

    • MemLifecycle:管理内存状态转换(生成、激活、合并、归档、过期),支持版本回滚与内存冻结机制(用于合规或审计)。

  • 特点:实现任务导向的内存路由、跨类型内存迁移、执行路径整合及与模型的交互。

3. 基础设施层(Infrastructure Layer)
  • 功能:负责内存数据的存储、迁移、安全和共享,是系统执行的基础。

  • 核心组件

    • MemGovernance:控制访问权限、数据保留策略、审计日志和敏感内容处理。

    • MemVault:管理多类内存仓库(如用户专属、领域知识、共享管道),提供统一的访问接口。

    • MemStore/MemLoader/MemDumper:实现内存导入导出、跨平台同步和发布-订阅机制,支持多代理之间的内存共享。

  • 特点:支持组织级知识管理、跨平台同步和智能代理间的开放共享。


二、MemOS 执行流程与交互机制

  1. 输入解析与 API 封装:接口层通过 MemReader 解析用户自然语言输入,生成结构化的 MemoryCall,并封装为 Memory API 请求。

  2. 内存检索与组织:操作层的 MemOperator 根据任务意图和上下文构建索引和图结构,筛选相关内存单元。

  3. 内存调度与激活:MemScheduler 根据上下文相似性、访问频率等动态决定内存调用策略和注入顺序。

  4. 生命周期管理:MemLifecycle 跟踪每个内存单元的状态(生成、激活、合并、归档、过期),并根据规则进行状态转换。

  5. 存储归档与治理:最终,内存单元被归档至 MemVault,并通过 MemGovernance 进行权限封装和合规检查。


三、MemOS 的设计优势

  • 模块化与可扩展性:三层架构实现解耦,便于快速迭代与功能扩展。

  • 动态内存调度:根据任务类型和上下文动态选择最优内存类型,提升性能和相关性。

  • 内存生命周期管理:实现内存状态的可控性、可追溯性和可治理性,保障系统稳定性与合规性。

  • 统一数据结构(MemCube):贯穿各层的统一数据格式,实现结构化、可审计的内存管理。

  • 多任务与跨平台支持:通过 Memory Pipeline 和 Memory Store 实现复杂任务流和跨代理协作,适用于企业级和多智能体场景。


总结

MemOS 通过三层架构和统一的数据结构 MemCube,构建了一个 结构清晰、动态调度、合规治理 的内存操作系统。它不仅支持多样化的内存操作与管理,还通过智能调度、生命周期控制和多模态交互,为 AI 系统提供了 高效、可控、可扩展 的内存管理能力,为未来多模型、多任务、跨平台的智能系统奠定了基础。

5.5.1 MemGovernance

以下是对章节内容的总结:


5.5.1 MemGovernance(内存治理模块)

MemGovernance 是 MemOS 的核心模块,负责内存的访问控制、合规性执行和可审计性。随着内存系统向多用户协作和长期推理任务发展,MemGovernance 保证了内存在共享、传输和推理过程中的安全性、可解释性和可控性。

该模块采用三元权限模型,涉及用户身份、内存对象和调用上下文,支持私有、共享和只读等访问策略。每个内存请求都需要身份认证和上下文验证,防止未授权访问。例如,临床场景中只有医生可以访问患者诊断记录,企业系统中只有授权经理才能检索政策文件。

MemGovernance 管理内存生命周期策略,包括 TTL 强制和基于访问频率的垃圾回收或归档操作。它还跟踪内存使用热度以监控高频率访问的内存段。隐私控制子系统包含敏感内容检测、自动匿名化和访问日志记录,确保个人与行为数据的安全。

所有内存对象都携带完整的来源元数据,包括创建来源、调用链和修改日志。生成内容可进行语义水印和行为指纹标记,便于在多平台场景中实现归属和版权追踪。

模块还提供审计接口,可与企业合规系统集成,支持访问日志导出和权限修改报告,适用于医疗、金融等高风险行业。


5.5.2 MemVault(内存存储与路由基础设施)

MemVault 是 MemOS 的核心存储与路由结构,负责管理和服务不同类别的内存。内存被组织为多个命名空间,如用户私有存储、专家知识库、行业共享仓库、上下文内存池和流水线缓存,每个命名空间都有独立的路径结构,支持高效的查找与访问控制。

MemVault 通过统一的 MemoryAdapter 抽象接口支持异构后端(如向量存储、关系数据库和对象存储),实现查询、写入和同步的 API 一致性。存储可配置为只读缓存或可写仓库,具体取决于延迟或学习目标。

运行时,MemVault 与 MemScheduler 和 MemLifecycle 协同工作,根据访问历史、上下文相关性和内存状态动态加载内存。支持标签、语义和全文加载模式,并会触发热数据迁移到高速存储、冷数据归档到长期存储。该架构对于多模型协作、领域知识融合和多轮对话的一致性至关重要,是构建可扩展智能系统的知识骨干。


5.5.3 MemLoader 与 MemDumper(内存加载与导出模块)

MemLoader 和 MemDumper 构成 MemOS 中跨平台内存迁移的双向通道,支持结构化单元(如 MemoryCube)的导入、导出和同步。这对系统交接、边缘-云集成和分布式智能体间知识连续性至关重要。

在导入过程中,MemLoader 接收来自本地缓存、第三方系统或归档的内存,并映射到目标存储,自动填充来源元数据、标签和生命周期状态以确保治理就绪。

MemDumper 则导出选中的内存,以可移植格式携带权限元数据、匿名化字段和访问日志。两组件支持周期性与事件驱动更新,例如标签触发时自动导出。迁移过程受 MemGovernance 监管,验证策略、操作追踪和隔离敏感数据。例如,移动设备可将患者交互日志上传至云端,供远程智能体加载以保留任务上下文。


5.5.4 MemStore(内存存储与分发接口)

MemStore 是 MemOS 的开放接口,支持受控的内存单元发布、订阅和分发,实现模型、机构乃至行业网络间的内存交换。

用户可声明内存为可发布内容,并定义可见性、使用条件和访问控制规则。每个共享单元都有唯一 ID 和来源元数据,MemGovernance 会在分发过程中确保内容脱敏、水印和策略验证。

MemStore 支持推拉两种内存交换模式。消费者可通过标签或语义过滤定义订阅,系统主动推送匹配更新。授权的内存资产可绑定合同条款,限制访问频率和有效期。所有访问操作均记录调用日志,支持审计与问责。

例如,医院可发布去标识化的诊断记录供远程分诊智能体使用,每次调用都会验证上下文与来源信息。


总结

本节详细介绍了 MemOS 的核心组件:MemGovernance 负责安全与合规性,MemVault 构建灵活存储与路由,MemLoader 与 MemDumper 实现跨平台迁移,MemStore 支持内存的发布与分发。这些模块共同构成了一个安全、可控、可扩展的智能内存管理系统,为多用户、多任务、多平台的协作提供了坚实的技术基础。

6 Evaluation

本文第六章“Evaluation”对MemOS系统进行了全面评估,包括整体性能和关键组件的独立评估,具体总结如下:


1. 整体系统评估(End-to-End Evaluation on LOCOMO)

  • 评估方法:在LOCOMO基准套件上对MemOS进行全面评估,比较其与多个先进基线(如LangMem、Zep、OpenAI-Memory、Mem0)在内存密集型推理任务中的表现。

  • 评估指标:使用LLM-Judge评分(主要指标),配合F1、ROUGE-L、BLEU、METEOR、BERTScore-F1、余弦相似度等生成质量与语义对齐度指标。

  • 主要结论

    • MemOS-0630在所有任务类型(如单跳、多跳、开放域、时间推理)中均表现最佳,尤其在多跳与时间推理任务中优势显著。

    • 在内存配置(Top-K、Chunk大小)变化下,MemOS始终维持较高性能,且生成质量稳定,语义对齐度高。

    • 通过消融实验验证,随着内存容量增加,MemOS的性能持续提升,尤其在需要长期记忆与上下文整合的任务中表现最佳。


2. 内存检索评估(Evaluation of Memory Retrieval)

  • 评估内容:比较不同系统设计(包括RAG、完整上下文加载、商业系统)在内存检索效率和生成质量上的表现。

  • 评估指标:LLM-judge评分、搜索延迟(P50/P95)、端到端延迟(P50/P95)。

  • 主要结论

    • MemOS在检索效率和生成质量上均优于其他系统,尤其在处理大规模记忆时仍能保持较低延迟。

    • 相比于加载全部上下文(Full-Context)的高延迟,MemOS的混合语义组织与激活式内存加载机制显著提升了性能。

    • Mem0虽然延迟较低,但在生成质量上不如MemOS;OpenAI-Memory则因内部机制不透明限制了输出质量。


3. KV缓存加速评估(Evaluation of KV-Based Memory Acceleration)

  • 评估内容:比较两种内存注入策略(Prompt-based vs. KV-cache)在不同模型和上下文长度下的性能。

  • 评估指标:构建时间(Build)、TTFT(时间到第一词)、加速比(Speedup)。

  • 主要结论

    • KV缓存注入(将记忆直接注入模型的注意力机制)显著降低了TTFT,且输出语义一致,验证了其有效性。

    • 加速效果随模型规模和上下文长度增加而增强,例如Qwen2.5-72B在长上下文、短查询条件下实现了91.4%的加速。

    • MemOS采用的KV注入策略(灰底行)在所有测试条件下均优于传统Prompt前缀方法。


总结

本章通过系统性实验验证了MemOS在多个维度上的卓越性能:

  • 性能优势:在LOCOMO基准中全面领先,尤其在复杂推理任务中表现突出。

  • 高效性:在大规模记忆处理和低延迟要求下仍能保持高效率,优于现有系统。

  • 创新点验证:混合语义检索、任务对齐调度、KV缓存注入等关键技术有效提升了系统的响应质量与效率。

  • 实用性:实验结果表明,MemOS的设计不仅在理论上先进,而且在实际系统部署中具有良好的可扩展性与实用性。

7 MemOS for Architecture Innovation and Applications

本章《MemOS for Architecture Innovation and Applications》主要探讨了MemOS如何通过将内存资源系统化、模块化和治理化,推动系统架构的创新,并拓展其在实际应用中的广泛场景。以下是对本章内容的总结:


一、MemOS推动的架构创新

MemOS将内存视为系统中的一等资源,实现了对多种形态内存的统一生命周期管理和调度。这一抽象模式支持以内存驱动的模块化架构设计,推动知识资产的模块化和可重用性。

  1. 付费内存作为模块化安装组件(面向用户范式)
    MemOS提供模块化的内存接口,允许知识像数字资源一样被上传、挂载和调用。专家可以将经验知识封装为结构化记忆,通过MemStore发布,用户(如学生或企业代理)可按需安装并使用这些内存模块。系统屏蔽了底层模型细节,大大降低了内存使用的门槛。

    例如,一位医生可以将自己的诊断经验封装为记忆模块并发布,医学生可以直接调用该模块辅助学习。MemGovernance模块则提供隐私和访问控制,支持付费使用、权限管理等机制,实现知识的授权分发。

  2. 无感内存管理(面向任务范式)
    MemOS将内存抽象为持久化、可共享的基础资源,类似操作系统中的存储子系统。通过统一的访问协议和结构化持久化格式,支持运行时灵活读写、挂载、替换内存块,无需手动维护状态或对齐架构。

    在法律助手或多阶段任务中,MemOS可根据任务上下文动态加载不同内存模块,实现“按需调用”的智能任务执行体验,提升系统对复杂、长时间任务的支持能力。


二、MemOS的应用场景

MemOS不仅在系统架构上实现突破,还在多个实际应用场景中展现其价值:

  1. 支持多轮对话与跨任务连续性
    传统模型依赖静态上下文窗口,难以在多轮对话中保持状态连续性。MemOS通过提取关键语义元素并编码为“对话记忆单元”,在推理时自动加载相关历史片段,防止上下文丢失和逻辑漂移。

    同时,MemOS支持跨任务记忆复用,如在完成表单填写任务后,可将用户信息保留并在后续签证申请任务中自动调用,实现任务间的状态连续。

  2. 支持知识演化与持续更新
    MemOS将知识视为具有生命周期的动态内存单元,支持生成、替换、融合与淘汰机制。当知识更新时(如医学指南变更),可发布为“可信源”内存模块,系统自动比对旧版本并建议更新,无需重新训练模型。

    专家用户也可在系统中不断迭代知识,如添加药物使用经验,这些个性化知识将与官方指南共存,并根据任务上下文自动选择。

  3. 支持个性化与多角色建模
    MemOS通过身份感知的记忆机制支持多角色建模。用户可在不同场景下使用不同身份(如“家长”和“经理”),系统为每个角色维护独立记忆流,并在推理时动态加载。

    长期交互模式可被编码为“个人记忆单元”,如语言风格、偏好等,使AI行为更加个性化和一致。在企业中,MemOS还可部署预定义角色模板,实现权限控制和行为一致性。

  4. 支持跨平台内存迁移
    MemOS通过标准化内存表示、加密和平台无关的挂载协议,实现内存在不同设备和平台间的迁移,打破“内存孤岛”。

    例如,用户在手机上建立的旅行偏好记忆,可迁移至桌面端的商务旅行代理中,实现跨平台的一致性体验。MemOS使内存成为可治理、可复用的分布式智能层。


总结

本章系统性地展示了MemOS如何通过将内存资源系统化、模块化和治理化,推动系统架构的创新,并在多轮对话、知识更新、个性化建模和跨平台迁移等实际场景中发挥重要作用。MemOS不仅提升了知识资产的可管理性和可重用性,也为实现更智能、更灵活、更安全的AI系统提供了基础架构支持。

8 Conclusion

本文总结如下:

本文提出了一种专为大型语言模型(LLMs)设计的记忆操作系统(MemOS),旨在为下一代LLM应用构建基础性的记忆基础设施。MemOS提供了一个统一的抽象框架和综合管理机制,支持参数记忆、激活记忆和显式明文记忆等异构记忆类型的管理。文章提出了标准化的记忆单元MemCube,并实现了调度、生命周期管理、结构化存储和透明增强等关键模块,从而提升了LLM的推理一致性、适应能力和系统可扩展性。

在这一基础之上,作者展望了一个以模块化记忆资源为核心的未来智能生态系统,并设想了一个去中心化的记忆市场,支持记忆资产的交易、协作更新和分布式进化,推动可持续AI生态的发展。

未来的发展方向包括:

  1. 跨LLM记忆共享:通过扩展记忆交换协议(MIP),实现不同基础模型之间的参数与激活记忆共享,支持语义一致性和安全交换,促进智能体之间的知识协作。

  2. 自演化MemBlocks:开发可根据使用反馈进行自优化、自重构和自进化的记忆单元,减少人工维护需求。

  3. 可扩展的记忆市场:建立支持资产级交易和协作进化的去中心化记忆交换机制,推动AI生态的长期发展。

总体而言,MemOS的引入旨在将LLM从封闭、静态的生成系统转变为具备长期记忆、整合知识和行为可塑性的持续进化智能体。MemOS不仅解决了当前模型的关键架构限制,还为跨任务、跨平台和多智能体协作的智能系统奠定了基础。基于已有的研究成果(如显式记忆和层次化记忆表示在LLMs中的潜力),作者希望与社区合作,进一步推动MemOS的发展,使记忆成为通用人工智能时代的一等计算资源。