2505.00675_Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions¶
引用: 27(2025-12-14)
组织:
From Moonlight¶
三句摘要¶
💡 这篇综述重新审视了AI系统中的内存,提出了将内存分为Parametric和Contextual类型,并定义了Consolidation、Updating、Indexing、Forgetting、Retrieval和Compression六种核心操作的统一框架。
📚 基于此框架,论文深入分析了LLM-based agents中的Long-Term Memory、Long-Context Memory、Parametric Memory Modification和Multi-Source Memory四大高影响力研究主题,并探讨了它们在管理与利用方面的进展。
🚀 此外,该综述还详细介绍了内存赋能的AI应用、产品和工具,比较了人脑记忆与AI记忆的异同,并指出了克服当前挑战和探索未来方向的路径。
关键词¶
记忆: AI系统的一个基本组成部分,支撑着大型语言模型(LLM)驱动的代理。它使AI系统能够进行连贯、长期的交互,并支持学习、推理和决策。记忆可以是模型内部(参数记忆)或外部(上下文记忆)的。
参数记忆: 隐含地存储在模型内部参数中的知识。这种记忆在预训练或后训练期间获得,嵌入在模型的权重中,并在推理时通过前馈计算访问。它提供快速、无上下文的、长期的、持久的知识检索,但缺乏透明度,且难以根据新经验进行选择性更新。
上下文记忆: 显式的、外部的信息,用以补充LLM的参数。它可以是结构化的(如知识图谱、关系表、本体)或非结构化的(如文本、图像、音频、视频)。根据其时间范围,它进一步分为短期和长期记忆。
非结构化记忆: 显式的、跨模态的记忆系统,用于存储和检索跨异构输入(如文本、图像、音频和视频)的信息。它使代理能够将推理建立在感知信号之上,并整合多模态上下文。
结构化记忆: 以预定义、可解释的格式或模式组织起来的显式记忆,例如知识图谱、关系表或本体。这种记忆易于查询,支持符号推理和精确查询。
记忆管理: 指记忆如何随着时间的推移而被存储、维护和修剪。它包括四种核心操作:巩固、索引、更新和遗忘。
记忆利用: 指在推理过程中如何检索和使用存储的记忆,以支持下游任务,如响应生成、视觉基础构建或意图预测。它包含检索和压缩两个操作。
巩固: 指将短时间内的经历(如交互历史)转化为持久性记忆的过程。这包括将交互历史编码成持久形式,如模型参数、图或知识库。它对持续学习、个性化和外部记忆库的构建至关重要。
索引: 指构建辅助代码(如实体、属性或基于内容的表示)的过程,这些代码作为访问存储记忆的入口点。索引还能实现跨记忆的时间和关系结构编码,从而通过可遍历的索引路径实现更高效、语义上更连贯的检索。
更新: 指在接收新输入时,重新激活现有的记忆表示,并用新知识对其进行修改的过程。更新参数记忆通常涉及定位和编辑特定模型组件,而上下文记忆的更新则涉及摘要、修剪或细化。
遗忘: 指选择性地抑制(删除)记忆内容的能力,这些内容可能已过时、不相关或有害。在参数记忆中,它通过“遗忘”技术实现;在上下文记忆中,它涉及基于时间的删除或语义过滤。
检索: 指根据输入识别和访问记忆中相关信息的过程,旨在支持诸如响应生成、视觉基础构建或意图预测等下游任务。
压缩: 指在将记忆内容输入模型之前,通过保留关键信息并丢弃冗余来提高效率的过程,尤其是在有限的上下文窗口下。它可以分为输入前压缩和检索后压缩。
长期记忆: 指通过与环境的交互(如多轮对话、浏览模式和代理决策路径)获得的信息的持久存储。它支持在延长交互中进行记忆管理、利用和个性化,使代理能够执行复杂任务。
长上下文记忆: 指在处理扩展序列时,同时优化参数效率(如KV缓存优化)和上下文利用效率(如上下文压缩)的挑战。
参数记忆修改: 指对LLM参数中编码的存储知识进行修改,对于动态适应存储的记忆至关重要。它包括编辑(局部修改模型参数)、遗忘(选择性移除不希望或敏感的信息)和持续学习(增量地整合新知识并减轻灾难性遗忘)。
多源记忆: 指AI系统在内部参数和跨结构化数据(如知识图谱、表格)与非结构化多模态内容(如文本、图像、视频)的外部知识库之间进行推理的能力。它涵盖了跨文本整合和多模态协调。
摘要¶
该论文《Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions》对AI系统中的内存(Memory)进行了深入的分类、操作和应用分析,旨在为LLM-based Agents提供一个统一的内存框架。
核心方法论
该研究首先将AI内存分为两大类型:Parametric Memory 和 Contextual Memory,其中Contextual Memory又细分为 Unstructured 和 Structured 形式。
Parametric Memory(参数内存):
定义:隐式存储在模型内部参数(如权重)中的知识。
特点:在预训练或后训练阶段获得,通过前向计算在推理时访问。它提供即时、长期且持久的记忆,用于快速、无上下文(context-free)的事实和常识知识检索。
局限:缺乏透明度,难以选择性地根据新经验或特定任务上下文进行更新。
Contextual Memory(上下文内存):
定义:显式存储的外部信息,作为LLM参数的补充。
Unstructured Contextual Memory(非结构化上下文内存):
定义:一种显式的、模态通用的内存系统,存储和检索来自文本、图像、音频、视频等异构输入的信息。
作用:使Agent能够将推理 grounded 在感知信号中,并整合多模态上下文。
时态划分:
Short-term memory(短期内存):指近期观测结果,如当前对话会话上下文。
Long-term memory(长期内存):指跨会话对话和个人持久知识的持续记录。
Structured Contextual Memory(结构化上下文内存):
定义:显式内存,组织成预定义、可解释的格式或模式,如知识图谱(knowledge graphs)、关系表(relational tables)或本体(ontologies)。
作用:支持符号推理和精确查询,常与预训练语言模型的关联能力互补。
时态划分:可为短期(推理时构建用于局部推理)或长期(存储跨会话的精选知识)。
在此内存分类的基础上,论文提出了六个基本内存操作,并将其归类为 Memory Management(内存管理) 和 Memory Utilization(内存利用) 两大功能类别。
内存管理(Memory Management): 管理内存的存储、维护和修剪,包含四个核心操作:
Consolidation(巩固):
定义:将 \(m\) 个短时经验 \(E_{[t,t+\Delta t]} = (\epsilon_1, \epsilon_2, \ldots, \epsilon_m)\) 转化为持久内存 \(M_t\) 的过程。涉及将交互历史(如对话、轨迹)编码成持久形式。
作用:对持续学习、个性化、外部MemoryBank构建和知识图谱构建至关重要。
公式:\(M_{t+\Delta t} = \text{Consolidate}(M_t, E_{[t,t+\Delta t]})\)
Indexing(索引):
定义:构建辅助代码 \(\phi\)(如实体、属性或基于内容表示)作为存储内存的访问点。
作用:除了简单访问外,还支持编码内存间的时间(temporal)和关系结构(relational structures),从而实现更高效和语义连贯的检索。
公式:\(I_t = \text{Index}(M_t, \phi)\)
Updating(更新):
定义:重新激活现有内存表示 \(M_t\) 并用新知识 \(K_{t+\Delta t}\) 临时修改它们。
实现:更新参数内存通常涉及定位-编辑机制;更新上下文内存则涉及摘要、修剪或提炼以重组或替换过时内容。
作用:支持持续适应,同时保持内存一致性。
公式:\(M_{t+\Delta t} = \text{Update}(M_t, K_{t+\Delta t})\)
Forgetting(遗忘):
定义:选择性地抑制 \(M_t\) 中可能过时、不相关或有害的内存内容 \(F\) 的能力。
实现:参数内存通过 unlearning 技术实现;上下文内存涉及基于时间的删除或语义过滤。
作用:帮助维护内存效率并减少干扰。
公式:\(M_{t+\Delta t} = \text{Forget}(M_t, F)\)
内存利用(Memory Utilization): 涉及如何在推理过程中检索和使用存储的内存,包含两个操作:
Retrieval(检索):
定义:根据输入 \(Q\) 从内存中识别和访问相关信息,以支持下游任务。
过程:内存片段通过相似度函数 \(\text{sim}()\) 进行评分,高于阈值 \(\tau\) 的片段被认为是相关的。
公式:\(\text{Retrieve}(M_t, Q) = \{m_Q \in M_t \text{ with } \text{sim}(Q, m_Q) \geq \tau\}\)
Compression(压缩):
定义:在有限上下文窗口下,通过保留显著信息和丢弃冗余信息来提高上下文使用效率,压缩比为 \(\alpha\)。
类型:
pre-input compression(输入前压缩):应用于无检索的长上下文模型,对完整上下文输入进行评分、过滤或摘要。
post-retrieval compression(检索后压缩):在内存访问后进行,通过上下文压缩或将检索到的知识整合到模型参数中进行。
公式:\(M_{\text{comp}_t} = \text{Compress}(M_t, \alpha)\)
关键研究主题和未来方向
论文将这些操作映射到四个核心研究主题:
Long-Term Memory(长期内存):关注多会话对话系统、RAG、个性化Agent和问答中的内存管理、利用和个性化。
管理挑战:Consolidation 需更精细化(如上下文感知强度强化),Indexing 需整合结构、检索信号和时间动态,Updating 需平衡内部机制和外部反馈,Forgetting 需高效且精准地移除敏感/无关信息。
利用挑战:检索与生成之间存在显著差距(高检索率不等于高效生成),主要因噪声、时间距离和多语言评估的语言差距。
个性化挑战:数据稀疏性、隐私和用户偏好变化,需要模型级适应和外部内存增强。
未来方向:设计统一的动态基准、解决检索-生成断开问题、推进个性化Agent。
Long-Context Memory(长上下文内存):解决处理长序列时的参数效率和上下文利用效率。
参数效率:主要围绕KV cache优化,包括KV cache dropping(如H2O、StreamingLLM)、KV cache storing optimization(如LESS、KVQuant)和KV cache selection(如QUEST、RetrievalAttention)。
上下文利用:通过上下文检索(如GraphReader、MemGPT)和上下文压缩(如RECOMP、LongLLMLingua)来优化。
挑战:LLMs在长上下文中间部分“迷失”,性能与压缩率之间的权衡。
未来方向:平衡KV cache优化中的内存使用和性能下降,探索复杂环境(如多源内存)下的上下文利用。
Parametric Memory Modification(参数内存修改):关于动态适应模型内部知识表示。
Editing(编辑):直接修改模型权重(locate-then-edit)或通过元学习(meta-learning)、Prompt-based 方法、附加参数方法进行。
Unlearning(遗忘):选择性移除不想要的信息,方法包括附加参数、Prompt-based、locate-then-unlearning、训练目标修改。
Continual Learning(持续学习):增量整合新知识同时减轻灾难性遗忘,方法包括基于正则化和基于回放。
挑战:当前编辑方法缺乏特异性,遗忘基准可能过于简单,扩展性差(多数方法无法支持大量编辑或大型模型)。
未来方向:提高编辑特异性,开发更具挑战性的遗忘基准,统一编辑、遗忘和持续学习。
Multi-Source Memory(多源内存):强调异构文本源和多模态输入的整合。
跨文本整合:
Reasoning(推理):整合多格式内存以生成事实和语义一致的响应,包括跨领域、多文档和结构化/非结构化知识的整合。
Conflict(冲突):解决检索和推理异构内存表示时的事实或语义不一致问题。
多模态协调:
Fusion(融合):对齐跨模态检索到的信息,通过统一语义投影或长期跨模态内存整合实现。
Retrieval(检索):在多模态系统中访问存储的知识,多数基于嵌入相似度计算。
挑战:难以实现异构多源内存的统一推理,冲突解决和源归因不足,多模态内存管理能力有限。
未来方向:构建具备显式源归因和一致性验证的冲突感知内存系统,开发支持索引、更新和压缩的自维护架构,将时间 grounding 和多模态协调整合到统一内存推理中。
实践应用、工具和人机内存对比
论文还探讨了内存AI系统的实际应用(如知识推理、个性化、任务完成、多模态交互)、产品(如Replika、ChatGPT)和工具(如FAISS、LangChain),并比较了人类和AI系统的内存机制,指出了AI在存储、巩固、索引、遗忘、检索和压缩等方面的操作性差异。强调AI内存的重复使用可能导致偏见,优化性遗忘/压缩可能移除重要数据,以及冲突解决机制的不足。
开放挑战与未来方向
总结而言,该论文指出了AI内存领域的关键挑战:缺乏统一评估标准、长上下文处理的效率与表达性权衡、参数内存修改的精确性和可扩展性问题、以及多源整合的一致性和协调性问题。未来研究应关注生物启发模型、终身学习、多Agent内存、统一内存表示,以及内存安全与威胁等更广泛的议题,以构建更可靠、可解释和自适应的AI内存系统。
Abstract¶
首先指出,记忆是AI系统(尤其是基于大语言模型(LLMs)的智能体)中基础性组件。虽然已有综述关注了记忆在LLM中的应用(例如在对话系统中实现个性化记忆),但往往忽略了记忆运作背后的基本操作。
本文的贡献在于:
将记忆表示分为参数化和上下文型两种形式;
提出了六个基本记忆操作:巩固(Consolidation)、更新(Updating)、索引(Indexing)、遗忘(Forgetting)、检索(Retrieval)和压缩(Compression);
将这些操作映射到不同记忆研究方向中,如长期记忆、长上下文处理、参数化修改和多源记忆等。
通过以原子操作和表示类型为视角,本文为AI中的记忆系统提供了结构化、动态化的研究视角,并系统梳理了相关的研究工作、基准数据集和工具。这有助于更清晰地理解LLM智能体中各记忆功能之间的交互关系,也为未来研究指明了有前景的方向。
文中提到的论文列表、数据集、方法和工具都可以在GitHub仓库中找到:https://github.com/Elvin-Yiming-Du/Survey_Memory_in_AI。
1 Introduction¶
本文主要探讨了大规模语言模型(LLM)系统中的记忆机制(Memory),并指出记忆在实现系统连贯性和长期交互中的核心作用。尽管已有研究关注记忆的存储(storage)、检索(retrieval)和基于记忆的生成(memory-grounded generation),但当前缺乏一个系统化的架构视角来整合这些研究。作者指出,现有的综述虽然提出了一些操作性观点,但多集中在特定子主题上,例如长期记忆、个性化、知识编辑等,缺乏统一的操作框架和实践基础(如基准、工具等)。
为了解决这些问题,作者提出了一个统一的框架,将记忆分为两种类型:
参数记忆(Parametric Memory):知识隐式编码在模型参数中。
上下文记忆(Contextual Memory):存储显式的外部信息,可为结构化或非结构化。
从时间维度上,记忆分为长期记忆(如多轮对话、外部观察)和短期上下文。
基于此分类,作者将记忆操作分为两类:
管理(Management):包括整合(consolidation)、索引(indexing)、更新(updating)和遗忘(forgetting)。
利用(Utilization):包括检索(retrieval)和压缩(compression)。
为支撑该分类体系,作者开展了一个初步研究,定义了四大核心研究方向,分别从时间性、上下文性、模型内部性和跨模态性四个互补维度展开:
长期记忆(Long-Term Memory):关注多会话系统、RAG、个性化代理、问答系统等场景下的记忆管理与利用。
长上下文记忆(Long-Context Memory):涉及参数效率(如KV缓存优化)和上下文利用效果(如长上下文压缩)。
参数记忆修改(Parametric Memory Modification):包括模型编辑、遗忘和持续学习等,用于调整模型内部知识表示。
多源记忆(Multi-Source Memory):强调从异构文本源或跨模态输入中集成信息,以支持更鲁棒的推理。
为了构建这一框架的实证基础,作者收集并标注了2022至2025年间多个顶级会议(如NeurIPS、ICLR、ACL等)的超过3万篇论文,通过基于GPT的评分系统筛选出3,923篇高度相关论文。此外,作者还提出了一个相对引用指数(RCI),用于衡量研究的影响力。
最后,文章概述了后续章节结构,包括:
第2章:记忆分类与核心操作
第3章:从操作映射到关键研究方向
第4章:实际应用与工具
第5章:人类记忆系统与AI记忆系统的比较
第6章:开放挑战与未来方向
重点总结:
提出统一的记忆分类与操作框架,填补现有研究的系统性空白。
定义四大核心研究方向,从不同维度拓展记忆研究。
构建基于GPT的论文筛选系统与RCI影响力指标,为后续研究提供实证基础。
为记忆在AI系统中的研究与应用提供清晰的结构与方向。
2 Memory Foundations¶
2 记忆基础¶
2.1 记忆分类¶
从记忆表示的角度来看,记忆被划分为参数记忆(Parametric Memory)和上下文记忆(Contextual Memory),后者又细分为无结构记忆和结构化记忆。
参数记忆¶
参数记忆指的是模型内部参数中隐含存储的知识。这类知识是在预训练或后训练过程中获得的,存储在模型权重中,并在推理时通过前向计算访问。它是一种快速、长期且持久的记忆形式,支持无上下文的常识和事实知识的快速检索。但它的透明度低,且难以根据新经验或任务上下文进行选择性更新。
上下文记忆¶
上下文记忆是显式的外部信息,用于补充大语言模型(LLM)的参数。它分为两类:
无结构上下文记忆:是一种通用的、跨模态的记忆系统,能够存储和检索文本、图像、音频和视频等多种输入形式。它支持多模态推理,并根据时间范围进一步分为短期记忆(如当前对话上下文)和长期记忆(如跨会话记录和持久知识)。
结构化上下文记忆:以知识图谱、关系表或本体等形式组织,具有可查询性和可解释性。结构化记忆支持符号推理和精确查询,常与预训练语言模型的关联能力互补。结构化记忆同样可分为短期(推理时临时构建)和长期(跨会话的知识存储)。
2.2 记忆操作¶
为了实现动态记忆,AI系统需要支持信息生命周期的操作,并在与外部环境交互时有效使用记忆。这些操作可分为两大类:记忆管理(Memory Management)和记忆使用(Memory Utilization)。
2.3 记忆管理¶
记忆管理涉及信息的存储、维护和修剪,包括以下四项核心操作:
1. 稳定化(Consolidation)¶
将短期经验转化为持久记忆,通常通过将交互历史编码为模型参数、知识图谱或知识库实现。稳定化是持续学习、个性化、记忆库构建和知识图谱构建的关键。
2. 索引(Indexing)¶
构建辅助访问点(如实体、属性或内容表示),以支持更高效和语义一致的记忆检索。索引不仅提升检索效率,还支持跨记忆的时间与关系结构编码。
3. 更新(Updating)¶
更新操作用于激活现有记忆并将其与新知识融合。参数记忆的更新通常采用“定位-编辑”机制,而上下文记忆的更新则包括摘要、修剪或精细化等方法,以保持记忆的一致性。
4. 忘记(Forgetting)¶
选择性地抑制或删除可能过时、无关或有害的记忆内容。参数记忆中使用去学习技术,而上下文记忆中则通过时间删除或语义过滤实现。
风险与挑战:这些操作存在被攻击或被污染的风险,一旦记忆被篡改,可能在后续触发恶意行为。因此,需要在整个记忆生命周期中引入鲁棒机制(详见第6节)。
2.4 记忆使用¶
记忆使用是指在推理过程中如何检索并使用已存储的记忆,主要包括两个操作:
1. 检索(Retrieval)¶
根据输入查询从记忆中识别和访问相关信息,以支持下游任务(如响应生成、视觉定位、意图预测等)。输入形式多样,支持多轮对话、文本、视觉内容等。检索通过相似度函数 sim() 评估相关性,设定阈值 τ 以筛选相关记忆片段。
2. 压缩(Compression)¶
在有限的上下文窗口下,压缩操作用于保留关键信息并去除冗余,提升推理效率。压缩通常分为两类:
输入前压缩:在无检索的长上下文模型中,对完整上下文进行评分、过滤或总结。
检索后压缩:在访问记忆后进一步压缩内容,可通过上下文压缩或参数压缩(将知识整合进模型参数)实现。
与稳定化不同,压缩关注的是推理阶段的信息精简,而非记忆构建阶段的总结。
小结¶
本章从记忆的分类出发,系统介绍了参数记忆与上下文记忆的定义、特点与应用场景。进一步通过记忆管理中的四个核心操作(稳定化、索引、更新、忘记)和记忆使用中的检索与压缩,构建了完整的记忆生命周期模型。重点强调了记忆的结构特性、操作机制及其在AI系统中的关键作用,同时也指出了潜在的安全挑战。
3 From Operations to Key Research Topics¶
3 从操作到关键研究主题¶
本节分析了现实世界系统如何通过核心操作管理与利用内存。我们遵循第1节中介绍的四个关键研究主题,并利用图1中提供的框架进行分析。使用相对引用指数(RCI)——一种根据出版年龄归一化引用次数的时间调整度量,来突出有影响力的工作。RCI揭示了记忆研究中的新兴趋势和持久贡献。图2展示了这些主题的架构全景。
操作 |
参数化 |
上下文 |
|---|---|---|
结构化 |
非结构化 |
|
巩固 |
持续学习,个性化 |
管理,个性化 |
索引 |
利用 |
利用, 管理, 个性化 |
更新 |
知识编辑 |
跨文本整合,个性化, 管理 |
遗忘 |
知识去学习,个性化 |
管理 |
检索 |
利用,参数效率 |
利用,个性化,上下文利用 |
压缩 |
参数效率 |
上下文利用 |
表1:子主题与记忆类型和记忆操作的对齐。子主题根据不同主题用颜色突出显示:长期、长期上下文、参数化、多源。
3.1 长期记忆¶
长期记忆指的是通过与环境的互动(如多轮对话、浏览模式和自主代理的决策路径)获取的信息的持续存储。它支持在扩展交互中进行记忆管理、利用和个性化的能力,使代理能够执行复杂任务。本节重点讨论上下文长期记忆(结构化或非结构化),这与通过持续学习和记忆编辑存储在模型权重中的参数化记忆不同。
3.1.1 管理¶
长期记忆中的管理包括对获取经验的巩固、索引、更新和遗忘等操作。这些操作通常以两种形式实现:(1)来自多轮对话的积累对话历史,(2)自主代理的长期观察和决策。这些通常由大型语言模型(LLMs)编码并存储在外部记忆库中,供未来访问和重用。这些任务的记忆会与新信息一起更新,并去除过时或无关的内容。
记忆巩固¶
记忆巩固是将短期记忆转化为长期记忆的过程。现有方法通常采用摘要技术生成非结构化记忆表示。不同的是,MyAgent通过建模时间相关性来强调上下文感知的记忆强化。这些方法共同展示了将类似人类的记忆巩固过程集成到基于LLM的代理中的努力。
记忆索引¶
记忆索引是结构化记忆表示的过程,以支持高效和准确的检索。现有方法将记忆索引分为三种范式:基于图的、信号增强的和时间线的。HippoRAG通过构建轻量级知识图来显式揭示不同知识片段之间的连接。Theanine通过组织记忆沿着演化的时空和因果链接,使对话代理能够基于相关性和时间线上下文检索信息段。
记忆更新¶
记忆更新通常指外部记忆创建新条目或重新组织和整合现有记忆表示。近年来,记忆更新被分为两类:内在更新和外在更新。内在更新通过内部机制操作,无需外部反馈。外在更新依赖于外部信号,特别是用户反馈。动态反馈融入方法将用户纠正存储到记忆中,从而实现持续系统改进,而无需重新训练。
记忆遗忘¶
记忆遗忘涉及去除之前巩固的长期记忆表示。遗忘可以自然地随时间发生,也可以通过主动遗忘策略有意去除特定信息。主动遗忘策略对于去除敏感或有害内容至关重要,例如隐私、安全或合规性。因此,系统能够有意去除特定内容已成为研究重点。
3.1.2 利用¶
利用涉及在当前输入和相关记忆内容条件下生成响应,通常涉及记忆路由、整合和阅读。
记忆检索¶
记忆检索聚焦于根据给定查询选择最相关的记忆条目。检索方法可分为三类:(1)以查询为中心的检索,(2)以记忆为中心的检索,(3)以事件为中心的检索。这些方法强调了自适应检索对于有效长期记忆访问的重要性。
记忆整合¶
记忆整合指的是选择性地结合检索到的记忆与模型上下文,以在推理期间启用连贯的推理或决策。整合可以跨越多个记忆源和模态,实现更丰富和上下文基础的生成。现有方法大致分为两种策略:静态上下文整合方法和动态记忆演变方法。
记忆引导生成¶
记忆引导生成指的是利用整合后的检索记忆内容来指导响应生成。现有方法根据记忆如何影响生成分为三类:(1)自我反思推理方法,(2)反馈引导校正方法,(3)上下文对齐的长期生成技术。这些方法共同提升了生成质量、一致性和推理深度。
3.1.3 个性化¶
个性化是长期记忆的关键但具有挑战性,受到数据稀疏性、隐私和不断变化的用户偏好的限制。当前方法大致分为两类:模型级适应和外部记忆增强。
模型级适应¶
通过微调或轻量级更新将用户偏好编码到模型参数中。一些方法通过潜在空间嵌入用户特征,例如CLV使用对比学习聚类人格描述来指导生成。其他方法采用参数高效策略,如RECAP通过前缀编码器注入检索到的用户历史。
外部记忆增强¶
通过在推理时从外部记忆中检索用户特定信息来个性化LLMs。现有方法可分为结构化、非结构化和混合方法。结构化记忆(如用户资料或知识图谱)用于构建个性化提示,非结构化记忆(包括对话历史和叙述性人格)用于丰富稀疏资料。混合方法如SiliconFriend维护跨会话的持久记忆。
3.1.4 讨论¶
长期记忆评估受限于静态假设,当前基准主要遵循两种范式:基于知识的问题回答(QA)和多轮对话。QA任务评估模型检索和推理事实性知识的能力,通常利用参数化记忆和非结构化上下文记忆。尽管这些评估通常假设静态记忆内容,但它们忽视了动态操作,如更新、选择性保留和时间连续性。多轮对话基准(如LoCoMo、LongMemEval)更好地反映了现实中的记忆使用,但大多数评估仍把对话历史视为静态上下文,狭窄地聚焦于QA准确性。
记忆检索与记忆引导生成之间的差距揭示了利用瓶颈。为了更好地理解记忆利用中的性能瓶颈,我们比较了近期研究中报告的最先进的检索和生成结果。如图4所示,最先进的模型在诸如2Wiki和MemoryBank等数据集上的Recall@5超过90,但生成指标(如F1)滞后30多分。这表明高可检索性并不一定转化为有效的生成。关键因素包括紧凑的记忆格式、记忆与查询之间的时间距离、检索到的项目数量引入的噪声和多语言评估中的语言差距。
记忆操作在当前基准中评估不足。尽管对记忆增强模型的兴趣在增长,当前评估主要关注检索准确度和生成质量,而忽视了记忆使用的程序性方面。一些近期的努力,如MemoryBank和ChMapData-test,开始涉及记忆更新和长期规划,但仍然孤立和狭窄。
3.2 长上下文¶
在对话搜索中,管理大量多源外部记忆在长上下文语言理解中提出了显著挑战。尽管模型设计和长上下文训练的进步使LLMs能够处理数百万个输入标记,但有效地在如此广泛的上下文中管理记忆仍然是一个复杂的问题。这些挑战大致可以分为两个主要方面:1)参数效率,优化KV缓存(参数化记忆)以实现高效的长上下文解码;2)上下文利用,优化LLMs以管理各种外部记忆。
3.2.1 参数效率¶
管理大量多源外部记忆需要对LLMs进行优化,以高效处理长上下文。本节讨论了从记忆角度处理长上下文的高效方法,重点是KV缓存优化。KV缓存通过存储过去的KV对作为外部参数化记忆来减少不必要的KV计算。然而,随着上下文长度的增加,存储这些记忆的内存需求呈二次增长,使得处理极长的上下文变得不可行。
KV缓存丢弃¶
KV缓存丢弃通过消除不必要的KV缓存来减少缓存大小。静态丢弃方法选择固定的模式,而动态丢弃方法则更加灵活,根据查询或模型行为决定需要丢弃的KV缓存。考虑到丢弃KV缓存时潜在的信息损失风险,合并基于的方法(如MiniCache)通过合并相似的KV缓存或使用特殊标记存储KV缓存来减少信息损失。
KV缓存存储优化¶
考虑在移除不重要的元素时可能的信息损失,KV缓存存储优化关注如何在较小的存储足迹下保留整个KV缓存。例如,LESS和Eigen将不重要的缓存条目压缩成低秩表示,而FlexGen、Atom、KVQuant、ZipCache、KIVI则动态量化KV缓存以减少内存分配。这些方法在性能下降方面提供了比KV缓存丢弃方法更好的表现,但受制于内存增长的二次性质。
KV缓存选择¶
KV缓存选择是指选择性加载所需的KV缓存以加快推理速度,聚焦于KV缓存的内存检索。QUEST、TokenSelect、Selective Attention和RetrievalAttention采用近似最近邻(ANN)来搜索关键KV缓存。通过将KV缓存存储在外部内存中并在推理时检索相关KV缓存,Memorizing Transformers、LongLLaMA、ReKV和ArkVale能够高效处理长上下文。
3.2.2 上下文利用¶
除了优化语言模型以获得长上下文能力,优化上下文记忆利用是另一个重要的挑战。
上下文检索¶
上下文检索旨在增强LLM识别和定位上下文记忆中关键信息的能力。基于图的方法如CGSN和GraphReader将文档分解为图结构以进行有效的上下文选择。基于标记的上下文选择方法如TRAMS、Selection-p、PASTA剪枝或选择被认为最重要的标记。基于片段的上下文选择方法如NBCE、FragRel、Sparse RAG选择与特定任务相关的重要上下文片段。基于训练的方法如Ziya-Reader和FILM利用专门的数据训练LLMs以提高其上下文选择能力。
上下文压缩¶
上下文压缩利用记忆压缩操作优化上下文记忆利用,通常包括两种主要方法:软提示压缩和硬提示压缩。软提示压缩聚焦于在推理阶段将输入标记压缩成连续向量,而硬提示压缩则直接压缩长输入标记成较短的自然语言标记。通过结合删除不相关信息和抽象化上下文标记的方法,LLMs能够更有效地利用上下文。
3.2.3 讨论¶
尽管声称上下文长度可以扩展到数百万个标记,长上下文LLMs在问答和键值检索任务中却会遗漏中间的重要信息。这种“中间丢失”问题在管理大量外部记忆时尤其关键,因为重要信息可能位于长上下文的不同位置。此外,在需要基于上下文记忆进行推理的更复杂场景中,LLMs也无法有效聚合来自不同部分的记忆。
压缩率与性能下降之间的权衡是长上下文记忆中的主要记忆操作之一,用于平衡效率和效果。不同的基于压缩的策略各有优缺点。KV缓存丢弃方法通常实现更高的压缩率,但导致更大的信息损失和更显著的性能下降。Yuan等人提出了一种在这些不同策略上进行通用基准测试的方法,在图6中展示了不同策略的优缺点。
3.3 参数化记忆修改¶
修改参数化记忆,即LLM参数中的编码知识,对于动态适应存储记忆至关重要。参数化记忆修改的方法可分为三类:(1)编辑,无需完全重新训练即可局部修改模型参数;(2)去学习,选择性地删除不需要或敏感的信息;(3)持续学习,增量地纳入新知识,同时减轻灾难性遗忘。
3.3.1 编辑¶
参数化记忆编辑更新存储在参数化记忆中的特定知识,而无需完全重新训练。现有工作主要分为直接修改模型权重的方法、元学习方法和附加参数方法。这些方法在效率和可扩展性上有所不同,尽管大多数集中在实体级编辑上。
3.3.2 去学习¶
参数化记忆去学习通过删除特定记忆来实现选择性遗忘,同时保留不相关的记忆。现有工作探索了多种策略,包括附加参数方法、提示方法、定位-然后-去学习方法和训练目标方法。这些方法旨在在给定显式遗忘目标的情况下擦除记忆,同时保留非目标知识,并在效率和精度之间取得平衡。
3.3.3 持续学习¶
持续学习通过减轻模型参数中的灾难性遗忘,实现长期记忆持久性。主要方法包括正则化和重放方法。正则化约束重要权重的更新,以保留关键的参数化记忆;重放方法通过重新引入过去样本来加强记忆。
3.3.4 讨论¶
我们选取了不同类别中的最新方法,并在图10中报告了它们在最广泛使用的记忆编辑和记忆去学习数据集上的表现。提示方法在所有基准测试中表现出强劲的整体性能,而元学习方法通常比其他方法表现较差。我们观察到,相同的方法在ZsRE上的表现通常比CounterFact差,这主要是由于ZsRE的特定分数显著降低,从而降低了整体分数。
当前的编辑方法通常缺乏特异性,而去学习基准如TOFU可能过于简单,难以揭示真正的限制。当前的代理通过互动积累记忆,但未来的持续学习应避免覆盖模型参数中的持久记忆。
3.4 多源记忆¶
多源记忆对于现实世界中的AI部署至关重要,系统必须在内部参数和外部知识库(包括结构化数据和非结构化多模态内容)上进行推理。本节考察了跨文本集成和多模态协调两个维度的关键挑战。
3.4.1 跨文本集成¶
跨文本集成使AI系统能够在多个文本源之间进行更深层次的推理和解决冲突,以支持更上下文基础的响应。
推理¶
推理聚焦于集成多格式记忆以生成事实和语义一致的响应。一些研究探讨了在不同领域中对记忆的操作,特别是通过精确操作结构化符号记忆。其他研究探索了动态集成领域特定参数化记忆。尽管这些努力在结合参数化和外部记忆进行推理方面取得了实质性进展,但实现统一的异构、多源记忆推理仍然是一个主要挑战。
冲突¶
多源记忆中的冲突指的是在检索和推理过程中出现的事实或语义不一致性。这些冲突通常在集成参数化和上下文记忆,或结合结构化和非结构化知识时出现。现有工作聚焦于识别和定位这些不一致性,并提出了评估模型检测上下文矛盾能力的框架。
3.4.2 多模态协调¶
随着记忆增强系统向多模态设置发展,关键挑战在于融合和检索跨文本、图像、音频和视频等异构模态。
融合¶
融合指的是跨模态信息的对齐。现有方法主要分为两类:统一语义投影和长期跨模态记忆集成。这些方法在对齐模态方面很有效,但通常在支持长期多模态记忆管理方面存在不足。关键挑战包括动态记忆更新和跨异构来源保持一致性。
检索¶
多模态系统中的检索使跨模态存储知识的访问成为可能。大多数现有方法依赖于基于嵌入的相似性计算,基于视觉语言模型如QwenVL、CLIP或其他多模态模型。这些模型将异构输入投影到共享语义空间中,允许跨模态检索。然而,这些方法受到浅层嵌入相似性的限制,并且缺乏基于记忆的、推理感知的检索支持。
3.4.3 讨论¶
跨文本集成涉及两个关键设计轴:源类型和推理机制。早期模型如ChatDB和EMAT使用符号记忆(如数据库、表格)通过显式查询访问,提供透明性但开放领域设置下扩展性有限。最近的系统如StructRAG、DelTA和Chain-of-Knowledge采用无结构记忆和神经检索,结合注意力融合和链式推理。尽管如此,大多数模型仍将记忆视为静态,与实时推理相分离。动态推理感知记忆系统的发展趋势表明了从静态检索管道向动态、上下文感知的内存系统转变的趋势。
多模态记忆协调在融合、检索和时间建模三个关键维度上取得了进展。常见策略包括联合嵌入和提示级融合,而最近的方法如标识符基记忆和跨模态图融合实现了更选择性的任务适应性集成。检索已从静态相似性发展为时间上下文化方法,包括时间图和时间感知注意力,促进长期交互的推理。值得注意的是,60%的调查模型编码时间信息,突显了时间在长期任务中的重要性。除了检索和融合,操作控制(如记忆更新、索引和压缩)变得越来越重要。早期系统主要聚焦于检索,而新系统如E-Agent和WorldMem采用了自我维护架构,随着时间的推移不断改进记忆内容。
未来方向¶
启用具有显式来源归属和跨异构表示一致性验证的冲突感知记忆系统。
开发支持索引、更新和压缩的自我维护架构,以实现长期、跨会话记忆。
将时间定位和多模态协调集成到统一的记忆推理中,以支持长期和现实世界任务。
4 Memory In Practice¶
4 Memory In Practice(记忆在实践中的应用)¶
本章节从应用层面、产品层面和工具层面三个维度,探讨了AI系统中记忆机制的实际应用与实现方式。以下是各小节的总结:
4.1 Applications(应用)¶
重点内容:
记忆增强型AI系统广泛应用于知识推理、个性化、任务完成和多模态交互等领域。
根据记忆模态和应用场景,这些系统可划分为四类:
知识导向型系统:依赖参数化记忆(parametric memory),将通用知识编码到模型权重中,适用于编程、医学、金融、法律等专业领域(重点)。
例子:通过提示指令调整模型,使其能准确检索和推理特定领域的知识(如指令微调模型)。
用户导向型系统:利用上下文记忆(contextual memory)建模用户偏好和行为历史,实现个性化对话和自适应教学。
特点:需要持续更新用户模型,以适应用户需求的变化。
任务导向型系统:使用结构化记忆(如键值存储、工作流图)维持任务的连续性,支持长期推理(如项目管理、虚拟助手)。
多模态系统:结合参数化记忆与上下文记忆,在语言、视觉、音频等多模态环境中提供一致的交互体验,如自动驾驶和医疗决策。
总结:记忆不仅是被动的数据存储,更是AI推理、规划和适应能力的核心支撑。随着任务复杂度的提升,参数化记忆与上下文记忆的融合变得愈发重要。
4.2 Products(产品)¶
重点内容:
在实际产品中,记忆增强型系统主要分为两类:
用户导向型产品:建立用户模型,实现长期的个性化与情感互动。
典型产品:
AI伴侣(如 Replika),通过长期交互历史模拟情感连续性。
推荐系统(如 Amazon),利用用户行为痕迹优化推荐内容。
虚拟助手(如 Me.bot、Tencent ima.copilot),动态更新用户状态以提供主动响应。
任务导向型产品:使用结构化记忆模块,如对话历史、语义任务表示和用户记录,支持多轮交互和长期任务规划。
典型产品:
ChatGPT、Grok、GitHub Copilot、Coze、CodeBuddy 等,利用记忆机制实现自适应推理、持续代码生成和对话管理。
总结:这些产品展示了记忆机制在真实AI系统中的具体实现方式,它们对用户体验、功能性和系统可靠性产生了显著影响,证明了记忆在实际产品中的实用价值。
4.3 Tools(工具)¶
重点内容:
为支持记忆增强型AI系统的开发和部署,形成了一个分层的工具生态系统,主要包括三类工具:
基础组件(Components):
提供基础计算支持,包括向量数据库(如 FAISS)、图数据库(如 Neo4j)、大语言模型(如 Llama、GPT-4)和检索机制(如 BM25、Contriever、OpenAI Embeddings)。
支持记忆功能如语义检索、相似性搜索和长上下文理解。
框架(Frameworks):
提供模块化的接口,用于管理记忆操作,如 Graphiti、LlamaIndex、LangChain、LangGraph、EasyEdit、CrewAI、Letta。
抽象复杂记忆处理流程,便于开发者构建多模态、持久化、可更新的记忆模块。
记忆层系统(Memory Layer Systems):
将记忆作为服务层进行管理,提供协调、持久化和生命周期管理。
工具如 Mem0、Zep、Memary、Memobase 支持时间一致性维护、按会话或主题索引记忆和高效回溯。
结合符号化与亚符号化表示,并支持API进行记忆访问与操控。
总结:
本节系统介绍了当前支持记忆功能的工具生态体系,分别从基础组件、开发框架和系统服务三个层级展开,展示了如何通过工具实现记忆的管理、存储和调用。表格形式(Table 17-20)进一步详细描述了各类工具的功能、适用场景和操作方式。
章节整体总结:
第4章从应用、产品和工具三个层面系统性地介绍了记忆在AI系统中的实际应用。重点强调了记忆不仅仅是数据存储,更是实现AI推理、个性化和任务执行的关键机制。不同类型的系统(知识、用户、任务、多模态)和产品(AI伴侣、推荐系统、虚拟助手)展示了记忆功能的多样性和实用性。同时,通过丰富的工具生态,开发者可以利用现成的基础组件、框架和系统服务,高效地构建和部署记忆增强型AI系统。
5 Memory in Humans and AI Systems¶
5 人类与人工智能系统的记忆¶
记忆系统的基本功能与结构¶
人类和智能体的记忆系统均旨在通过编码与检索过去的信息,支持学习、推理与决策。尽管两者在形态和基础结构上存在差异,但在功能上表现出显著的相似性。两者都具备多层次的时间结构,如短期记忆和长期记忆,并通过关联结构来促进信息的检索与泛化。根据认知科学的研究(Baddeley, 1988),人类的记忆通常分为工作记忆和长期记忆系统,后者又包括情景记忆和语义记忆。相比之下,智能体(Shan 等,2025)则依赖于短暂的上下文窗口,配合持久的外部或参数化记忆模块来运作。两者都具有一定的不可靠性,容易受到回忆不完全或干扰的影响,并且都越来越能够整合多模态输入,如自然语言、视觉和声音。
人类与人工智能记忆的差异¶
尽管功能相似,人类记忆与智能体记忆在基础层面上存在显著差异,主要源于生物约束与人工架构的不同。这些差异涵盖从存储和巩固机制,到索引与检索过程,再到遗忘模式和记忆更新或压缩策略的各个方面。为了系统地比较这些差异,表2从多个维度总结了人类与智能体记忆的关键区别。
面向未来:记忆系统带来的挑战¶
这些差异不仅反映了记忆架构如何受其底层基质的影响,也揭示了随着AI系统变得更具持久性、以代理为中心,并对行为产生更大影响,所面临的更深层挑战。例如,内部记忆的重复使用可能会使智能体逐渐偏向特定的行为路径,从而在长时间内形成一种隐式的“身份”。此外,基于优化的遗忘或压缩机制可能会删除低频但情感或社会上重要的数据,这种情况在交互性或安全性至关重要的场景中尤为突出。目前的大多数系统在处理新输入与已有记忆之间的冲突时仍依赖于启发式方法,缺乏显式的仲裁机制。随着智能体长期记忆的积累,解决这些挑战对于确保其在现实世界中的对齐性、可解释性和鲁棒性变得愈发重要。
表2:人类与智能体记忆的关键差异¶
特征 |
人类记忆 |
智能体记忆 |
|---|---|---|
存储 |
分布式、脑区间互联的神经系统 |
参数化、模块化、上下文相关的(结构化或非结构化) |
巩固 |
缓慢、生物驱动、被动 |
快速、显式、策略驱动和选择性 |
索引 |
隐式、关联式、稀疏编码通过海马回路 |
显式、基于嵌入、符号或键值查找 |
更新 |
间接、再巩固机制、易出错 |
精确、可编程、支持回滚/撤销学习 |
遗忘 |
被动衰退或干扰 |
透明、可追踪、策略控制 |
检索 |
提示/上下文/情绪依赖、情绪偏向 |
内容驱动、可重复、相似性或查询驱动 |
压缩 |
隐式、偏向显著性和频率 |
显式、可定制(如量化、摘要) |
所有权 |
个体化、私有 |
可共享、可复制、可广播 |
容量 |
生物受限 |
可扩展,仅受限于存储与计算资源 |
重点总结:
本节重点比较了人类与人工智能系统在记忆功能上的相似性与差异性。虽然两者在结构、存储、检索等方面存在基础差异,但都具备多层级、多模态的特性。更重要的是,随着AI系统长期记忆的积累,其在行为一致性、数据保留与冲突处理方面可能面临重大挑战,需引入更透明、可控的机制以确保系统的可靠性与安全性。
6 Open Challenges and Future Directions¶
6 开放性挑战与未来方向¶
本节概述了记忆研究中的开放性挑战,并提出了未来的研究方向。随后,我们探讨了更广泛的视角,包括受生物学启发的模型、终身学习、多智能体记忆以及统一记忆表示等内容,以进一步拓展记忆系统的功能和理论基础。这些讨论共同为实现可靠、可解释、适应性强的记忆系统提供了路线图。
6.1 专题方向¶
设计以记忆为中心的AI系统,需要解决核心的局限性和新兴的需求。在RCI(Retrieval、Consolidation、Inference)分析和趋势的引导下,我们列出了塑造未来记忆研究的关键挑战。
统一评估(Unified Evaluation)¶
目前,长期记忆系统在一致性、个性化与时间推理方面的评估仍不成熟。现有基准很少在动态、多会话设置中评估记忆的巩固、更新、检索与遗忘等核心操作。这导致了“检索-生成不匹配”问题,即检索到的内容经常是过时、无关或未对齐的,原因在于记忆维护不足。解决这些问题需要提升:时间推理能力、结构感知生成、检索鲁棒性,以及支持个性化复用和跨会话自适应记忆管理的系统。
长上下文处理:效率与表达力的权衡(Long-context Processing: Efficiency vs. Expressivity)¶
随着记忆长度的扩展,计算成本与建模保真度之间的矛盾变得更加突出。像KV缓存压缩和循环记忆复用等技术虽然提高了效率,但可能导致信息丢失或不稳定。同时,在多模态或多源环境中进行推理解时,需要选择性上下文融合、源区分、注意力调节等能力。因此,未来需要开发能够在上下文带宽与任务相关性及稳定性之间取得平衡的机制。
参数化记忆修改(Parametric Memory Modification)¶
尽管参数化记忆修改(如知识编辑)具有潜力,但仍需进一步研究以提高控制精度、擦除能力与扩展性。当前方法常常缺乏编辑的精确性,而像TOFU这样的“遗忘”基准可能过于简单,无法揭示真实限制。大多数方法难以扩展至数千次编辑或支持参数规模超过20B的模型。此外,终身学习的研究仍不充分。未来工作应开发更真实的基准、提高效率,并将编辑、遗忘与持续学习统一到一个框架中。
多源整合:一致性、压缩与协调(Multi-source Integration: Consistency, Compression, and Coordination)¶
现代智能体依赖异构记忆(如结构化知识、非结构化历史和多模态信号),但面临冗余、不一致与来源模糊的问题。这些问题源于时间范围的不一致、语义冲突以及归因缺失,尤其在跨模态场景中更明显。解决这一问题需要:冲突解决、时间定位、来源追踪,以及高效的索引与压缩机制,以实现可解释性与扩展性。
6.2 更广泛视角(Broader Perspectives)¶
除了上述核心议题,也出现了一系列更广泛的研究视角,进一步丰富了以记忆为中心的人工智能的发展路径。
空间-时间记忆(Spatio-temporal Memory)¶
空间-时间记忆不仅捕捉信息之间的结构性关系,还记录其时间演变轨迹,使得智能体能够在保留历史上下文的同时动态更新知识。例如,AI系统可以先记录用户曾不喜欢西兰花,随后根据新的购买行为更新记忆。这种方法支持时间感知推理与个性化。然而,长期空间-时间记忆的高效管理与推理仍是关键挑战。
参数知识检索(Retrieving Parametric Knowledge)¶
尽管已有知识编辑方法(如局部化修改)取得进展,但如何让模型从自身参数中选择性检索知识仍然是开放问题。有效检索并整合潜在知识,可大幅提高记忆利用效率,减少对外部索引与管理的依赖。
终身学习(Lifelong Learning)¶
智能体需要持续整合新信息并保留先前知识,这要求记忆系统在稳定性与可塑性之间取得平衡。参数化记忆(如权重调整)虽支持快速适应,但易遗忘;结构化记忆(如知识图谱)支持模块化更新,但灵活性较差;非结构化记忆(如对话历史)灵活但需动态压缩与过滤。构建整合多种记忆形式的持续学习框架,并引入巩固、选择性遗忘与交叉训练机制,是实现自适应终身智能体的关键。
生物启发的记忆设计(Biological Inspirations for Memory Design)¶
生物系统为AI记忆设计提供了重要启示。例如,大脑通过互补学习系统(hippocampus与cortex)解决稳定性-可塑性困境。AI模型逐渐采用双内存结构、突触巩固、经验回放等机制以减少遗忘。其他认知概念,如记忆再巩固、有限记忆容量、知识模块化等,也进一步指导了更新感知召回、高效存储与上下文敏感泛化的策略。
同时,Minsky提出的K-Line理论指出,层次化记忆结构是生物认知的基础。人类能通过这一结构在不同抽象层级组织记忆,如将“苹果”和“香蕉”归类为“水果”和“食物”。AI系统若采用分层记忆结构,将面临可扩展性与效率的挑战,这也是未来研究的重要方向。
统一记忆表示(Unified Memory Representation)¶
参数化记忆提供了紧凑隐式存储,而外部记忆提供了显式可解释信息。统一这两者的表示空间与联合索引机制,对于记忆整合与检索至关重要。未来的研究可聚焦于开发支持共享索引、混合存储与跨模态操作的统一记忆框架。
多智能体系统中的记忆(Memory in Multi-agent Systems)¶
在多智能体环境中,记忆不仅是个体的,也是分布式的。智能体需要管理自身记忆,同时与他人互动与学习,这带来了记忆共享、对齐、冲突解决与一致性等挑战。有效系统应支持个性化经验的本地保留与共享记忆空间中的全局协调。未来方向可能包括:去中心化记忆架构、跨智能体记忆同步与集体记忆巩固,以实现协作规划与长期协调。
记忆威胁与安全(Memory Threats & Safety)¶
虽然记忆增强了大语言模型的时效性与个性化,但其管理仍是安全关键点。记忆常存储敏感数据,因此添加或删除信息并非简单操作。已有研究表明,机器遗忘技术容易受到攻击,未来需开发更安全可靠的内存操作机制,以防止数据泄露或篡改。
Appendix A GPT-based Pipeline Selection¶
附录 A 基于 GPT 的流水线选择¶
本节介绍了一种基于 GPT 的打分流水线,用于大规模的相关性过滤,以匹配论文摘要与预定义任务定义之间的一致性(参见表 3)。
核心方法:
每篇论文的摘要会与一个对应的任务定义进行配对,模型会根据匹配程度在 1 到 10 的评分量表上打分。
评分阈值设定为 ≥ 8,仅保留高相关性的论文用于后续分析。
模型选择:
采用 GPT-4o-mini 作为评分模型的主干。
选择该模型是因其在性能与效率之间具有良好的权衡。
尽管其架构相对轻量,但在零样本推理方面表现强劲,足以胜任大规模论文摘要(超过 30,000 篇)的主题相关性评估任务。
此外,该模型在成本效益和准确性方面也具有优势。
技术细节:
提示格式的相关信息已在图 18 中展示(具体见原文链接),用于统一和标准化模型的输入格式。
总结:
本节重点在于设计一个高效、准确的自动评分系统,利用 GPT-4o-mini 实现大规模论文摘要与任务定义之间的相关性评估,从而为后续分析筛选出高质量的论文。
Appendix B Relative Citation Index¶
以下是对 Appendix B: Relative Citation Index 章节的总结,结构尽量保持原样,并突出重点内容:
Appendix B: Relative Citation Index¶
在本研究中,作者提出了一种基于 相对引用指数(Relative Citation Index, RCI) 的指标,用于识别具有影响力的论文。该指标的灵感来源于 RCR(Relative Citation Rate)(Hutchins et al., 2016),旨在通过考虑论文发表时间(年龄)来消除引用次数在不同发布年份之间的偏差,从而更公正地衡量论文的影响力。
1. 论文“年龄”计算方法¶
论文 i 的“年龄” \( A_i \) 定义为:
其中:
\( T \) 是引用数据收集时间(2025年4月20日);
\( \text{Year}_i \) 是论文 i 的首次发表年份。
通过这种方式,可以将引用次数 \( C_i \) 与论文的“年龄” \( A_i \) 关联建模。
2. 引用与年龄关系的建模方式¶
作者尝试了三种模型来拟合引用次数与论文年龄之间的关系:
线性模型: \( C_i = \beta + \alpha A_i \)
指数模型: \( C_i = \exp(\beta + \alpha A_i) \)
对数-对数回归模型: \( \log(C_i + 1) = \beta + \alpha \log A_i + \epsilon_i \)
最终,对数-对数回归模型被选为最优模型,因其在拟合中位数引用次数方面表现最好,且符合直觉(新论文刚发布时引用数为0)。
3. 数据收集与处理¶
作者收集了 2022至2025年 期间,来自 Top NLP和ML会议(如 ACL、NeurIPS、ICML、ICLR 等)的论文,共计 3,932篇有效论文。为了减少不同研究领域带来的偏差,使用 GPT 对每篇论文与本文讨论的四个挑战的相关性进行评分,并只保留评分为 8及以上的论文。
数据包括每篇论文的:
发布日期(如无则使用会议开始日期);
引用次数(来自 Semantic Scholar API)。
4. RCI 的计算公式¶
基于拟合出的对数-对数回归模型:
其中,估计的参数为:
\( \hat{\beta} = 1.878 \)
\( \hat{\alpha} = 1.297 \)
然后,RCI 定义为实际引用次数与预期引用次数的比值:
当 \( RCI_i \geq 1 \) 时,表示该论文的引用次数高于同年龄段论文的中位数,被认为 具有较高的影响力。
5. RCI 的应用与发现¶
作者结合 RCI 与论文数量趋势来分析不同记忆相关研究主题的发展与影响。重点发现包括:
2023年 在大语言模型(LLMs)的推动下,长文本上下文(long-context)和参数化记忆(parametric memory) 方面的论文数量和质量显著上升,说明这些领域直接受到了LLMs的推动。
长期记忆(long-term memory)和多源记忆(multi-source memory) 的平均影响力基本稳定,表明这些领域的研究活动仍在持续,但缺乏颠覆性进展。
所有主题 的论文数量均有显著增长,尤其是 长文本上下文 从2022年之前的较少研究,到2024年成为最活跃的主题。
长期记忆 的 RCI 呈现稳步上升,反映出该领域的逐步成熟。
2023年之后,其他主题的 RCI 中位数有所下降,但影响力仍高于2022年前的水平。
6. 图表说明¶
图15 展示了3,932篇论文的引用分布与年龄关系,红色曲线为预测引用数 \( \hat{C}_i \),RCI ≥ 1 表示高于中位数引用,说明影响力较高。
图16 展示了按年份和主题划分的 RCI 中位数分布,反映各研究主题的相对影响力。
图17 描述了各主题的论文数量和 RCI 趋势变化,进一步揭示了 LLMs 对记忆相关研究的推动作用。
总结¶
本附录详细介绍了 RCI 指标的设计与应用,通过年龄校正引用次数,提供了更公平的论文影响力评估方式。研究发现,LLMs 的出现显著推动了长文本上下文和参数化记忆等领域的研究热度与影响力,而其他如长期记忆等领域的研究虽持续活跃,但未出现突破性进展。RCI 与论文数量趋势的结合,为理解记忆相关研究的发展提供了有力支持。
Appendix C Chord Analysis of Interactions Among Memory Types, Operations, Topics, and Venues¶
附录C 记忆交互的和声分析:类型、操作、主题和会议场所¶
C.1 记忆类型、操作和主题的交互¶
从记忆类型的角度来看,研究主要集中在参数记忆和上下文非结构化记忆上,而大多数工作集中在压缩、检索、遗忘和更新上。相比之下,结构化上下文记忆仍较不被研究,可能是因为大型语言模型(LLM)优化了顺序文本处理,对结构化输入效果不佳。
从操作的角度来看,压缩和检索是最常研究的,而索引则较少受到关注。这主要是因为大多数现有工作侧重于使用记忆,压缩和检索是基本操作。在巩固操作中,大多数研究涉及通过在非结构化文本上的训练或将知识转化为固定外部记忆格式来存储知识。更新和遗忘主要与知识编辑和遗忘有关,通常在参数记忆中进行。这些方向旨在根据外部输入增量修改模型参数,但因模型内部的不透明性,这种记忆操作仍处于积极探索的早期阶段。相比之下,LLM的记忆索引机制受到的关注较少。
从主题的角度看,参数修改研究主要集中在参数记忆上,尽管一些工作尝试通过非结构化文本的持续学习来调整参数。长上下文主题的研究主要集中在非结构化记忆的压缩和检索,一些研究利用键值缓存等形式。在长期记忆研究中,重点也是非结构化记忆,特别是巩固、压缩和检索。与多源记忆相关的研究仍然有限,通常涉及整合结构化和非结构化信息。
总结:
结构化上下文记忆的研究有限,提供了一个机会通过将其与非结构化记忆整合,开发更全面的记忆操作。
多源记忆的研究仍然稀缺,尽管它面临实质性挑战,尤其是来自异构源的记忆冲突问题。设计稳健且一致的多源记忆整合策略是一个有前景的方向。
尽管在传统数据库系统中索引被广泛研究,但在基于LLM的智能体中索引仍不太受关注。记忆类型的复杂性和对向量或稀疏检索方法的需求呼吁专门针对LLM推理和交互的索引方法。
C.2 记忆交互在会议场所中¶
除了我们的主要论文集,我们还分析了81篇专注于方法的论文(RCI ≥ 1)在主要会议上的分布。从操作的角度看,压缩、遗忘和更新在机器学习会议(ICLR, ICML, NeurIPS)中出现得更频繁,而检索和巩固则更常出现在自然语言处理会议(ACL, EMNLP, NAACL)中。这种分布表明前者一组操作仍处于理论探索阶段,而后者则更偏向于实际应用。因此,压缩、遗忘和更新在实际系统中的应用仍有巨大潜力。
索引在机器学习和自然语言处理会议上都表现得较为不足。这可能部分是因为它经常与检索一起出现,部分是因为当前基于向量的索引方法相对统一,缺乏新颖的替代方案。
从主题的角度看,长期记忆在NLP会议上更常被提及,而长上下文主题在ML会议上更常见——这可能反映了这两个社区在应用导向和理论导向方面的不同关注点。参数修改在ML会议上出现得更多,而多源记忆在NLP会议上出现得更多,这表明多源记忆挑战通常在现实世界应用场景和系统集成中出现。
总结:
长期记忆主题在NLP会议上更常见,而长上下文主题在ML会议上更常见,这与社区的理论和应用导向有关。
参数修改在ML会议上更常见,而多源记忆在NLP会议上更普遍,这反映了多源记忆挑战在现实世界应用中的实际需求。
附录C相关图表和表格总结¶
图表19 (图19) 展示了记忆主题、操作和类型的交互关系。
图表20 (图20) 展示了记忆主题、操作和会议场所的交互关系。
表格3 提供了五个以记忆为中心的评估主题的定义和特征。
表格4 列出了用于评估长期记忆的数据集。
表格5 列出了用于长上下文记忆评估的数据集。
表格6 列出了用于参数记忆评估的数据集。
表格7 列出了用于评估多源记忆的数据集。
表格8 列出了用于长期记忆个性化的方法。
表格9 列出了用于长期记忆管理和利用的方法。
表格10 列出了用于长上下文记忆参数效率的方法。
表格11 列出了用于长上下文记忆上下文利用的方法。
表格12 列出了用于参数记忆优化编辑的方法。
表格13 列出了用于参数记忆优化遗忘的方法。
表格14 列出了用于参数记忆修改持续学习的方法。
表格15 列出了用于多源记忆跨文本整合的方法。
表格16 列出了用于多源记忆多模态协调的方法。
表格17 列出了用于记忆管理和利用的组件级工具。
表格18 列出了用于记忆管理和利用的框架级工具。
表格19 列出了用于记忆管理和利用的应用层工具。
表格20 列出了用于记忆利用的产品级工具。
附录C总结¶
附录C提供了对记忆研究的综合分析,强调了记忆类型、操作、主题和会议场所之间的交互。重点内容包括:
结构化上下文记忆:研究有限,但具有开发全面记忆操作的潜力。
多源记忆:挑战较大,但设计稳健的整合策略是有前景的研究方向。
记忆索引:在传统数据库系统中广泛研究,但在基于LLM的智能体中仍需探索。
会议场所分析:压缩、遗忘和更新在机器学习会议中更常见,而检索和巩固在自然语言处理会议中更常见。
数据集和方法:提供了丰富且详尽的列表,涵盖了各种记忆管理和利用的场景。
这些分析和总结为未来的研究方向提供了重要参考,特别是在记忆类型的整合、多源记忆的挑战和基于LLM的索引方法的开发方面。