2410.15665_LongTermMemory: The Foundation of AI Self-Evolution¶

首页: https://arxiv.org/abs/2410.15665
PDF: https://arxiv.org/pdf/2410.15665
引用: 13(2025-08-10)
组织:
- µ Tianqiao and Chrissy Chen Institute(陈天桥雒芊芊研究院)
- ι Princeton University
- σ Institute for AI Industry Research, Tsinghua University
- α Shanghai Jiao Tong University
- θ Shanda Group(盛大网络)

总结¶

别人的总结¶

提出长期记忆是AI实现自我演化的基础。对于对话Agent而言，这意味着Agent不仅要记住对话内容，还要记住对话中形成的观点、用户的情绪变化、以及从对话中学习到的新知识。论文可能探讨了如何将这些高层次的抽象信息存储为长期记忆，并如何在后续对话中进行有效利用，以实现Agent的持续学习和行为优化。
From: https://mp.weixin.qq.com/s/Gf-3MFX66E9bpYSOITnH_w

From Deepseek¶

这篇论文提出了一种名为**“AI自我进化”的新概念，强调大型语言模型（LLMs）不仅可以通过大规模训练数据提升能力，还可以在推理阶段（inference）**通过与环境的交互不断自我进化。论文的核心思想是模仿人类大脑皮层的柱状组织结构，通过长期记忆（Long-Term Memory, LTM）机制，使AI模型能够积累经验、持续学习，并最终实现认知能力的涌现。

1. AI自我进化（AI Self-Evolution）¶

传统方法：当前LLMs（如GPT）主要通过海量数据训练来提升性能，但这种方式成本高且依赖静态数据。
新思路：论文提出，AI模型可以在推理阶段通过与环境的交互（如用户输入、多轮对话、多智能体协作等）不断进化，类似于人类通过经验学习。
关键点：自我进化不需要大规模数据，而是通过**长期记忆（LTM）**存储交互数据，实现持续学习和适应。

2. 长期记忆（LTM）的作用¶

功能：LTM存储和管理模型与环境的交互数据（如对话历史、任务结果、用户偏好等），使模型能够：
- 处理长尾数据（低频但重要的个性化信息）。
- 支持多智能体协作（如论文中提到的OMNE框架）。
- 实现终身学习（Lifelong Learning），避免灾难性遗忘。
技术实现：LTM需要配套的数据系统，包括高效的数据存储、检索和更新机制（可能类似向量数据库或外部知识库）。

3. 多智能体框架OMNE的实践¶

论文团队基于LTM构建了多智能体系统OMNE，并在GAIA基准测试中取得第一名。
GAIA benchmark：一个评估AI模型解决复杂真实世界任务的基准（如规划、工具使用、多步推理）。
LTM的贡献：OMNE通过LTM存储和复用历史交互数据，使智能体能够协作解决新任务，体现了自我进化的潜力。

4. 技术路线与未来方向¶

LTM的结构：需设计高效的数据表示、压缩和检索方法（如分层存储、记忆索引）。
个性化模型：利用LTM中的数据构建用户/任务特定的模型（如微调或提示工程）。
研究方向：
- 如何优化LTM的数据管理（如遗忘机制、重要性加权）。
- 如何平衡模型的新知识获取与旧知识保留。
- 如何验证自我进化的有效性（如设计新的评估基准）。

5. 论文的意义¶

突破训练阶段的限制：传统LLMs在训练后能力固定，而LTM使模型能在推理阶段动态进化。
低成本进化：减少对大规模训练的依赖，通过交互数据实现持续改进。
潜在应用：个性化AI助手、自适应机器人、复杂任务求解（如GAIA中的真实问题）。

关键启发¶

类比人脑：LTM类似人类的长期记忆，通过积累经验提升认知能力。
推理即学习：模型在回答用户问题时，同时将交互数据存入LTM，未来可复用这些经验。
多智能体协作：OMNE展示了LTM在多智能体系统中的价值，智能体间共享记忆可提高任务解决效率。

Abstract¶

本文聚焦于AI Self-Evolution（人工智能自进化）这一新方向，强调在推理阶段（inference stage）实现模型的持续进化，而不仅仅是训练阶段通过大规模数据提升模型性能。尽管目前大多数研究致力于训练更大、更强的基础模型（foundation models），但作者认为，如何在模型部署后，通过有限的数据或交互实现模型的持续自我进化，也是推动AI发展的重要方向。

论文受到人类大脑皮层柱状结构的启发，提出AI模型可以通过与环境的迭代交互，发展出新兴认知能力（emergent cognitive capabilities）和内部表示模型（internal representational models）。

为此，作者提出需要为模型配备长期记忆系统（Long-Term Memory, LTM），用于存储和管理来自现实交互的数据。LTM不仅能够有效表示统计模型中的长尾个体数据，还能支持模型在不同环境和智能体中积累多样化的经验，从而推动终身学习和自我进化。

论文结构如下：

探讨AI自进化的概念与意义，重点在于推理阶段中模型的持续进化能力。
关键机制LTM的作用：作为AI系统实现终身学习的核心，LTM通过积累交互与经验，支持模型的持续进化。
LTM的结构与数据系统：详细介绍LTM的结构及其所需的数据系统，确保高质量数据的获取和保留，从而有效表示个体数据。
个性化模型的构建方法：基于LTM数据，分类讨论构建个性化模型的不同方法，并探讨如何通过环境交互实现模型的自我进化。

作者提出的多智能体框架OMNE在GAIA基准测试中取得了第一名，证明了基于LTM的AI自进化具有解决实际问题的巨大潜力。

最后，作者提出了技术路线图，并讨论了未来可能的研究方向。强调LTM的研究推进对于AI技术的发展和实际应用至关重要，特别是在自进化方向上。作者希望本文能激发更多研究者加入这一新兴且充满潜力的领域。

1 Introduction¶

本节主要介绍了人工智能（AI）在第四次工业革命中的关键作用，以及人工智能模型，特别是大语言模型（LLMs）的发展趋势。文章提出，自我进化能力是未来AI模型发展的重要方向，并强调**长时记忆（LTM）**在其中的基础性作用。

1.1 Phases of Model Evolution processes of LLMs¶

作者将LLM模型的进化过程划分为三个阶段：

Phase 1: Cognitive Accumulation in the Physical World
- 人类通过与物理世界的互动，积累认知碎片，部分被数字化，成为AI模型训练的基础数据。
- 这是AI发展的起点，强调了数据积累的必要性。
Phase 2: Constructing Foundation Models in the Digital World
- 基于Phase 1的数据，AI模型（如LLMs）构建“通用”基础模型，这类模型在大规模任务中表现优异。
- 问题在于：忽视了个体差异，难以处理“长尾”数据（罕见情形），缺乏个性化。
Phase 3: Model Self-Evolution to Achieve Stronger Intelligence
- 模型需具备自我进化能力，以适应不同场景和个人需求。
- 未来模型应从“平均模型”转向分布式、自适应的智能架构，并支持多智能体协作进化。
- 作者提出，当前研究多关注Phase 1和2，而Phase 3中模型架构和数据同样重要。

重点强调：Phase 3 是未来研究的核心，模型需支持在有限交互中动态进化，具备个性化的持续学习能力。

1.2 Principles to Achieve Model Self-Evolution¶

为了实现模型的自我进化，作者指出**长时记忆（LTM）**机制是关键。LTM使模型能够持续地从历史数据中学习和优化，逐步提升推理和学习能力。

1.2.1 Empower Foundation Models with LTM Data for Self-Evolution¶

传统LLM模型更新需全量参数调整，不适合个性化、稀疏数据的处理。
更优方法是进行局部更新，通过LTM机制适应个性化数据，防止个体信息被“平均”掩盖。
举例技术包括：检索增强生成（RAG）、上下文学习（ICL）、低秩适应（LoRA）等。

1.2.2 Real-Time Weight Updates Combined With LTM Data for Self-Evolution¶

当前LLM模型在推理时参数固定，无法实时学习。
作者提出应借鉴人类大脑机制，将训练与推理结合，允许模型根据新输入实时调整权重。
该能力将提升模型在复杂任务中的自省和纠错能力，增强个性化和长期进化潜力。

重点强调：结合LTM机制的实时学习能力是模型自我进化的重要支撑。

1.3 The Implementation Path of LTM in Model Self-Evolution¶

作者提出研究的三个核心问题：

AI Self-Evolution 与 LTM 的定义与关系
- 为什么AI需要自我进化？为什么LTM对个性化是关键？
- 当前LLM的内存机制存在哪些问题？如何定义更完善的LTM？
如何构建LTM？
- 哪些数据适合构成LTM？如何对原始数据进行提炼和结构化？
如何使用LTM实现AI自我进化？
- 如何有效处理和利用个体数据？如何持续更新LTM以适应变化？

研究贡献总结¶

本节总结了研究的主要贡献：

AI Self-Evolution 与 LTM 的定义与框架
- 提出系统框架，明确LTM在AI自我进化中的核心作用。
- LTM机制能有效处理个体长尾数据，提升模型个性化和多样性。
LTM 数据框架的构建
- 构建一个可扩展的数据收集、分析与合成框架，已在办公协作和健康管理两个场景中验证。
- 成功建立全球最大的真实用户语音数据集（用于心理健康），并计划开源。
LTM 多智能体开发框架（OMNE）
- 提出基于LTM的多智能体协作架构，支持每个智能体独立学习、存储并理解环境。
- 实现模型对个体行为变化的实时适应，优化任务规划与执行，推动个性化AI进化。

重点强调：研究在理论和实践上均有重要进展，为AI模型的自我进化提供了系统性支持。

后续章节结构¶

第2节：探讨AI自我进化的重要性及模型个性化。
第3节：分析当前LLMs和人类记忆机制，提出LTM定义。
第4节：解决“如何构建LTM”问题。
第5节：解决“如何利用LTM实现AI自我进化”问题。
第6节：展示LTM在实践中的应用成果。
第7节与第8节：总结与未来研究方向。

总结来看，第1节为全文奠定了理论与结构基础，强调了LTM在推动AI自我进化中的关键作用，并提出了系统性的研究框架与实现路径。

2 AI Self-Evolution¶

本节探讨了AI自我进化的过程，并将其与Thousand Brains Theory和生物进化进行类比，指出AI可以通过多智能体协作的路径实现自我进化。AI的自我进化依赖于个性化数据生成、长时记忆机制、多智能体协作机制和自我修正机制等关键系统依赖，最终推动AI从静态模型向自适应、自学习系统转变。

2.1 Definition of AI Self-Evolution¶

定义：AI自我进化是指AI模型通过持续学习和优化个性化数据，在多智能体协作和认知能力方面实现突破的过程。其基础是共享核心架构，每个模型在共享结构下处理个性化数据，提升推理能力和适应性，从而在动态环境中实现自主学习与持续进化。

关键特征：

基于统一的基础架构，但通过个性化数据实现差异化发展；
能够从过去经验中保留和利用关键信息，支持未来决策；
通过动态学习机制降低过拟合和数据漂移的影响。

2.2 Key System Dependencies for AI Self-Evolution¶

AI的自我进化不是自然发生的，而是依赖于以下关键系统依赖：

2.2.1 Multi-Agent Collaboration Mechanism¶

多智能体协作机制是AI自我进化的核心。大型语言模型（LLMs）因参数量大、推理能力强，使得智能体在复杂任务中表现优异。然而，当前大多数协作仍停留在角色扮演式、能力同质的水平，缺乏差异化技能，限制了系统的深度协作。

要实现大规模智能体协作的突破，必须依赖模型个性化。个性化智能体具备独特能力，能够更高效地协作与进化，为AI系统的智能跃升铺平道路。

2.2.2 Differentiated Personalized Models¶

个性化模型是推动AI系统多样性与协作效率的关键。每个智能体基于个性化数据进行学习和适应，不仅能够独立完成任务，还能与其他智能体协作，生成更多样化的数据。

个性化模型的优势体现在：

支持复杂场景下的个性化处理（如医疗、多模态数据）；
提供高度定制化的服务（如对话系统的风格与输出格式）；
通过持续学习与反馈形成积极的进化循环。

2.2.3 Self-Correction and Evolution Mechanism¶

自我修正机制是AI自我进化的核心能力之一。通过持续反馈，模型能够不断调整认知与行为策略，适应环境变化。类似生物进化中的“自然选择”，AI模型也需要通过试错、修正和优化来实现进化。

数学研究表明，高维数据中的低维结构是模型学习和泛化能力的关键，AI应善于利用这种结构提升自主学习能力。

2.2.4 Long-Term Memory and Learning Ability¶

**长时记忆（LTM）**是AI自我进化的重要基础。它使模型能够积累历史数据与知识，并通过长期交互与学习不断优化自身。

长时记忆的意义在于：

与短期记忆相比，能够支持持续学习与自我提升；
使模型具备更强的个性化服务能力；
为AI的长期适应与优化提供机制保障；
是个性化数据生成的基础，也是系统进化的关键支撑。

2.3 Thought Experiment: From Euclidean Geometry to Riemannian Geometry¶

本节提出一个思想实验：LLM能否从欧几里得几何的五条公理推导出黎曼几何？这种推理不仅需要逻辑能力，还需要挑战已有假设（如平行公设）并提出新理论。

当前LLM尚不具备这种能力，因其缺乏提出新假设和验证的能力。如果模型可以基于个性化数据持续更新，并具备自我反思与假设验证机制，那么它有可能突破现有知识边界，成为具备认知进化能力的智能体。

这个实验表明，实时更新和个性化学习不仅有助于提升推理准确性，还能赋予模型认知灵活性，使其真正参与新知识的发现。

2.4 Future Directions and Challenges¶

本节总结了AI自我进化的未来方向与挑战：

未来方向：

通过模型个性化与多智能体协作，提升AI在复杂任务中的模拟与创新能力；
实现AI在物理世界中的自主学习与持续进化；
推动AI从“知识存储”向“知识探索者”转变。

主要挑战：

如何有效评估模型并实现自我进化；
如何设计高效的智能体协作机制；
如何突破现有模型的Scaling Law（扩展定律），持续提升性能。

后续章节将深入探讨长时记忆在AI自我进化中的核心作用。

总结¶

本节系统阐述了AI自我进化的多维度机制，重点包括：

模型个性化与多智能体协作的结合；
长时记忆与自我修正机制的支撑作用；
通过思想实验强调AI进化需要创造性推理能力与自我演化机制；
指出未来AI的发展方向与技术挑战。

这些内容为AI从现有模型向自主学习、持续进化的智能系统铺平了理论和技术路径。

3 LTM for AI Self-Evolution¶

本章探讨了长期记忆（LTM）在AI自我进化中的关键作用。AI自我进化强调系统通过持续学习与适应来提升自身能力，而LTM的保留与更新是实现这一目标的重要基础。当前大多数模型依赖上下文窗口或参数压缩来实现类似记忆功能，但这些方法在长期学习与持续适应方面存在明显局限，阻碍了AI系统实现真正的自我进化。

因此，本章从LTM的定义、当前方法的局限性、人脑启发、AI模型中的实现可能性以及LTM对AI系统的重要性等方面进行了深入探讨，旨在为构建具备持续学习与自我提升能力的AI系统提供新的思路与方向。

3.1 Definition of LTM in AI Self-Evolution¶

LTM是指AI系统能够在长时间内保留并利用信息，从而根据更广泛的背景调整其响应和行为。与人类类似，AI系统通过积累“个体数据”（不仅包括用户，也包括组织和领域）来实现个性化行为和响应。

LTM被比喻为一个由多个独立但协同工作的智能体构成的知识库，类似于大脑皮层柱的结构。这些智能体不仅自主学习和存储知识，还将其贡献给一个共享的知识库，支持深度个性化交互。LTM不仅是数据存储，更是一个动态、分布式的认知系统，持续适应环境变化，类似于人类的认知机制。

3.2 Limitations of Current LLM Memory Mechanisms¶

当前的LLM（如GPT-4、Gemini）虽然表现出高度智能，但在LTM支持方面仍存在以下问题：

3.2.1 Memory through Prompting（提示式记忆）¶

LLMs通过上下文提示实现记忆功能，但这种机制具有以下关键局限：

临时性：上下文信息仅在当前任务中有效，任务完成后即被丢弃。
缺乏持续学习能力：无法在多个任务间积累和精炼知识。
跨任务知识整合有限：无法自动整合不同任务或领域的知识。
依赖外部优化：上下文质量取决于用户或系统如何构造提示，模型自身无法优化。

3.2.2 Parametric Compressed Memory（参数压缩记忆）¶

通过将知识压缩到模型参数中，形成一种LTM，但其主要问题包括：

无法实时更新：模型参数是训练时固定的，无法快速更新以适应环境变化。
难以表达个体数据：Transformer模型在处理个体数据时容易出现过拟合或遗忘先验知识的问题。
更新效率低：依赖增量训练，难以在大规模或动态环境中扩展。

这些问题表明，AI模型需要一种更灵活、适应性强的LTM机制，以支持个性化数据的保留与实时更新。

3.3 Inspiration from Human LTM¶

为了构建AI的LTM，可以借鉴人脑的长期记忆机制。人脑通过工作记忆、短期记忆与长期记忆的协同作用，形成个性化的认知与行为。

LTM的形成包括三个关键过程：编码、巩固、检索，并涉及大脑的海马体和皮层区域。LTM不仅影响个体兴趣和技能的形成，还对知识积累、问题解决能力、社会适应性等方面有重要影响。

此外，LTM在社会合作与信任建立中也起着关键作用。这些机制为AI系统的LTM设计提供了重要的生物学启发。

3.4 LTM in AI Models¶

AI模型在数据积累、模型更新、LTM利用等方面具备一定优势，但也存在明显不足：

数据积累：AI可以更高效地在虚拟环境中进行交互与迭代，便于构建LTM。
模型更新：AI具备大规模数据存储能力，但缺乏人类记忆的实时更新与选择性遗忘能力。
LTM利用：当前LLM的上下文和参数记忆机制虽具备非遗忘性，但仍难以灵活更新与利用长期记忆。

因此，未来研究应关注如何实现类似人类的动态更新机制，结合AI的大规模处理能力与人类的灵活性，构建个性化与上下文感知更强的AI模型。

3.5 The Importance of LTM for AI Systems¶

3.5.1 LTM in Single Models¶

LTM对AI多样性与自我进化至关重要。它允许AI系统基于历史交互推断新模式、适应新环境，并提供个性化响应。LTM的动态与分布特性使得AI能够优化交互体验，并支持持续学习与进化。

3.5.2 The Role of LTM in AI Self-Evolution¶

模型的自我进化是AI发展的重要方向。与人类不同，AI的LTM不仅可以来源于现实交互，也可以通过虚拟环境高效积累，从而提升模型能力。

关键区别在于：

AI可以低成本、高效率地在虚拟环境中积累LTM。
经过精炼的LTM数据可以加速模型进化，并为LLM驱动的智能体提供高质量的数据支持。

最后，本章提出了后续研究的两个核心问题：

如何构建LTM？（第4节）
如何利用LTM实现模型自我进化？（第5节）

总结¶

本章系统分析了LTM在AI自我进化中的核心地位，揭示了当前LLM在LTM机制上的局限，并通过借鉴人脑的机制提出了改进方向。同时，强调了LTM对于提升AI个性化、持续学习和适应能力的重要性，并为后续章节的构建与应用打下理论基础。

4 How to Construct LTM?¶

本章主要讨论如何构建LTM（Long-Term Memory，长期记忆），作为AI系统实现个性化的重要手段。LTM的构建涉及从原始数据（Raw Data）出发，通过数据收集与数据合成等策略，最终形成结构化、可高效使用的长期记忆体系。

4.1 从原始数据到LTM¶

原始数据是模型与外部环境交互或训练过程中接收的所有未处理数据，包括各种观察和记录。原始数据虽然包含大量有价值的信息，但也可能包含冗余、无关内容，因此需要进一步处理才能被模型有效使用。

LTM的作用是对原始数据进行提炼与结构化，使其能够被模型高效利用，从而支持个性化响应与推荐。例如，在医疗AI场景中，原始数据可能记录患者的基本信息和症状，但无法有效整合其完整的健康史。而LTM会将这些信息组织成结构化的记忆，帮助AI模型识别模式、理解治疗反应，从而实现更精准的个性化医疗。

总结：
LTM是实现AI系统深度、持续个性化的核心。通过将原始数据转化为结构化的长期记忆，模型能够更高效地进行推理和适应性响应。

4.2 原始数据的构建策略¶

AI模型在构建LTM时面临三大挑战：

数据多样性与代表性：
LTM需要覆盖多样化的场景和用户群体，以确保模型的鲁棒性。数据不平衡、偏差以及标注质量差，都会影响模型性能。
用户行为与推理捕捉：
实现真正的个性化，必须理解用户的行为模式和推理过程。当前LTM模型在捕捉时间序列信息和中间推理步骤方面仍有不足，导致输出缺乏连贯性和上下文相关性。
数据隐私与安全：
在个性化模型中，数据隐私和安全成为核心问题，尤其是在设备端微调（on-device fine-tuning）中，必须确保数据处理的安全性。

4.2.1 数据收集框架¶

为了确保LTM的高质量与多样性，建立完整的数据收集与标注流程是关键。数据来源包括数字足迹（如通信记录、社交媒体活动）和物理交互（如穿戴设备、生物信号等）。

在数字领域，通信数据、浏览记录和内容消费数据等，能提供用户的兴趣和行为模式，是个性化建模的重要依据。
在物理领域，AR设备、可穿戴传感器等能够采集用户与环境的实时交互数据。
情境与行为数据（如地理位置）可以为模型提供空间与时间维度的信息，增强数据的丰富性。

此外，文章提出**增强感官整合（Enhanced Sensory Integration）和情境感知数据收集（Context-Aware Data Collection）**作为未来研究方向，通过多模态数据增强模型对用户行为的理解。

4.2.2 数据合成技术¶

由于原始数据存在隐私、碎片化和采集限制，合成数据成为构建LTM的有效补充手段。

早期方法：
早期依赖人类参与的模拟（如角色扮演）生成数据，但成本高、效率低、存在偏差。
基于大语言模型（LLM）的合成：
- S3方法：通过迭代方式利用LLM生成数据，不断修正小模型的错误，提升数据质量。
- Thepian Agent框架：通过多智能体角色扮演生成多样化的交互数据，增强情境丰富性。
- EnvGen框架：动态生成强化学习训练环境，模拟复杂的人类体验。
- AGA框架：以低成本方式优化智能体与环境的交互，节省计算资源。
混合策略：
将多种合成方法结合，如迭代数据生成、角色扮演对话、动态模拟环境和基于智能体的交互，形成更全面、高效的LTM数据生成体系。文章提到将在后续章节介绍RTG合成方法，以验证其在记忆检索任务中的有效性。

4.3 LTM的构建策略¶

LTM不仅是对原始数据的表面分类，更是从存储效率和信息利用效率的角度，设计合理的存储结构和处理方式。以下是几种主要的构建方法：

文本摘要（Text Summarization）：
- 将长上下文压缩为简洁形式，便于快速检索。
- 适用于频繁访问和快速理解的场景，例如ChatGPT通过实时摘要生成用户习惯记忆。
数据结构化（Data Structuring）：
- 使用树状结构、键值对等组织数据，便于查询和管理。
- 支持使用SQL等语言进行高效数据检索。
图结构表示（Graph Representation）：
- 用节点与边表示信息，适合表达关联性。
- 常用于长期记忆的图存储，通过图压缩和边权重优化提升检索效率。
- 可存储在Neo4j等图数据库中。
向量化存储（Vectorization）：
- 将数据片段转化为高维向量，便于相似性计算。
- RAG（Retrieval-Augmented Generation）在长文本任务中表现出色，通过向量匹配提升生成质量。
参数化存储（Model Parameterization）：
- 通过调整模型参数（如神经网络权重）实现信息压缩和泛化。
- 可通过微调大模型进行存储，或在Transformer的键值缓存中存储记忆。

结论：
当前最广泛使用的是RAG向量存储，而参数化存储作为新兴研究方向，正不断取得进展。文章已尝试多种方法，并将继续深入研究。

总结¶

本章系统地阐述了从原始数据构建LTM的全过程，包括数据的收集与合成策略，以及LTM的多种存储与组织方式。重点在于：

原始数据是LTM的基础，但需经过结构化处理才能被AI有效利用；
数据收集需兼顾多样性、隐私与安全性；
数据合成是应对隐私和碎片化数据的有效手段，LLM驱动的方法尤为高效；
LTM的构建策略包括文本摘要、结构化、图表示、向量化和参数化，各有适用场景。

通过这些方法，LTM能够为AI系统提供稳定、高效、个性化的记忆支持，推动AI实现自我进化与持续优化。

5 How can LTM be used to achieve model self-Evolution?¶

核心问题：在获取高质量LTM数据之后，如何有效利用这些数据增强模型能力，并实现模型的自我进化？

5.1 Incorporating LTM as Outside Knowledge Bases¶

重点内容：将LTM作为外部知识库，通过检索增强生成（RAG）和上下文学习（ICL）的方式，为大语言模型（LLM）提供动态信息支持。

动机：由于传统LLM不具备记忆能力，只能处理当前上下文，因此使用RAG将LTM作为外部存储是关键。
RAG与ICL：RAG通过外部数据库检索信息，ICL通过上下文学习模拟工作记忆，两者结合可以模拟人类的“短期记忆 + 长期记忆”结构。
技术进展：
- 编码（Encoding）：引入选择性编码机制（如MuRAG、RA-CM3），避免信息过载。
- 巩固（Consolidation）：使用树状结构（RAPTOR、MEMWALKER）对信息进行分层存储，提升检索效率。
- 检索（Retrieval）：结合语义与关键词检索（如Blended RAG、Hybrid Search），并引入重排序机制（Self-RAG、Re2G）提升相关性。

结论：RAG等技术不需更新模型参数，适合实时更新LTM，但在深度记忆建模方面仍不如人类。

5.2 Incorporating LTM by Updating Model Parameters¶

重点内容：通过模型参数更新的方式，将LTM数据直接融合进LLM内部，实现模型的自我进化。

方法：分为预训练、指令调优和对齐调优三阶段，每个阶段均可集成LTM数据。
预训练（Pre-training）：使用持续预训练（continued pre-training）方法，让模型继续学习新的LTM数据，但需注意灾难性遗忘问题。
指令调优（Instruction Tuning）：通过监督式微调（SFT），将LTM数据转化为指令-输出对，训练模型执行特定任务，类似人类从经验中学习。
对齐调优（Alignment Tuning）：利用强化学习（如RLHF、DPO、SimPO）对齐模型输出与用户偏好，但高质量反馈数据获取难度大。

优势：无需外部数据库，推理效率高，适合文本格式的LTM数据。但受限于模型上下文窗口和计算成本。

应用示例：

角色模型（Character-LLM）：通过SFT将角色特征与记忆训练进模型，实现更人性化的交互。
领域专家模型：如Med-PaLM（医疗）、LegalAI（法律）、BloombergGPT（金融）等，通过领域数据微调，提升专业能力。

5.3 Incorporating LTM Data with Mixed Strategy¶

重点内容：结合RAG与SFT的优势，提出混合策略，实现更高效的LTM数据利用。

检索阶段微调：优化检索器，提升相关文档的匹配精度，减少噪声（如REPLUG LSR）。
增强阶段微调：优化信息整合过程，如Self-RAG通过反思标记筛选有效信息，提升生成质量。
生成阶段微调：优化生成风格、格式，确保输出符合领域规范（如医疗、法律）。

总结：混合策略充分发挥RAG的外部信息获取能力和SFT的模型记忆能力，但需权衡微调频率与效率。

5.4 Utilizing LTM with Multi-Agents¶

重点内容：提出多智能体（Multi-Agent）框架，模拟人类认知过程，实现LTM的动态管理与利用。

四个核心模块：
1. 动态存储（Dynamic Memory Storage）：根据任务相关性更新记忆库，模拟大脑优先记忆重要信息。
2. 上下文检索（Context-Based Retrieval）：基于语义和时间上下文检索信息，提升检索质量。
3. 记忆巩固（Memory Consolidation）：定期评估记忆有效性，强化关键信息。
4. 自我反思（Self-Reflection）：通过反思抽象出通用原则，提升记忆管理和决策能力。

优势：多智能体框架更通用，各模块可独立分配给不同LLM代理，提升系统自适应能力，实现更人性化的LTM管理。

5.5 Utilizing LTM to Support Agent Self-Evolution¶

本节基于前几部分的研究回顾和提出的多智能体集成方法，进一步探讨如何利用长时记忆（LTM）来支持模型的自我进化。通过清华大学团队进行的“Agent Hospital”研究案例，展示了在特定医疗模拟场景中，LTM 如何提升模型的自我能力。提出的 LTM 累积与利用方法 MedAgent-Zero 主要分为三个模块：医疗记录累积、医疗经验反思 和 基于 RAG 的 LTM 利用。以下是对各模块的重点总结：

1. 医疗记录累积（Medical Records Accumulation）¶

在这一模块中，医生智能体通过累积成功的医疗案例来构建 LTM，以应对未来可能出现的类似问题。例如，在疾病诊断任务中，当智能体成功诊断出虚拟患者的症状后，该诊断过程将被保存为一条医疗记录，形成文本形式的 LTM 数据。这种方式模拟了真实医生的经验积累过程。重点在于：成功的案例经验是 LTM 构建的重要来源，能够为未来提供决策支持，增强诊断能力。

2. 医疗经验反思（Medical Experience Reflection）¶

此模块重点在于如何从失败的医疗案例中进行自我反思，从而积累 LTM。与直接存储成功案例不同，该模块通过自我反思技术，让智能体在诊断失败后进行总结与反思。系统会根据原始问题、智能体的回答和正确答案生成反思性 LTM 数据，这些数据也是文本形式。关键机制是：在生成 LTM 后，会验证智能体是否能根据总结的经验正确回答原始问题（无法正确回答则丢弃该 LTM）。这体现了 LTM 构建的动态性和准确性，确保累积的数据具有实际价值。

3. 基于 RAG 的 LTM 利用（RAG-based LTM Utilization）¶

在这一模块中，提出使用 RAG（Retrieval-Augmented Generation）技术 来利用已累积的 LTM 数据。当智能体遇到新问题时，会首先检索与该问题相关的 LTM 数据（基于生成该 LTM 的原始问题）。重要的是：整个过程不需要参数更新，而是通过在线的 ICL（In-Context Learning） 实现经验的积累与应用。随着 LTM 数据的不断积累，智能体的医疗诊断能力持续提升。实验结果显示，通过自我进化处理数万例患者后，该智能体在呼吸科的诊断能力甚至超过了当前基于真实数据训练的最先进（SOTA）模型。

总结¶

本文系统探讨了LTM在模型自我进化中的应用方式，主要分为三类策略：

外部知识库策略（RAG/ICL）：通过外部存储和检索实现LTM的动态访问，适合实时更新与低计算成本场景。
参数更新策略（SFT）：通过模型训练将LTM编码进模型内部，实现更强的能力，但计算代价较高。
混合策略：结合RAG与SFT，兼顾灵活性与推理效率。
多智能体框架：引入模块化设计，模拟人类记忆管理机制，实现更复杂的LTM利用。

核心挑战包括：数据稀疏性、用户多样性、实时性要求、模型遗忘问题等。未来研究可围绕如何优化记忆结构、提升微调效率、构建高质量反馈机制展开。

综上所述，LTM 的积累与运用在智能体自我进化中扮演着关键角色。正如人类知识的积累和传承有助于文化发展一样，通过适当的算法支持，LTM 也能有效提升模型的自我能力，是实现模型自我进化的重要一步。尽管本研究中的 LTM 处理方法仍存在一定的局限性，但它已充分展示了该方向的潜力。后续将在第 7 章中进一步探讨该方向的优化与未来计划。

6 The Practice of model self-evolution based on LTM¶

6.1 LTM数据获取的实践¶

本章节重点探讨了如何通过多种方式增强LTM数据的获取能力，从而为模型的自我进化奠定数据基础。

6.1.1 真实世界LTM数据收集¶

本研究与天桥脑科学研究院（TCCI）和上海市精神卫生中心（SMHC）合作，构建了系统化的数据采集框架。该框架覆盖了线下心理门诊中的真实医患对话，包括口语记录与书面文档，确保了数据的多样性与高质量。

关键点：

数据质量保障：通过标准操作流程（SOP）、知情同意书、数据脱敏等手段，确保伦理与隐私安全。
数据规模：采集了超过1000名参与者的数据，累计30000分钟的高质量对话音频，涵盖25种精神疾病诊断。
样本分布：以**重度抑郁症（MDD）和焦虑障碍（AD）**为主，性别和年龄分布均衡。

应用价值：该流程不仅适用于心理健康领域，还可扩展至其他业务场景，如办公协作等。

6.1.2 合成LTM数据生成¶

为解决真实数据获取成本高、效率低的问题，本研究引入了合成数据生成方法，尤其是结合真实数据的神经符号化多智能体框架，用于生成精神疾病诊断对话数据。

1. 真实数据增强型合成LTM生成¶

创新点（i）：一个案例生成多个对话，通过医生行为差异、虚构患者经历和话题顺序随机化，提升生成多样性。
创新点（ii）：基于符号控制的文本生成，利用动态诊断树（症状树+经验树）模拟真实诊断流程，提高生成数据的医学准确性。
成果：发布了MDD-5k数据集，包含5000个高质量诊断对话，是首个由精神科医生标注的中文精神疾病诊断对话数据集。

2. COT增强型合成LTM生成¶

问题：真实数据中缺乏中间推理步骤，影响模型训练。
解决方案：提出检索-思考-生成（RTG）方法，结合Chain-of-Thought（CoT）推理与检索增强生成（RAG），构建更完整的LTM数据。
验证结果：通过构建定制化训练集与评估集（LTM-COT-1），展示了RTG方法在提升模型利用LTM数据能力上的显著效果。

6.2 LTM数据使用的实践¶

本部分围绕如何有效利用LTM数据提升模型性能，进行了多个实验验证与系统设计。

6.2.1 LTM利用与SFT和RAG结合¶

方法：使用Homer-70B模型（基于Llama-3-70B-instruct进行SFT训练），结合RTG生成的LTM数据进行训练。
评估：在LTM-COT-1和多个公共基准测试（如MMLU、TruthfulQA）中，Homer-70B表现优异，验证了LTM数据在提升推理与引用能力方面的有效性。

6.2.2 LTM在医疗领域代理自我进化中的应用¶

方法：结合MedAgent-Zero算法与LTM理念，优化错误交互的经验处理。
结果：通过将原始经验转化为任务特定的LTM数据，模型在MedQA呼吸科子集测试中表现更稳定，达到最高95.83%的准确率。

6.2.3 LTM与记忆系统设计结合¶

三级记忆结构：
1. 对话记录：保存诊断对话的原始语音与文本。
2. 电子病历（EMR）：总结患者信息，便于后续诊断。
3. 诊断技能：由监督模块生成，用于优化诊断模式。
创新点：引入监督代理（supervisor agent）监控症状、生成问题，提高诊断效率。
实验结果：在模拟对话和真实对话中，结合EMR与诊断技能的模型表现最佳，分别提升了抑郁诊断和自杀风险预测的准确率。

6.2.4 LTM与实时权重更新结合¶

背景：传统Transformer模型在推理阶段权重冻结，限制了动态学习能力。
解决方案：引入**Test-Time Training（TTT）**层，允许模型在测试阶段进行学习更新。
目标：探索新的神经结构，使模型在推理过程中动态适应，进一步支持LTM数据的高效利用和模型的自我进化。

总结¶

第六章系统地探讨了LTM数据的获取与利用路径，涵盖真实数据采集、合成数据生成、LTM结合SFT与RAG的训练方法、医疗领域代理系统优化、三级记忆结构设计与监督机制引入，以及新的神经结构（如TTT）对模型自我进化的影响。该章强调了数据多样性、生成质量、伦理合规与模型适配性的重要性，并展示了LTM在提升AI模型推理、诊断与自适应能力方面的巨大潜力。

Experimental Settings¶

以下是对该论文章节内容的总结，结构尽量与原文保持一致，重点部分进行了精炼和突出说明：

实验设置（Experimental Settings）¶

本节旨在验证TTT（Train-Then-Train）机制在面对持续更新的长时记忆（LTM）数据时的适应性。由于不同语言的token分布差异较大，实验选择使用多语言数据集（法语、英语、中文）进行测试，以评估以下两个核心问题：

TTT是否能有效学习新的数据分布，从而提升对应测试集上的性能？
TTT是否会导致灾难性遗忘（catastrophic forgetting），即在适应新数据后原有任务性能是否下降？

实验数据与模型¶

使用Book3数据集（英文书籍）训练了一个1.3B参数的TTT线性模型（ModelEn）。
选取了两本外语文本作为新分布数据：法文书《LE RÊVE DE SUZY》和中文书《笑傲江湖》。
对每本书提取32,000个token，其中2,000个作为测试集，其余用于训练。
模型通过梯度下降更新权重 \(W_t = W_{t-1} - \eta \nabla \ell(W_{t-1}; x_t)\)，实现对新语言数据的自监督学习。

模型训练与评估¶

使用更新后的权重替换原始权重，分别得到法语专用模型ModelFR’ 和中文专用模型ModelCN’。
实验1：比较ModelEn（原始模型）与ModelFR’/ModelCN’在新语言测试集上的性能，指标为训练损失和困惑度（PPL）。
实验2：测试ModelEn与Domain-specific模型在原始Book3测试集上的性能，以评估是否出现灾难性遗忘。

实验结果（Experimental Results）¶

实验1：学习新分布模式¶

模型在不同语言任务上均表现出性能提升，尤其是随着推理token长度的增加，PPL显著下降。
在中文和法语测试集上的结果均优于原始模型，表明TTT机制能有效学习新语言的分布模式，提升模型适应能力。

实验2：灾难性遗忘测试¶

在原始Book3测试集上，模型性能略有下降（PPL增加），但幅度较小。
法语任务上的影响略高于中文任务，表明灾难性遗忘存在但有限。
总体来看，TTT对模型泛化能力的破坏较小，模型仍能保持对原始任务的较高性能。

序列建模结构的探索（Explore on the Sequence Modeling Structure）¶

本部分探讨TTT中建模函数 \(f\) 的不同实现方式对模型性能的影响：

MLP 在不同模型规模下均优于线性模型，说明更复杂的结构能更好捕捉新分布中的复杂性。
未来方向 包括：
- 使用RNN、LSTM或卷积结构来处理长序列数据，提高信息压缩能力。
- 探索多层级学习，如使用自注意力机制作为嵌套的内循环，逐步处理上下文依赖。
- 引入如Mamba、RWKV等高效模型结构，以及类脑神经多样性设计，以增强模型的表达能力和适应性。

6.3 基于LTM的多智能体框架开发（Development of LTM-Based Multi-Agent Framework）¶

本节介绍了Omne，一个基于AutoGen的LTM多智能体开发框架，旨在解决AI系统中LTM的实际应用问题。Omne具备以下核心功能：

6.3.1 核心模块（Core Modules of Omne）¶

Omne Core为框架的核心抽象层，提供统一的内存模型、多模态消息处理系统及灵活的存储与操作机制。
支持异步记忆检索、按需提取、跨场景重处理等复杂内存操作。
支持RAG技术与上下文学习的结合，提供灵活的集成能力。
提供多模态消息的存储与处理机制，自动处理图像到文本的转换，确保数据连续性和兼容性。

6.3.2 Omne Assistant¶

Omne Assistant为Omne的上层应用框架，专注于聊天场景下AI助手的开发。
包含Simple Responder（基本问答）和Reactive Responder（任务规划与执行）。
开发者可快速构建具备长期记忆能力的AI助手，无需从零设计基础功能。

6.3.3 案例研究（Case Study）¶

通过使用Omne的Memory Operator，实现了基于上下文学习（ICL）的复杂任务规划系统。
流程包括：任务规划与预存经验、模拟验证、人工干预、经验存储与检索等。
该方法降低了开发复杂度，提升了任务执行效率，同时保持系统可扩展性。

6.3.4 GAIA基准测试（GAIA benchmark）¶

Omne在GAIA通用AI助手基准测试中表现优异。
使用GPT-4o和o1-preview作为基础模型，搭配网络浏览、文件处理、逻辑推理等工具。
在验证集与测试集上分别取得第二和第一的成绩，在最难的Level 3问题上取得26.53%的准确率。
证明了Omne在结合强大基础模型与LTM机制后，具备解决复杂现实问题的潜力。

总结¶

通过实验验证，TTT机制能够有效学习新语言分布并提升性能，同时灾难性遗忘影响较小。
探索了更复杂的序列建模结构，如MLP、RNN、自注意力机制等，为未来模型设计提供方向。
Omne作为LTM多智能体框架，展示了如何在实际工程中高效部署长期记忆能力，并在通用AI测试中取得领先结果，验证了LTM在AI自进化中的关键作用。

7 Our Future Plans¶

作者认为，模型个性化可能是实现“第二次智能涌现”的关键途径。通过长期记忆（LTM）数据的积累，不同大语言模型（LLM）代理可以发展出多样化和差异化的能力。这种多样性更有可能激发新的智能。因此，LTM 和模型个性化将在实现这一目标中发挥核心作用。

未来，作者计划重点探索以下六个挑战性问题：

如何更好地构建LTM数据？
如何为LTM设计新的模型架构？
LTM如何帮助用户提出更好的问题？
如何将LTM与推理时的搜索机制相结合？
如何在复杂场景中利用LTM实现代理的自我进化？
如何在多代理系统中使用LTM？

7.1 如何更好地构建LTM数据？¶

重点内容：

构建高质量的LTM数据需要建立一个能够持续跟踪个体数据的系统。这可以通过激励用户长期参与数据平台，同时保障隐私和安全来实现。可穿戴设备和物联网传感器可以用于连续多模态数据收集，这对构建长期记忆模型至关重要。
为了在多样性和数据一致性之间取得平衡，需要构建涵盖广泛用户特征的高质量数据集，并统一标注和采集方法。
作者提出了一个端到端的数据合成系统，采用持续学习和自适应生成框架，通过反馈机制自动优化合成数据的质量，检测模型个性化中的数据缺陷，并调整生成策略。

总结：
本节强调了构建LTM数据的关键技术和策略，尤其重视数据质量、多样性以及合成数据的有效反馈机制。

7.2 如何为LTM设计新的模型架构？¶

重点内容：

当前模型依赖于“上下文窗口”（context window），但无法实现跨任务、跨会话的长期记忆。作者提出应重新设计模型架构，使LLM从依赖上下文窗口转向更深层的结构化长期记忆机制。
作者的愿景是将LLM视为世界模型，受大脑皮层柱的启发，每一层模型可以作为一个独立实体，动态调整权重以适应新数据分布。这样可以提升计算效率和模型灵活性。
模型的不同层可以根据任务激活不同的记忆片段，形成适应性推理机制。作者初步尝试了TTT模型，未来将深入探索这一方向。
作者强调，模型应能自主感知环境变化并调整记忆结构，而不仅仅是简单存储和调用数据。这种机制将使模型具备更强的环境适应性和个性化推理能力。

总结：
本节是全文的重点之一，提出了基于大脑启发的模型架构设计，强调模型应具备动态调整、环境感知和结构化存储的能力，为LLM向智能代理演化奠定基础。

7.3 LTM如何帮助用户提出更好的问题？¶

重点内容：

虽然LLM已能生成良好回答，但用户在提问质量上存在局限，影响了LLM的应用效果。如何帮助用户提出高质量的问题是关键。
作者提出从新闻访谈节目中提取和总结高质量问题作为训练数据，这类问题通常由经验丰富的主持人和记者提出，具备深入性和启发性。
作者提出探索与剪枝的平衡机制：初期探索新路径，后期剪枝无效路径，从而提升提出问题的效率。
引入动态探索与剪枝策略，早期偏向探索，后期偏向剪枝。同时，利用LTM跨任务迁移策略，减少重复探索和资源消耗。
在多代理系统中，如何在局部探索与全局剪枝之间取得平衡，避免影响其他代理的探索和系统演化，也是关键挑战。

总结：
本节关注LTM在提升用户提问质量方面的潜力，强调探索与剪枝策略的动态平衡，以及多代理系统中的协作机制。

7.4 如何将LTM与推理时搜索结合？¶

重点内容：

OpenAI的O1模型通过强化学习（RL）实现了LLM在推理阶段的多步推理和规划能力。作者认为，将LTM与这种动态推理机制结合，将共同定义未来AI的智能水平。
LTM可以提供历史上下文和洞察，减少模型的“重复学习”和低效路径。通过动态更新LTM，模型能更高效地进行推理搜索。
LTM可以作为LLM思维过程的状态抽象表示，帮助RL在推理路径中更高效地探索和剪枝，专注于有潜力的路径。
反过来，RL也可以通过实时探索来增强LTM。例如，当模型遇到知识空白时，RL可以生成针对性的问题或路径，主动补充LTM知识。

总结：
本节是另一个技术重点，提出LTM与强化学习结合的潜力，强调两者相辅相成，能提升模型的推理效率和搜索能力。

7.5 如何在复杂场景中使用LTM实现代理自我进化？¶

重点内容：

LTM在代理能力进化方面作用显著，但其前提是必须有可靠的反馈机制（如真实标注数据）来指导LTM的积累。
在复杂任务中，获取高质量标注数据成本高、难度大，尤其在生成型任务中评价方法缺失。因此，如何在没有明确反馈的情况下实现LTM驱动的自我进化是关键挑战。
作者提出通过环境反馈实现自我进化，包括来自物理世界或Simulacrum世界（模拟世界）的反馈。虽然物理世界反馈更真实，但效率低；模拟世界反馈效率高但构建复杂。

总结：
本节关注代理系统在复杂任务中的自我进化能力，强调环境反馈的重要性，并提出模拟世界作为可行替代方案。

7.6 如何在多代理场景中使用LTM？¶

重点内容：

多代理协作可能带来“第二次智能涌现”，是作者追求的终极目标。每个代理的行动通常是离散和局部的，但系统需要它们共同进化以实现全局优化。
在多代理协作中，LTM的积累和使用面临挑战，特别是如何分解任务完成的整体反馈为粒度反馈，以支持每个代理的LTM积累。
作者提出可以引入共享记忆或通信机制，帮助代理了解彼此决策和结果，从而在做局部决策时考虑全局目标，提升系统整体能力。

总结：
本节聚焦多代理系统中LTM的应用，提出共享机制和通信策略，是实现复杂系统智能涌现的关键研究方向。

总体总结¶

本章系统性地提出了作者在LTM与LLM模型发展中的六个核心研究方向，涵盖了数据构建、模型架构、用户交互、推理机制、代理进化、多代理协作等关键议题。作者强调，LTM不仅是实现模型个性化和智能涌现的核心基础，更是构建更高级AI系统的必经之路。通过LTM的持续演化与模型结构创新，未来AI有望具备更强的自主学习、适应与推理能力，推动智能系统的进一步发展。

8 Conclusion¶

在本报告中，我们提出长期记忆机制和知识的演变性质将是未来发展的关键。当前的模型将所有数据（从古代到现代）统一处理，未能捕捉知识逐步演进的过程。而人类的认知是逐步发展的——孩子从简单概念开始学习，逐步过渡到复杂概念，知识是在时间中积累和演化的。因此，如果模型能够以时间结构化的数据进行学习，按照难度或序列逐步推进，就可能不仅仅掌握静态事实，还能理解知识之间的关系及其演变过程。

通过利用长期记忆架构，模型能够逐步捕捉这种学习的演变特征。模型不止是记忆信息，而是能学习知识发展的动态过程，从而在更长的时间尺度上运作。这种机制还将涉及递归学习，即模型通过来自现实环境的反馈不断调整自身，形成自我强化的学习机制。随着神经网络的演进，它们可能会更注重在梯度下降过程中快速剪枝搜索空间，并从递归计算中的更强并行性中获益。总体而言，尽管模型的扩展规律仍然存在，但其架构必须适应日益复杂的任务，同时保持计算效率。

展望未来，受人类多样性启发的模型个性化可能会推动智能的新层次发展。在多智能体系统中，拥有长期记忆能力的多样化智能体可以更有效地协作，通过探索与剪枝的平衡实现全局优化。这种个性化的适应能力可能是智能第二次涌现的关键，即多个智能体共同演化，以应对越来越复杂的问题。

本研究探索了长期记忆与进化学习的结合，旨在推动AI的发展，特别是那些需要持续适应、学习与个性化的模型。本文旨在阐述我们对未来研究方向的愿景与路线图，并明确关键的研究重点。我们邀请同行研究人员共同探讨我们的发现，并与我们合作，致力于通过长期记忆机制提升模型的个性化能力。

Appendix A RTG prompt¶

本附录描述了用于执行 RTG（Reverse-Time Grounding，反向时间接地）任务的提示（prompt）结构。其核心目标是通过给定的文档内容来回答用户的问题，并要求输出符合特定格式的 JSON 结果。

1. 回答结构（JSON 格式）¶

用户被要求以 JSON 格式返回四个键值对：

Relevant: 列表类型（list[int]）或 None。
表示哪些文档与问题相关。需要仔细筛选，确保所有相关文档都被包含。如果没有任何文档相关，则返回 None。
Cited: 列表类型（list[int]）或 None。
表示哪些文档中的事实应该被引用。如果不需要引用任何文档，则返回 None。
Grounded: 字符串类型（str）。
需要提供一个详细的、分步骤的推理过程，并明确标注被引用的文档内容。引用内容需要包含在 <begin_cite: doc_num> 和 <end_cite: doc_num> 之间。非引用内容则不能使用这种标注方式。
Answer: 字符串类型（str）。
最终的答案必须是完整的、高质量的自然英语回答。不得插入任何引用或标注。

2. 执行步骤（按顺序）¶

确定相关文档（Relevant）
这一步要求识别与用户问题相关的所有文档。必须仔细筛选，确保没有任何相关文档被遗漏。
确定需引用的文档（Cited）
需要判断哪些文档中的事实在回答中必须被引用。这一过程也需要全面，确保所有应被引用的信息都被列出。
提供基于文档的推理过程（Grounded）
这是关键且详细的推理步骤。要求将引用的文档内容准确地复制并标注，确保引用内容清晰可见。非引用内容则不能加标注。
生成最终回答（Answer）
最后一步是生成一个完整的自然语言回答。该回答必须基于之前的推理和引用的文档，但不能直接包含引用标记或标注。

总结¶

本附录详细描述了 RTG 任务的提示模板，强调了从文档中提取信息、判断相关性与引用性、构建推理过程，并最终生成高质量自然语言答案的全过程。JSON 输出格式的结构非常严格，确保了答案的可复现性和可验证性。

重点内容包括：JSON 的四个输出键、引用格式的使用规则、推理过程的详细要求等。这些内容对于任务的正确执行至关重要，而非文档编号或图示等次要信息则较为简略。