2506.24019_Ella: Embodied Social Agents with Lifelong Memory¶

首页: https://arxiv.org/abs/2506.24019
PDF: https://arxiv.org/pdf/2506.24019

Abstract¶

我们介绍了 Ella，这是一个能够在一个 3D 开放世界社区中进行终身学习的具身社交代理。通过日常的视觉观察和社交互动，代理可以积累经验和获取知识。

Ella 的核心能力在于其结构化的长期多模态记忆系统。该系统能高效地存储、更新和检索信息，由两个部分组成：

以名称为中心的语义记忆，用于组织所获得的知识；
时空情景记忆，用于捕捉多模态体验。

通过将这种终身记忆系统与基础模型相结合，Ella 能够：

检索相关信息用于决策；
规划日常活动；
建立社交关系；
在开放世界中与其它智能体共存的同时实现自主进化。

我们在一个动态的 3D 开放世界中进行了以能力为导向的评估。实验中，15 个代理进行了数天的社交活动，并接受了多种未见过的受控评估。实验结果显示，Ella 能够很好地影响、领导和与其他代理协作以实现目标，展示了它通过观察和社交互动有效学习的能力。

研究结果表明，将结构化记忆系统与基础模型结合，具有推动具身智能发展的变革潜力。更多视频请访问 https://umass-embodied-agi.github.io/Ella/。

1 Introduction¶

1 引言（Introduction）总结¶

本节主要介绍构建具有长期记忆的具身社会智能体（embodied social agents）的研究动机与挑战，并提出本文的核心方法与贡献。

研究背景与动机¶

目标：
研究者长期致力于构建能够融入人类社会、具备生存能力的智能体。这需要智能体在开放且社交的世界中实现终身学习。
智能体的关键能力：
- 积累经验：包括视觉观察与与其他智能体的社交互动（如对话）。
- 知识获取：从多模态经验中学习，建立新的对象、智能体和事件的概念，并理解它们之间的联系。
基础模型的推动：
随着基础模型（Foundation Models，如 GPT-4、SAM2、DeepSeek）的快速发展，涌现出大量强大的智能体，涵盖纯文本、多模态、游戏、虚拟世界和现实世界中的机器人。
长期记忆的缺失：
当前研究的一个关键不足是长期记忆系统的缺失。尽管人类通过情节记忆（Episodic Memory）和语义记忆（Semantic Memory）组织经验与知识，从而实现长期规划和高级认知功能，但现有具身智能体的实验范围局限于特定空间与短时间尺度（如室内、几秒或几分钟）。
已有尝试的局限性：
- Generative Agents：引入了文本时间序列情节记忆，但依赖完美感知（oracle perception），且仅限于2D沙盒环境。
- Voyager：设计了长期程序性记忆，通过自我训练在Minecraft中学习新技能，但同样依赖完美感知。
- 当前挑战：如何在开放且社交的3D世界中，构建有效的长期记忆系统，使智能体能通过视觉观察和社交互动学习，仍未被充分探索。

本文的贡献与方法¶

方法概述：
本文提出一种结构化的长期多模态记忆系统，从心理学与认知神经科学中汲取灵感，构建两种形式的长期记忆：
- 以名称为中心的语义记忆（name-centric semantic memory）：
  利用分层场景图（hierarchical scene graph）和知识图谱（knowledge graph）来组织所学知识。
- 时空情节记忆（spatiotemporal episodic memory）：
  记录智能体的多模态体验（如视觉、交互）。
智能体 Ella 的介绍：
Ella 是一个具身终身学习智能体，能够在开放的3D世界中，通过视觉感知与社会互动积累经验与知识，并整合结构化记忆与基础模型。
Ella 采用规划-反应框架（planning-reaction framework）进行行为控制：
- 规划阶段：从记忆中检索相关上下文，生成结构化的日常计划。
- 反应阶段：根据新的视觉观察与社交互动更新记忆，并调整计划或进行互动。
实验平台与评估方式：
- 平台：使用 Virtual Community（Vico），一个支持大规模多智能体模拟的开放世界平台。
- 评估方式：不同于传统任务导向的评估，本文关注高阶认知能力的测试，例如：
  - Influence Battle（影响力竞赛）：智能体需说服他人参加其举办的活动。
  - Leadership Quest（领导力任务）：智能体需在资源有限的情况下领导团队完成任务。
实验结果：
在三个社区中进行多天的模拟实验，Ella 展现了高级认知能力，包括：
- 社交推理（Social Reasoning）
- 领导力（Leadership）

本文核心贡献总结（重点内容）¶

结构化长期记忆系统：
提出结合以名称为中心的语义记忆与时空情节记忆的框架，支持智能体在开放社交世界中的终身学习。
Ella 智能体的提出：
Ella 是首个通过视觉观察与社会互动实现自我演进的具身社交智能体，整合结构化记忆与基础模型实现智能行为。
大规模动态实验验证：
在动态3D开放世界中模拟15个智能体多天的行为，验证Ella在社交推理、领导力等高阶认知能力上的表现。

总结¶

本节重点阐述了构建长期记忆对于具身智能体的重要性，指出现有工作的不足，并提出本文的解决方案：通过结构化的语义记忆与情节记忆系统，结合基础模型，构建具备终身学习与高阶认知能力的智能体 Ella。实验部分通过开放世界模拟，验证了 Ella 在社交环境中的有效性与优越性。

2 相关工作¶

本节回顾了与本文研究密切相关的两个重要方向：具身社交智能和智能体记忆。我们对这两个方向的研究现状进行了梳理，并指出现有工作的局限性，以及本文是如何在这些基础上进行创新的。

2.1 具身社交智能¶

具身社交智能的研究在多智能体环境中广泛展开。一部分研究聚焦于简化符号或类似游戏的环境，如星际争霸、多人合作游戏等，这些环境便于建模，但忽略了开放世界中的复杂挑战，如环境感知、智能体个性多样性等。

另一部分研究则关注于生成式智能体（Generative Agents），如 [Park et al. 2023] 提出的统一时间语言记忆（Unified Temporal Language Memory），展示了在符号化社区中模拟类人智能体的可行性。随后，多个工作在此基础上探索了基于文本的沙盒环境中社交智能体的构建，例如 Camel、Sotopia 等项目，这些系统强调智能体之间的交互与合作。

此外，还有研究集中在人机交互（Human-Robot Interaction）领域，如 [Gombolay et al. 2015] 和 [Goodrich et al. 2008]，它们关注现实世界的应用场景，但大多局限于特定任务设置，缺乏对复杂社交行为的建模。

不同于此，本文的研究重点在于构建一个开放的3D世界中的社区，其中智能体具备空间上的广泛区域和时间跨度上的社交行为，涵盖多日时间尺度，从而更贴近现实社会的动态性。

2.2 智能体记忆¶

记忆系统在AI中是一个历史悠久的研究领域，尤其在认知架构中得到了深入探讨。然而，大多数现代智能体架构假设的记忆是短时的，受限于特定领域或任务的时间范围。

在计算机视觉领域，视觉记忆（Visual Memory）被广泛用于构建语义表示，包括使用体素（Voxels）、场景图（Scene Graphs）、八叉树（Octrees）或隐式连续表示（Implicit Continuous Representations）等形式。

近年来，多个研究探索了长期记忆机制，如：

[Kurenkov et al. 2023] 和 [Yang et al. 2024] 提出了基于场景图的更新机制，适用于长期任务；
[Wang et al. 2023] 和 [Li et al. 2024] 构建了过程记忆，用于支持游戏中的长期规划；
[Jiang et al. 2024] 提出基于图的长期记忆，用于大语言模型任务的自我演化；
[Wang et al. 2024] 结合长期与短期记忆，用于家庭环境中的任务执行；
另一类研究则聚焦于如何从外部数据源中检索知识以增强大语言模型的能力。

然而，上述工作均未研究如何构建一个能够同时从环境视觉观察和社交互动中学习的长期记忆系统，本文通过双结构化记忆（Dual-form Structured Memory）和基础模型（Foundation Models）解决了这一问题。

图2说明（Figure 2）¶

图2展示了一个包含15个智能体和4个社交群体的纽约社区示例。图中右侧展示了智能体 Elizabeth Mensah 的角色设定和观察结果，展示了模型在复杂社交环境中的表现。

3 Problem Setting¶

3 问题设定¶

本节描述了多智能体（Agent）在一个开放且具有社交互动的虚拟世界中运行的基本设定。每个智能体具有独特的视觉外观 \( v_i \) 和角色档案 \( c_i \)，并且它们会形成 \( k \) 个社交群组，如图 2 所示。

1. 智能体与社交群组¶

智能体定义：每个智能体由基本属性定义，包括姓名、年龄、职业、价值观（参考 Schwartz, 2012）、爱好、生活方式以及当前在社区中的目标。这些属性直接影响智能体的日常决策。
社交群组：社交群组由基于角色兼容性选出的一组智能体组成，每个群组具有：
- 一个群组名称
- 一段详细的文本描述
- 一个物理活动地点
社交群组将智能体连接成一个紧密的社区，使得它们能够在3D环境中进行丰富而复杂的社交互动。

2. 智能体的初始知识¶

每个智能体在初始化时拥有部分世界知识，包括：
- 已知的地点（如住所）
- 熟悉的其他智能体（如群组成员）
这些知识基于其角色属性设定。

3. 模拟环境与交互机制¶

时间分辨率：模拟以每秒一步的细粒度时间运行。
观察输入 \( o_i \)：每个智能体每秒会接收到：
- RGB图像和深度图像
- 邻近智能体的对话内容
空间限制的对话：智能体之间的交流受到空间距离限制，只有当两个智能体之间的距离小于设定的阈值 \( \theta_s \) 时，才能进行对话。这模拟了现实中语言交流的空间限制性。
智能体动作 \( a_i \)：智能体每秒执行一个动作 \( a_i \)，该动作可以是与环境或其他智能体的互动。

4. 控制评估与干预方式¶

在受控的评估中，干预仅通过修改智能体的社区目标来实现。
智能体需要根据其更新后的角色属性 \( c_i \) 和接收的观察数据 \( o_i \)，做出最优的决策 \( a_i \)。

总结¶

本节构建了一个高度模拟现实的社交环境，其中智能体拥有个体差异、社交互动、空间限制和持续决策机制。重点在于：

智能体的个性化设定（价值观、目标、兴趣等）
社交群组的结构与功能
空间约束下的对话机制
基于角色与观察的决策过程

这些构成后续实验与评估的基础框架。

4 Ella: Embodied Lifelong Learning Agent¶

以下是对文章“4 Ella: Embodied Lifelong Learning Agent”章节内容的总结，按照原文结构进行讲解，并对重点内容进行着重说明，非重点内容适当精简：

4 Ella: Embodied Lifelong Learning Agent¶

本节介绍Ella系统，一个在3D开放世界中能够持续学习的具身智能体。为了实现这一目标，系统核心在于构建稳定且高效的长期记忆。参考心理学和认知神经科学的理论，Ella将长期记忆分为两种形式：

Name-centric Semantic Memory（名称中心语义记忆）：用于存储关于代理和环境的事实性知识，持续更新。
Spatiotemporal Episodic Memory（时空情景记忆）：用于存储个人经历，包含时间、地点和多模态内容。

然后，介绍如何利用基础模型（foundation models），将上述记忆系统整合到代理的日常规划与社交互动中。

4.1 Name-centric Semantic Memory（名称中心语义记忆）¶

语义记忆存储有关代理及其世界的事实性知识，并随着代理与环境和其他代理的互动而不断更新。与语言代理不同，Ella的语义记忆是环境感知基础的，通过构建一个名称中心的知识图谱，将不同种类的知识组织在一起（图3(a)所示）。

4.1.1 Hierarchical Scene Graph as Spatial Memory（分层场景图作为空间记忆）¶

构建一个分层场景图谱（Hierarchical Scene Graph）用于代理在3D世界中的定位和导航，具体分为三个层次：

Volume Grid Layer（体积网格层）
- 利用RGB和深度图像构建3D空间表示，生成障碍地图以辅助导航。
- 将空间划分为0.5m×0.5m的块，并进一步划分0.1m×0.1m的小单元，用于判断是否为可行走区域。
Object Layer（对象层）
- 使用多阶段视觉感知流程（包括标签、目标检测和图像分割）提取语义对象。
- 通过3D点云和视觉特征计算对象间的几何和视觉相似性，并进行合并，尤其处理了动态对象（如代理和车辆）的跨帧匹配问题。
Region Layer（区域层）
- 利用广义Voronoi图（GVD）对建筑物进行区域划分，通过谱聚类将地图划分为多个区域，实现更结构化的空间划分。

4.2 Spatiotemporal Episodic Memory（时空情景记忆）¶

情景记忆负责存储个人经历。Ella的情景记忆模块不仅包括时间与空间信息，还包含多模态内容（文本描述和第一视角图像），使得代理可以基于当前环境检索相关经历。

Retrieval（检索机制）¶

情景记忆支持时空检索，根据查询的时间、地点和内容，对所有记忆条目进行排序，依据三个指标：

Spatial Proximity（空间接近度）：事件位置与查询位置之间的距离。
Content Relevance（内容相关性）：通过文本和图像的余弦相似度计算。
Temporal Recency（时间新鲜度）：使用指数衰减函数计算最近访问的权重。

最终将三个指标归一化后取平均，作为检索得分，返回Top-k条结果。

4.3 Planning, Reaction, and Communication（规划、反应与通信）¶

Ella利用上述记忆系统，结合基础模型，实现日常规划、环境交互和社交行为。总体流程如下：

根据长期记忆生成日常计划。
根据观察更新语义记忆，并通过反应模块进行计划修订、环境交互、对话等动作。
通信模块负责生成对话内容、对话摘要及知识提取，更新语义记忆。

4.3.1 Daily Schedule（日常计划）¶

每天开始时，Ella会从长期记忆中检索并生成一个基于环境与角色的结构化日常计划，计划包括活动的起止时间、地点和描述，并考虑不同地点之间的通勤时间。例如，从办公室到聚会场所可能需要15分钟以上，若未考虑通勤时间，可能导致错过活动。

4.3.2 Reaction（反应模块）¶

当系统获得新的观察信息（如视觉或语音）时，会：

更新语义记忆；
通过“Important things to react to.”的查询检索相关记忆；
通过基础模型决定是否需要修订计划、与环境交互、对话或无操作；
若超过预设时间θreact未触发反应，模块将自动激活。

4.3.3 Communication（通信模块）¶

当代理决定进行对话时，通信模块将：

根据最新对话内容或“Things to chat about with conversation targets”的查询，检索相关记忆；
生成合适的对话内容；
对话结束后进行摘要，并将新知识提取后更新语义记忆。

总结¶

Ella系统通过构建名称中心语义记忆和时空情景记忆，结合基础模型，使代理能够在3D开放世界中进行持续学习和社交互动。整个系统强调长期记忆的组织与检索，并利用结构化规划和动态反应机制，实现智能体的自主行为与社交能力。

5 Experiments¶

5 实验结果总结¶

5.1 实验设置¶

本实验在 Virtual Community 平台上进行，这是一个基于真实世界构建的开放型多智能体模拟环境，支持大规模社区场景和物理仿真。实验中，使用了 15 个具有不同角色设定的具身社会智能体，在三个不同的城市场景（纽约、伦敦、底特律）中进行测试，总共有两个评估任务：

Influence Battle（影响力竞赛）：要求两个小组在 6 小时内组织一场派对，需外出邀请其他组的智能体参加。评估指标包括“到场率”（show-up rate）和“总对话次数”。
Leadership Quest（领导力任务）：每个小组被分配一项在城市中购买物品的任务（3 小时内完成），其中一名成员为“领导者”，其他成员需协助领导。评估指标包括“完成率”（completion rate）和“总对话次数”。

实验分为两个阶段：

第一阶段：模拟 9 小时，智能体熟悉环境、彼此建立记忆。
第二阶段：进行上述两个任务评估。

为了与 Ella（本文提出的方法）对比，也复现了两个已有方法作为基线：

CoELA：专注于室内场景的协作具身智能体框架。
Generative Agents：依赖“完美感知”（Oracle Perception）和预定义通信机制的行为模拟。

Ella 的感知模块使用了多种模型，包括 RAM++、GroundingDINO 和 SAM2，文本和图像嵌入使用 CLIP 和 Azure 提供的模型。基础模型使用 GPT-4o（CoELA 也使用了 GPT-4o），但对 Generative Agents 使用了 GPT-3.5 以节省成本。此外，还测试了开源模型如 DeepSeek 和 Qwen 用于 Ella 的“Oracle Perception”版本。

5.2 实验结果¶

Ella 在两项任务中表现优异¶

Influence Battle：Ella 的 到场率 和 对话次数 在三个城市中均优于 CoELA 和 Generative Agents，尤其是在伦敦和底特律表现突出。
Leadership Quest：Ella 的 完成率 明显高于其他方法，尤其在伦敦社区表现最佳，而 CoELA 几乎未完成任务，Generative Agents 表现不佳。
搭配 Oracle Perception（使用真实2D分割） 后，Ella 的性能进一步提升，尤其是在识别对话目标和维护社交联系方面表现更佳。

Ella 的结构化长期记忆系统优势明显¶

Ella 的记忆系统在任务中展现出 结构化、稳定、高效 的增长特性。相比 Generative Agents，Ella 的记忆节点增长更有序，支持更大规模的记忆存储和快速检索，从而提升任务表现。

基于开源基础模型的 Ella 表现有潜力¶

尽管 GPT-4o 性能最佳，但使用开源模型如 DeepSeek-R1-Distill-Qwen-14B 后，Ella 仍能取得接近 GPT-4o 的表现，而 Qwen2.5-14B-Instruct 表现较差。这表明 Ella 框架本身具备良好的兼容性和可扩展性。

感知能力对具身社交智能体至关重要¶

与已有方法相比，Ella 不依赖“完美感知”，而是通过 视觉识别 和 对话内容 来判断与谁交谈，并根据 3D 位置 判断消息传播范围。因此，感知能力的提升（如 Oracle Perception）显著增强交互能力，特别是在复杂 3D 环境中。

总结¶

本节对 Ella 在开放世界 3D 社区中的表现进行了全面实验验证。通过两个挑战性任务（影响力竞赛与领导力任务）和多种感知设置（真实感知与 Oracle 感知），证明了 Ella 在 社交推理、说服能力、协作能力 等方面的优越性。其结构化记忆、强大感知、以及对开源模型的良好适配性，为未来具身社会智能体的发展提供了坚实基础。

6 Limitations¶

6 限制（Limitations）¶

本节总结了当前系统在实现和设计上存在的几个关键限制，分别涉及知识检索方式、模拟效率以及认知过程的同步性假设。

Leverage the graph structure of the name-centric semantic memory.¶

虽然以名称为中心的语义记忆是以图结构维护的，但当前实现仅依赖于文本和图像特征的相似性进行知识检索。这意味着系统尚未充分利用图结构中潜在的复杂关系和连接。

为提升系统的推理能力，未来可以引入更先进的基于图的知识检索方法，如文献 zhang2025surveygraphretrievalaugmentedgeneration、sun2023think、gutiérrez2024hipporag 所提出的多跳推理技术。这些方法有望增强系统进行复杂推理的能力，是未来研究的关键方向。

Lifelong simulation of a community of agents in a visually rich, physics-realistic environment is computationally expensive.¶

尽管实验只持续了1.5个模拟天数，看似较短，但系统采用了**终身学习（lifelong learning）**的通用定义，即智能体在不同经验中积累、保留并复用知识的能力（参见 chen2018lifelong）。

然而，即使进行了系统级优化，每次模拟仍需与现实时间同步，即每一模拟秒对应一真实秒。这是因为系统需要进行多摄像头渲染、蒙皮运动计算，以及调用多个模型或API来支持智能体的决策过程。因此，模拟一天需要一天的真实时间，这严重限制了实验的规模和效率。

尽管如此，随着图形和模拟技术的进步，这一瓶颈有望被缓解，从而支持在高保真、物理真实环境中开发更复杂的具身化社会智能体。

All agents’ thinking processes are assumed to finish synchronously.¶

人类的认知过程是受有限计算资源限制的（lieder2020resource），但目前系统假设所有智能体的思考是同步进行且资源无限的，即无论其思考过程多复杂，仅需1秒即可完成。

然而，现实中智能体应考虑在有限资源下进行思考的时间成本，并研究如何在快速的系统1思维（system-1）和缓慢的系统2思维（system-2）之间切换（evans2003two）。这是一个值得进一步探索的认知建模方向，有助于更真实地模拟人类智能行为。

7 Conclusion¶

7 结论¶

在本文中，我们构建了一个结构化的长期记忆系统，包括以名称为中心的语义记忆和时空情景记忆，并引入了 Ella——一个具身化的社会智能体，它利用基础模型和检索到的记忆来进行推理、制定日常计划以及参与社交活动。

我们在一个虚拟社区中进行了以能力为导向的实验，涉及15个智能体，分布在3个不同的社区中。实验结果表明，Ella 能够有效地利用长期记忆在开放世界中对他者智能体施加影响、合作与领导，同时不断积累多模态经验，并从环境的视觉观察和与其他智能体的社交互动中持续获取知识。

本研究的发现表明，将结构化的长期记忆与基础模型相结合，对于推动能够与人类共存的具身通用智能的发展具有重要意义。

Appendix A Broader Impact¶

Appendix A 更广泛的影响¶

本节重点探讨了当具身社会智能体（embodied social agents）日益先进并融入以人为中心的环境中时，所引发的伦理和社会层面的关键问题。

首先，AI驱动的说服能力对人与智能体交互的影响是主要关注点之一。文章提到，在“影响之战（Influence Battle）”的评估中，智能体Ella成功说服其他智能体参加活动，表现出其对群体行为的塑造能力。尽管这种社交推理能力对于协作型AI非常重要，但如果在现实世界中被滥用，可能导致操控、误导或不当影响等风险。因此，必须在设计AI驱动的说服型智能体时，强调透明的意图披露和价值观对齐，以避免其从事欺骗性或强制性的行为。

其次，决策过程可能反映和加剧社会偏见也是一个重要问题。文章以“领导力探索（Leadership Quest）”为例，指出Ella在领导能力上表现优异，但在AI驱动系统中，领导资格的评判标准是否公正仍存疑问。为确保AI在领导角色中的多样性和公平性，需要实施强有力的偏见缓解策略、谨慎的数据集构建，以及在多种社交背景下的持续评估。

总结来说，本节强调了AI社会智能体在提升社会协作能力的同时，必须关注其可能带来的伦理风险，并通过技术设计与制度保障，确保其行为符合人类价值观与社会公平原则。

Appendix B Additional Experiment Details¶

附录 B 实验附加细节总结¶

B.1 虚拟社区 (Virtual Community)¶

Virtual Community (ViCo) 是一个为多智能体具身AI设计的开放世界模拟平台，其特点包括从现实世界中衍生的大规模社区场景，并具有真实的物理模拟和渲染效果。ViCo基于 Genesis [5] 引擎开发，该引擎是一个全可微的生成式物理模拟器，能够模拟多种材料和广泛的机器人任务。Genesis还集成了基于OpenGL的实时渲染器和基于Luisa的路径追踪渲染器，以实现高质量的视觉效果。

ViCo的主要功能是提供可扩展的3D场景创建以及具身代理社区的生成，适用于各种研究和模拟任务。

B.1.1 场景 (Scenes)¶

ViCo通过一个在线流程将现有的3D地理空间数据转化为高质量的模拟场景，并自动标注这些场景以实现与现实世界的对齐。此流程支持在任意地点和规模上生成室内和室外环境。目前，ViCo已生成了57个全球不同城市的场景。

在本文中，用于评估的场景子集包括：纽约市、底特律和伦敦。图6展示了虚拟社区中不同场景的近景视图（图6略，见原文）。

B.1.2 代理 (Agents)¶

ViCo提供了74种角色皮肤，包括来自Mixamo的普通皮肤和通过Avatar SDK从真实图像生成的名人皮肤。在每个场景中，随机选择了15种皮肤进行使用。ViCo结合了SMPL-X人类骨架模型和生成的皮肤，支持最多2,299种独特的动作（来自Mixamo）。

此外，ViCo能够生成与场景绑定并具备社交关系的角色，从而模拟真实的社区生活。图5展示了纽约市中一个生成的社区，并标注了具有不同功能的场所（图5略，见原文）。

B.2 计算资源 (Compute)¶

实验是在单个NVIDIA A100 GPU上进行的。每个社区生命模拟分为两个阶段：

第一阶段运行20小时；
第二阶段每个任务和社区运行10小时。

每个代理的记忆存储（包括情景记忆和语义记忆）在模拟运行9小时后平均占用161 MB。运行时，代理还需额外的内存用于感知、规划和检索，其中感知模块单独占用约4 GB GPU内存。每个代理进程的最大RAM使用量约为1 GB。

总结要点：¶

ViCo 是基于Genesis引擎构建的高质量多智能体模拟平台，支持大规模、可扩展的3D场景生成和具身智能体建模。
实验使用了纽约、底特律和伦敦三个城市的场景进行评估。
代理系统包括多种角色皮肤和动作支持，能生成具有社交关系的社区角色。
计算资源方面，实验在A100 GPU上运行，感知模块消耗高（约4GB GPU内存/代理），整体内存使用量较大（约1GB RAM/代理）。

Appendix C Additional Implementation Details¶

Appendix C Additional Implementation Details（附录C 额外的实现细节）¶

C.1 Navigation（导航）¶

在本节中，作者进一步介绍了在语义记忆（Semantic Memory）中维护的体积网格（volume grid）如何用于导航任务。

1. 占用地图构建与网格分类
基于语义记忆中的体积网格，系统构建了一个占用地图（occupancy map），并将整个地图划分为三类网格点：

未知区域（unknown）：尚未探索的区域；
已知障碍物区域（known obstacles）：已识别的障碍物区域；
已知非障碍物区域（known non-obstacles）：已探索且可通行的区域。

这一分类如图7所示，图中红色表示已探索区域，白色代表建筑，黑色为未探索区域，绿色圆圈表示代理（agent）计划访问的建筑。

2. 路径搜索算法（A*）
为了寻找最短路径，系统使用了A*算法，并为不同类型的网格点设置了不同的权重：

已知非障碍物点权重设为 1；
未知点权重设为 5，以鼓励探索但避免过于冒险；
障碍物点权重设为无穷大，表示不可通过。

此外，为避免代理因靠近障碍物而“卡住”或与墙壁发生碰撞（wall-clipping），系统对靠近障碍物的点附加了一个惩罚权重，具体为：

距障碍物距离为d的点，附加权重为 \( \frac{100}{d} \)，距离越近，权重越高。

3. 路径一致性优化
为防止代理因连续路径规划结果差异过大而原地徘徊，系统在路径更新时会优先使用之前计算的路径，除非发现该路径不可行（如穿越障碍物）。

重点总结：

通过语义记忆中的体积网格构建占用地图，并分为三类网格点；
使用A*算法进行路径搜索，并为不同区域设置不同权重；
特别是对靠近障碍物的区域施加额外惩罚；
为保持导航稳定性，优先沿用上一路径，除非路径不可行。

Appendix D Prompt Templates¶

以下是该节《Appendix D Prompt Templates》的总结：

Appendix D Prompt Templates¶

本节提供了在 Section 4.3（Planning, Reaction, and Communication） 中介绍的各个模块所使用的完整提示模板（prompt templates）。这些模板用于指导基于记忆、计划和交互的智能体行为生成。具体内容通过 Figure 8 到 Figure 12 展示，每张图对应一种提示模板的结构和变量替换方式。

Figure 8: 生成日常计划的提示模板¶

用途：用于生成智能体的日常计划（daily schedule）。
变量替换：
- Character：智能体的角色描述。
- Context：从记忆中检索的相关上下文信息。
重点：通过角色描述和记忆内容，生成一个符合角色设定的计划。

Figure 9: 生成反应的提示模板¶

用途：用于生成智能体对当前情境的反应（reaction）。
变量替换：
- Character：角色描述。
- Schedule：当日剩余的计划。
- Experience：从记忆中检索的经验。
- Context：最新的记忆内容。
重点：结合角色、计划和记忆，生成符合当前状态和目标的反应行为。

Figure 10: 生成语言输出的提示模板¶

用途：用于生成智能体的语言输出（utterance）。
变量替换：
- Character：角色描述。
- Target_knowledge：目标知识。
- Target_experience：目标经验。
- Context：记忆内容。
- Conversation_history：最近的4条对话记录。
重点：通过角色、目标信息和对话历史生成自然的对话内容。

Figure 11: 生成对话总结的提示模板¶

用途：对对话内容进行总结。
变量替换：
- Conversation_history：完整的对话记录。
重点：用于提炼和压缩对话内容，便于后续记忆存储和检索。

Figure 12: 从对话中提取知识的提示模板¶

用途：从对话中提取知识点（knowledge items）。
变量替换：
- Conversation_history：完整的对话记录。
- Knowledge_items：从语义记忆中抽样的知识项。
重点：用于知识的动态提取和更新，强化智能体的长期记忆能力。

总体说明¶

该附录展示了 Ella 智能体在日常任务中使用的多个提示模板。每个模板都结合了角色设定、记忆检索和特定任务需求，从而生成合理的行为、反应和语言。这些模板是 Ella 实现“具身化终身学习”和“社会智能”功能的关键组件。

重点模块：
- 日常计划生成（Figure 8）
- 反应生成（Figure 9）
- 语言输出（Figure 10）
辅助模块：
- 对话总结（Figure 11）
- 知识提取（Figure 12）

以上是对 Appendix D Prompt Templates 的结构化总结。

2506.24019_Ella: Embodied Social Agents with Lifelong Memory¶

Abstract¶

1 Introduction¶

1 引言（Introduction）总结¶

研究背景与动机¶

本文的贡献与方法¶

本文核心贡献总结（重点内容）¶

总结¶

2 Related Work¶

2 相关工作¶

2.1 具身社交智能¶

2.2 智能体记忆¶

图2说明（Figure 2）¶

3 Problem Setting¶

3 问题设定¶

1. 智能体与社交群组¶

2. 智能体的初始知识¶

3. 模拟环境与交互机制¶

4. 控制评估与干预方式¶

总结¶

4 Ella: Embodied Lifelong Learning Agent¶

4 Ella: Embodied Lifelong Learning Agent¶

4.1 Name-centric Semantic Memory（名称中心语义记忆）¶

4.1.1 Hierarchical Scene Graph as Spatial Memory（分层场景图作为空间记忆）¶

4.2 Spatiotemporal Episodic Memory（时空情景记忆）¶

Retrieval（检索机制）¶

4.3 Planning, Reaction, and Communication（规划、反应与通信）¶

4.3.1 Daily Schedule（日常计划）¶

4.3.2 Reaction（反应模块）¶

4.3.3 Communication（通信模块）¶

总结¶

5 Experiments¶

5 实验结果总结¶

5.1 实验设置¶

5.2 实验结果¶

Ella 在两项任务中表现优异¶

Ella 的结构化长期记忆系统优势明显¶

基于开源基础模型的 Ella 表现有潜力¶

感知能力对具身社交智能体至关重要¶

总结¶

6 Limitations¶

6 限制（Limitations）¶

Leverage the graph structure of the name-centric semantic memory.¶

Lifelong simulation of a community of agents in a visually rich, physics-realistic environment is computationally expensive.¶

All agents’ thinking processes are assumed to finish synchronously.¶

7 Conclusion¶

7 结论¶

Appendix A Broader Impact¶

Appendix A 更广泛的影响¶

Appendix B Additional Experiment Details¶

附录 B 实验附加细节总结¶

B.1 虚拟社区 (Virtual Community)¶

B.1.1 场景 (Scenes)¶

B.1.2 代理 (Agents)¶

B.2 计算资源 (Compute)¶

总结要点：¶

Appendix C Additional Implementation Details¶

Appendix C Additional Implementation Details（附录C 额外的实现细节）¶

C.1 Navigation（导航）¶

Appendix D Prompt Templates¶

Appendix D Prompt Templates¶

Figure 8: 生成日常计划的提示模板¶

Figure 9: 生成反应的提示模板¶

Figure 10: 生成语言输出的提示模板¶

Figure 11: 生成对话总结的提示模板¶

Figure 12: 从对话中提取知识的提示模板¶

总体说明¶