# 2506.24019_Ella: Embodied Social Agents with Lifelong Memory

* 首页: <https://arxiv.org/abs/2506.24019>
* PDF: <https://arxiv.org/pdf/2506.24019>


## Abstract

我们介绍了 Ella，这是一个能够在一个 3D 开放世界社区中进行终身学习的具身社交代理。通过日常的视觉观察和社交互动，代理可以积累经验和获取知识。

**Ella 的核心能力**在于其结构化的长期多模态记忆系统。该系统能高效地存储、更新和检索信息，由两个部分组成：

1. **以名称为中心的语义记忆**，用于组织所获得的知识；
2. **时空情景记忆**，用于捕捉多模态体验。

通过将这种终身记忆系统与基础模型相结合，Ella 能够：

- 检索相关信息用于决策；
- 规划日常活动；
- 建立社交关系；
- 在开放世界中与其它智能体共存的同时实现自主进化。

我们在一个动态的 3D 开放世界中进行了以能力为导向的评估。实验中，15 个代理进行了数天的社交活动，并接受了多种未见过的受控评估。实验结果显示，Ella 能够很好地影响、领导和与其他代理协作以实现目标，展示了它通过观察和社交互动有效学习的能力。

研究结果表明，将结构化记忆系统与基础模型结合，具有推动具身智能发展的变革潜力。更多视频请访问 <https://umass-embodied-agi.github.io/Ella/>。


## 1 Introduction


## 1 引言（Introduction）总结

本节主要介绍构建具有长期记忆的具身社会智能体（embodied social agents）的研究动机与挑战，并提出本文的核心方法与贡献。

---

### 研究背景与动机

1. **目标**：  
   研究者长期致力于构建能够融入人类社会、具备生存能力的智能体。这需要智能体在**开放且社交的世界中实现终身学习**。

2. **智能体的关键能力**：  
   - **积累经验**：包括视觉观察与与其他智能体的社交互动（如对话）。
   - **知识获取**：从多模态经验中学习，建立新的对象、智能体和事件的概念，并理解它们之间的联系。

3. **基础模型的推动**：  
   随着基础模型（Foundation Models，如 GPT-4、SAM2、DeepSeek）的快速发展，涌现出大量强大的智能体，涵盖纯文本、多模态、游戏、虚拟世界和现实世界中的机器人。

4. **长期记忆的缺失**：  
   当前研究的一个关键不足是**长期记忆系统**的缺失。尽管人类通过**情节记忆**（Episodic Memory）和**语义记忆**（Semantic Memory）组织经验与知识，从而实现长期规划和高级认知功能，但现有具身智能体的实验范围**局限于特定空间与短时间尺度**（如室内、几秒或几分钟）。

5. **已有尝试的局限性**：  
   - **Generative Agents**：引入了文本时间序列情节记忆，但依赖完美感知（oracle perception），且仅限于2D沙盒环境。
   - **Voyager**：设计了长期程序性记忆，通过自我训练在Minecraft中学习新技能，但同样依赖完美感知。
   - **当前挑战**：如何在开放且社交的3D世界中，构建有效的长期记忆系统，使智能体能通过视觉观察和社交互动学习，仍未被充分探索。

---

### 本文的贡献与方法

1. **方法概述**：  
   本文提出一种**结构化的长期多模态记忆系统**，从心理学与认知神经科学中汲取灵感，构建两种形式的长期记忆：

   - **以名称为中心的语义记忆**（name-centric semantic memory）：  
     利用**分层场景图**（hierarchical scene graph）和**知识图谱**（knowledge graph）来组织所学知识。
   
   - **时空情节记忆**（spatiotemporal episodic memory）：  
     记录智能体的多模态体验（如视觉、交互）。

2. **智能体 Ella 的介绍**：  
   Ella 是一个**具身终身学习智能体**，能够在开放的3D世界中，通过视觉感知与社会互动积累经验与知识，并整合结构化记忆与基础模型。  
   Ella 采用**规划-反应框架**（planning-reaction framework）进行行为控制：

   - **规划阶段**：从记忆中检索相关上下文，生成结构化的日常计划。
   - **反应阶段**：根据新的视觉观察与社交互动更新记忆，并调整计划或进行互动。

3. **实验平台与评估方式**：  
   - **平台**：使用 Virtual Community（Vico），一个支持大规模多智能体模拟的开放世界平台。
   - **评估方式**：不同于传统任务导向的评估，本文关注**高阶认知能力**的测试，例如：
     - **Influence Battle**（影响力竞赛）：智能体需说服他人参加其举办的活动。
     - **Leadership Quest**（领导力任务）：智能体需在资源有限的情况下领导团队完成任务。

4. **实验结果**：  
   在三个社区中进行多天的模拟实验，Ella 展现了高级认知能力，包括：

   - **社交推理**（Social Reasoning）
   - **领导力**（Leadership）

---

### 本文核心贡献总结（重点内容）

1. **结构化长期记忆系统**：  
   提出结合**以名称为中心的语义记忆**与**时空情节记忆**的框架，支持智能体在开放社交世界中的终身学习。

2. **Ella 智能体的提出**：  
   Ella 是首个通过视觉观察与社会互动实现自我演进的具身社交智能体，整合结构化记忆与基础模型实现智能行为。

3. **大规模动态实验验证**：  
   在动态3D开放世界中模拟15个智能体多天的行为，验证Ella在**社交推理、领导力**等高阶认知能力上的表现。

---

### 总结

本节重点阐述了构建长期记忆对于具身智能体的重要性，指出现有工作的不足，并提出本文的解决方案：通过结构化的语义记忆与情节记忆系统，结合基础模型，构建具备终身学习与高阶认知能力的智能体 Ella。实验部分通过开放世界模拟，验证了 Ella 在社交环境中的有效性与优越性。


## 2 Related Work


## 2 相关工作

本节回顾了与本文研究密切相关的两个重要方向：**具身社交智能**和**智能体记忆**。我们对这两个方向的研究现状进行了梳理，并指出现有工作的局限性，以及本文是如何在这些基础上进行创新的。

---

### 2.1 具身社交智能

具身社交智能的研究在多智能体环境中广泛展开。一部分研究聚焦于**简化符号或类似游戏的环境**，如星际争霸、多人合作游戏等，这些环境便于建模，但忽略了**开放世界中的复杂挑战**，如环境感知、智能体个性多样性等。

另一部分研究则关注于**生成式智能体**（Generative Agents），如 [Park et al. 2023] 提出的统一时间语言记忆（Unified Temporal Language Memory），展示了在符号化社区中模拟类人智能体的可行性。随后，多个工作在此基础上探索了**基于文本的沙盒环境中社交智能体的构建**，例如 Camel、Sotopia 等项目，这些系统强调智能体之间的交互与合作。

此外，还有研究集中在**人机交互**（Human-Robot Interaction）领域，如 [Gombolay et al. 2015] 和 [Goodrich et al. 2008]，它们关注现实世界的应用场景，但大多局限于**特定任务设置**，缺乏对复杂社交行为的建模。

**不同于此，本文的研究重点在于构建一个开放的3D世界中的社区，其中智能体具备空间上的广泛区域和时间跨度上的社交行为**，涵盖多日时间尺度，从而更贴近现实社会的动态性。

---

### 2.2 智能体记忆

记忆系统在AI中是一个历史悠久的研究领域，尤其在**认知架构**中得到了深入探讨。然而，大多数现代智能体架构假设的记忆是**短时的**，受限于特定领域或任务的时间范围。

在计算机视觉领域，**视觉记忆**（Visual Memory）被广泛用于构建语义表示，包括使用体素（Voxels）、场景图（Scene Graphs）、八叉树（Octrees）或隐式连续表示（Implicit Continuous Representations）等形式。

近年来，多个研究探索了**长期记忆机制**，如：

- [Kurenkov et al. 2023] 和 [Yang et al. 2024] 提出了**基于场景图的更新机制**，适用于长期任务；
- [Wang et al. 2023] 和 [Li et al. 2024] 构建了**过程记忆**，用于支持游戏中的长期规划；
- [Jiang et al. 2024] 提出**基于图的长期记忆**，用于大语言模型任务的自我演化；
- [Wang et al. 2024] 结合**长期与短期记忆**，用于家庭环境中的任务执行；
- 另一类研究则聚焦于如何从**外部数据源**中检索知识以增强大语言模型的能力。

**然而，上述工作均未研究如何构建一个能够同时从**环境视觉观察**和**社交互动**中学习的长期记忆系统**，本文通过**双结构化记忆**（Dual-form Structured Memory）和**基础模型**（Foundation Models）解决了这一问题。

---

### 图2说明（Figure 2）

图2展示了一个包含15个智能体和4个社交群体的**纽约社区示例**。图中右侧展示了智能体 Elizabeth Mensah 的角色设定和观察结果，展示了模型在复杂社交环境中的表现。


## 3 Problem Setting


## 3 问题设定

本节描述了多智能体（Agent）在一个开放且具有社交互动的虚拟世界中运行的基本设定。每个智能体具有独特的**视觉外观** $ v_i $ 和**角色档案** $ c_i $，并且它们会形成 $ k $ 个社交群组，如图 2 所示。

### 1. 智能体与社交群组

- **智能体定义**：每个智能体由基本属性定义，包括姓名、年龄、职业、价值观（参考 [Schwartz, 2012](https://arxiv.org/html/2506.24019v1#bib.bib79)）、爱好、生活方式以及当前在社区中的目标。这些属性**直接影响智能体的日常决策**。
  
- **社交群组**：社交群组由基于角色兼容性选出的一组智能体组成，每个群组具有：
  - 一个**群组名称**
  - 一段**详细的文本描述**
  - 一个**物理活动地点**
  
  社交群组将智能体连接成一个**紧密的社区**，使得它们能够在3D环境中进行丰富而复杂的**社交互动**。

### 2. 智能体的初始知识

- 每个智能体在初始化时拥有**部分世界知识**，包括：
  - 已知的地点（如住所）
  - 熟悉的其他智能体（如群组成员）
  
  这些知识基于其角色属性设定。

### 3. 模拟环境与交互机制

- **时间分辨率**：模拟以**每秒一步**的细粒度时间运行。
  
- **观察输入 $ o_i $**：每个智能体每秒会接收到：
  - **RGB图像**和**深度图像**
  - **邻近智能体的对话内容**

- **空间限制的对话**：智能体之间的交流受到**空间距离限制**，只有当两个智能体之间的距离小于设定的阈值 $ \theta_s $ 时，才能进行对话。这模拟了现实中语言交流的**空间限制性**。

- **智能体动作 $ a_i $**：智能体每秒执行一个动作 $ a_i $，该动作可以是与环境或其他智能体的互动。

### 4. 控制评估与干预方式

- 在受控的评估中，干预仅通过**修改智能体的社区目标**来实现。
- 智能体需要根据其**更新后的角色属性 $ c_i $** 和**接收的观察数据 $ o_i $**，做出**最优的决策** $ a_i $。

### 总结

本节构建了一个**高度模拟现实的社交环境**，其中智能体拥有个体差异、社交互动、空间限制和持续决策机制。重点在于：
- 智能体的个性化设定（价值观、目标、兴趣等）
- 社交群组的结构与功能
- 空间约束下的对话机制
- 基于角色与观察的决策过程

这些构成后续实验与评估的基础框架。


## 4 Ella: Embodied Lifelong Learning Agent


以下是对文章“4 Ella: Embodied Lifelong Learning Agent”章节内容的总结，按照原文结构进行讲解，并对重点内容进行着重说明，非重点内容适当精简：

---

## **4 Ella: Embodied Lifelong Learning Agent**

本节介绍Ella系统，一个在3D开放世界中能够持续学习的具身智能体。为了实现这一目标，系统核心在于构建**稳定且高效的长期记忆**。参考心理学和认知神经科学的理论，Ella将长期记忆分为两种形式：

- **Name-centric Semantic Memory（名称中心语义记忆）**：用于存储关于代理和环境的事实性知识，持续更新。
- **Spatiotemporal Episodic Memory（时空情景记忆）**：用于存储个人经历，包含时间、地点和多模态内容。

然后，介绍如何利用**基础模型（foundation models）**，将上述记忆系统整合到代理的日常规划与社交互动中。

---

### **4.1 Name-centric Semantic Memory（名称中心语义记忆）**

语义记忆存储有关代理及其世界的事实性知识，并随着代理与环境和其他代理的互动而不断更新。与语言代理不同，Ella的语义记忆是**环境感知基础的**，通过构建一个**名称中心的知识图谱**，将不同种类的知识组织在一起（图3(a)所示）。

#### **4.1.1 Hierarchical Scene Graph as Spatial Memory（分层场景图作为空间记忆）**

构建一个**分层场景图谱**（Hierarchical Scene Graph）用于代理在3D世界中的定位和导航，具体分为三个层次：

1. **Volume Grid Layer（体积网格层）**  
   - 利用RGB和深度图像构建3D空间表示，生成障碍地图以辅助导航。
   - 将空间划分为0.5m×0.5m的块，并进一步划分0.1m×0.1m的小单元，用于判断是否为可行走区域。

2. **Object Layer（对象层）**  
   - 使用多阶段视觉感知流程（包括标签、目标检测和图像分割）提取语义对象。
   - 通过3D点云和视觉特征计算对象间的几何和视觉相似性，并进行合并，尤其处理了**动态对象**（如代理和车辆）的跨帧匹配问题。

3. **Region Layer（区域层）**  
   - 利用广义Voronoi图（GVD）对建筑物进行区域划分，通过谱聚类将地图划分为多个区域，实现更结构化的空间划分。

---

### **4.2 Spatiotemporal Episodic Memory（时空情景记忆）**

情景记忆负责存储个人经历。Ella的情景记忆模块不仅包括**时间与空间信息**，还包含**多模态内容**（文本描述和第一视角图像），使得代理可以基于当前环境检索相关经历。

#### **Retrieval（检索机制）**

情景记忆支持**时空检索**，根据查询的时间、地点和内容，对所有记忆条目进行排序，依据三个指标：

1. **Spatial Proximity（空间接近度）**：事件位置与查询位置之间的距离。
2. **Content Relevance（内容相关性）**：通过文本和图像的余弦相似度计算。
3. **Temporal Recency（时间新鲜度）**：使用指数衰减函数计算最近访问的权重。

最终将三个指标归一化后取平均，作为检索得分，返回Top-k条结果。

---

### **4.3 Planning, Reaction, and Communication（规划、反应与通信）**

Ella利用上述记忆系统，结合**基础模型**，实现日常规划、环境交互和社交行为。总体流程如下：

- 根据长期记忆生成**日常计划**。
- 根据观察更新语义记忆，并通过反应模块进行**计划修订**、**环境交互**、**对话**等动作。
- 通信模块负责生成对话内容、对话摘要及知识提取，更新语义记忆。

#### **4.3.1 Daily Schedule（日常计划）**

每天开始时，Ella会从长期记忆中检索并生成一个**基于环境与角色的结构化日常计划**，计划包括活动的起止时间、地点和描述，并考虑**不同地点之间的通勤时间**。例如，从办公室到聚会场所可能需要15分钟以上，若未考虑通勤时间，可能导致错过活动。

#### **4.3.2 Reaction（反应模块）**

当系统获得新的观察信息（如视觉或语音）时，会：

1. 更新语义记忆；
2. 通过“Important things to react to.”的查询检索相关记忆；
3. 通过基础模型决定是否需要**修订计划、与环境交互、对话或无操作**；
4. 若超过预设时间θreact未触发反应，模块将自动激活。

#### **4.3.3 Communication（通信模块）**

当代理决定进行对话时，通信模块将：

- 根据最新对话内容或“Things to chat about with conversation targets”的查询，检索相关记忆；
- 生成合适的对话内容；
- 对话结束后进行**摘要**，并将新知识提取后更新语义记忆。

---

### **总结**

Ella系统通过构建**名称中心语义记忆**和**时空情景记忆**，结合**基础模型**，使代理能够在3D开放世界中进行持续学习和社交互动。整个系统强调**长期记忆的组织与检索**，并利用**结构化规划**和**动态反应机制**，实现智能体的自主行为与社交能力。


## 5 Experiments


## 5 实验结果总结

### 5.1 实验设置

本实验在 **Virtual Community** 平台上进行，这是一个基于真实世界构建的开放型多智能体模拟环境，支持大规模社区场景和物理仿真。实验中，使用了 15 个具有不同角色设定的具身社会智能体，在三个不同的城市场景（纽约、伦敦、底特律）中进行测试，总共有两个评估任务：

1. **Influence Battle（影响力竞赛）**：要求两个小组在 6 小时内组织一场派对，需外出邀请其他组的智能体参加。评估指标包括“到场率”（show-up rate）和“总对话次数”。
2. **Leadership Quest（领导力任务）**：每个小组被分配一项在城市中购买物品的任务（3 小时内完成），其中一名成员为“领导者”，其他成员需协助领导。评估指标包括“完成率”（completion rate）和“总对话次数”。

实验分为两个阶段：
- **第一阶段**：模拟 9 小时，智能体熟悉环境、彼此建立记忆。
- **第二阶段**：进行上述两个任务评估。

为了与 Ella（本文提出的方法）对比，也复现了两个已有方法作为基线：
- **CoELA**：专注于室内场景的协作具身智能体框架。
- **Generative Agents**：依赖“完美感知”（Oracle Perception）和预定义通信机制的行为模拟。

Ella 的感知模块使用了多种模型，包括 RAM++、GroundingDINO 和 SAM2，文本和图像嵌入使用 CLIP 和 Azure 提供的模型。基础模型使用 GPT-4o（CoELA 也使用了 GPT-4o），但对 Generative Agents 使用了 GPT-3.5 以节省成本。此外，还测试了开源模型如 DeepSeek 和 Qwen 用于 Ella 的“Oracle Perception”版本。

### 5.2 实验结果

#### Ella 在两项任务中表现优异

- **Influence Battle**：Ella 的 **到场率** 和 **对话次数** 在三个城市中均优于 CoELA 和 Generative Agents，尤其是在伦敦和底特律表现突出。
- **Leadership Quest**：Ella 的 **完成率** 明显高于其他方法，尤其在伦敦社区表现最佳，而 CoELA 几乎未完成任务，Generative Agents 表现不佳。
- 搭配 **Oracle Perception（使用真实2D分割）** 后，Ella 的性能进一步提升，尤其是在识别对话目标和维护社交联系方面表现更佳。

#### Ella 的结构化长期记忆系统优势明显

Ella 的记忆系统在任务中展现出 **结构化、稳定、高效** 的增长特性。相比 Generative Agents，Ella 的记忆节点增长更有序，支持更大规模的记忆存储和快速检索，从而提升任务表现。

#### 基于开源基础模型的 Ella 表现有潜力

尽管 GPT-4o 性能最佳，但使用开源模型如 **DeepSeek-R1-Distill-Qwen-14B** 后，Ella 仍能取得接近 GPT-4o 的表现，而 **Qwen2.5-14B-Instruct** 表现较差。这表明 Ella 框架本身具备良好的兼容性和可扩展性。

#### 感知能力对具身社交智能体至关重要

与已有方法相比，Ella 不依赖“完美感知”，而是通过 **视觉识别** 和 **对话内容** 来判断与谁交谈，并根据 **3D 位置** 判断消息传播范围。因此，感知能力的提升（如 Oracle Perception）显著增强交互能力，特别是在复杂 3D 环境中。

---

### 总结

本节对 Ella 在开放世界 3D 社区中的表现进行了全面实验验证。通过两个挑战性任务（影响力竞赛与领导力任务）和多种感知设置（真实感知与 Oracle 感知），证明了 Ella 在 **社交推理、说服能力、协作能力** 等方面的优越性。其结构化记忆、强大感知、以及对开源模型的良好适配性，为未来具身社会智能体的发展提供了坚实基础。


## 6 Limitations


## 6 限制（Limitations）

本节总结了当前系统在实现和设计上存在的几个关键限制，分别涉及知识检索方式、模拟效率以及认知过程的同步性假设。

---

### Leverage the graph structure of the name-centric semantic memory.

虽然**以名称为中心的语义记忆**是以图结构维护的，但当前实现仅依赖于**文本和图像特征的相似性**进行知识检索。这意味着系统尚未充分利用图结构中潜在的复杂关系和连接。

为提升系统的推理能力，未来可以引入**更先进的基于图的知识检索方法**，如文献 [zhang2025surveygraphretrievalaugmentedgeneration](https://arxiv.org/html/2506.24019v1#bib.bib102)、[sun2023think](https://arxiv.org/html/2506.24019v1#bib.bib86)、[gutiérrez2024hipporag](https://arxiv.org/html/2506.24019v1#bib.bib28) 所提出的多跳推理技术。这些方法有望增强系统进行复杂推理的能力，是未来研究的**关键方向**。

---

### Lifelong simulation of a community of agents in a visually rich, physics-realistic environment is computationally expensive.

尽管实验只持续了**1.5个模拟天数**，看似较短，但系统采用了**终身学习（lifelong learning）**的通用定义，即智能体在不同经验中积累、保留并复用知识的能力（参见 [chen2018lifelong](https://arxiv.org/html/2506.24019v1#bib.bib14)）。

然而，即使进行了系统级优化，**每次模拟仍需与现实时间同步**，即每一模拟秒对应一真实秒。这是因为系统需要进行**多摄像头渲染、蒙皮运动计算**，以及调用多个模型或API来支持智能体的决策过程。因此，模拟一天需要**一天的真实时间**，这严重限制了实验的规模和效率。

尽管如此，随着**图形和模拟技术的进步**，这一瓶颈有望被缓解，从而支持在高保真、物理真实环境中开发更复杂的具身化社会智能体。

---

### All agents’ thinking processes are assumed to finish synchronously.

人类的认知过程是受**有限计算资源限制的**（[lieder2020resource](https://arxiv.org/html/2506.24019v1#bib.bib51)），但目前系统假设所有智能体的思考是**同步进行且资源无限**的，即无论其思考过程多复杂，仅需1秒即可完成。

然而，现实中智能体应考虑**在有限资源下进行思考的时间成本**，并研究如何在**快速的系统1思维（system-1）和缓慢的系统2思维（system-2）之间切换**（[evans2003two](https://arxiv.org/html/2506.24019v1#bib.bib19)）。这是一个值得进一步探索的认知建模方向，有助于更真实地模拟人类智能行为。


## 7 Conclusion


## 7 结论

在本文中，我们构建了一个结构化的长期记忆系统，包括以名称为中心的语义记忆和时空情景记忆，并引入了 Ella——一个具身化的社会智能体，它利用基础模型和检索到的记忆来进行推理、制定日常计划以及参与社交活动。

我们在一个虚拟社区中进行了以能力为导向的实验，涉及15个智能体，分布在3个不同的社区中。实验结果表明，Ella 能够有效地利用长期记忆在开放世界中对他者智能体施加影响、合作与领导，同时不断积累多模态经验，并从环境的视觉观察和与其他智能体的社交互动中持续获取知识。

本研究的发现表明，将结构化的长期记忆与基础模型相结合，对于推动能够与人类共存的具身通用智能的发展具有重要意义。


## Appendix A Broader Impact


## Appendix A 更广泛的影响

本节重点探讨了当具身社会智能体（embodied social agents）日益先进并融入以人为中心的环境中时，所引发的伦理和社会层面的关键问题。

首先，**AI驱动的说服能力对人与智能体交互的影响**是主要关注点之一。文章提到，在“影响之战（Influence Battle）”的评估中，智能体Ella成功说服其他智能体参加活动，表现出其对群体行为的塑造能力。尽管这种社交推理能力对于协作型AI非常重要，但如果在现实世界中被滥用，可能导致**操控、误导或不当影响**等风险。因此，必须在设计AI驱动的说服型智能体时，强调**透明的意图披露**和**价值观对齐**，以避免其从事欺骗性或强制性的行为。

其次，**决策过程可能反映和加剧社会偏见**也是一个重要问题。文章以“领导力探索（Leadership Quest）”为例，指出Ella在领导能力上表现优异，但在AI驱动系统中，领导资格的评判标准是否公正仍存疑问。为确保AI在领导角色中的**多样性和公平性**，需要实施**强有力的偏见缓解策略**、**谨慎的数据集构建**，以及**在多种社交背景下的持续评估**。

总结来说，本节强调了AI社会智能体在提升社会协作能力的同时，必须关注其可能带来的伦理风险，并通过技术设计与制度保障，确保其行为符合人类价值观与社会公平原则。


## Appendix B Additional Experiment Details


## 附录 B 实验附加细节总结

### B.1 虚拟社区 (Virtual Community)

**Virtual Community (ViCo)** 是一个为多智能体具身AI设计的开放世界模拟平台，其特点包括从现实世界中衍生的大规模社区场景，并具有真实的物理模拟和渲染效果。ViCo基于 **Genesis** [[5]](#bib.bib5) 引擎开发，该引擎是一个**全可微的生成式物理模拟器**，能够模拟多种材料和广泛的机器人任务。Genesis还集成了基于OpenGL的实时渲染器和基于Luisa的路径追踪渲染器，以实现高质量的视觉效果。

ViCo的主要功能是提供**可扩展的3D场景创建**以及**具身代理社区的生成**，适用于各种研究和模拟任务。

---

#### B.1.1 场景 (Scenes)

ViCo通过一个在线流程将现有的**3D地理空间数据**转化为高质量的模拟场景，并自动标注这些场景以实现与现实世界的对齐。此流程支持在任意地点和规模上生成**室内和室外环境**。目前，ViCo已生成了**57个全球不同城市的场景**。

在本文中，用于评估的场景子集包括：**纽约市**、**底特律**和**伦敦**。图6展示了虚拟社区中不同场景的近景视图（图6略，见原文）。

---

#### B.1.2 代理 (Agents)

ViCo提供了**74种角色皮肤**，包括来自Mixamo的普通皮肤和通过Avatar SDK从真实图像生成的名人皮肤。在每个场景中，随机选择了**15种皮肤**进行使用。ViCo结合了**SMPL-X人类骨架**模型和生成的皮肤，支持最多**2,299种独特的动作**（来自Mixamo）。

此外，ViCo能够生成**与场景绑定并具备社交关系的角色**，从而模拟真实的社区生活。图5展示了纽约市中一个生成的社区，并标注了具有不同功能的场所（图5略，见原文）。

---

### B.2 计算资源 (Compute)

实验是在**单个NVIDIA A100 GPU**上进行的。每个社区生命模拟分为两个阶段：

- **第一阶段**运行**20小时**；
- **第二阶段**每个任务和社区运行**10小时**。

每个代理的**记忆存储**（包括情景记忆和语义记忆）在模拟运行**9小时后**平均占用**161 MB**。运行时，代理还需额外的内存用于**感知、规划和检索**，其中**感知模块**单独占用约**4 GB GPU内存**。每个代理进程的**最大RAM使用量**约为**1 GB**。

---

### 总结要点：

- **ViCo** 是基于Genesis引擎构建的高质量多智能体模拟平台，支持大规模、可扩展的3D场景生成和具身智能体建模。
- 实验使用了**纽约、底特律和伦敦**三个城市的场景进行评估。
- 代理系统包括多种角色皮肤和动作支持，能生成具有社交关系的社区角色。
- 计算资源方面，实验在A100 GPU上运行，感知模块消耗高（约4GB GPU内存/代理），整体内存使用量较大（约1GB RAM/代理）。


## Appendix C Additional Implementation Details


### Appendix C Additional Implementation Details（附录C 额外的实现细节）

#### C.1 Navigation（导航）

在本节中，作者进一步介绍了在语义记忆（Semantic Memory）中维护的体积网格（volume grid）如何用于导航任务。

**1. 占用地图构建与网格分类**  
基于语义记忆中的体积网格，系统构建了一个**占用地图**（occupancy map），并将整个地图划分为三类网格点：

- **未知区域（unknown）**：尚未探索的区域；
- **已知障碍物区域（known obstacles）**：已识别的障碍物区域；
- **已知非障碍物区域（known non-obstacles）**：已探索且可通行的区域。

这一分类如图7所示，图中红色表示已探索区域，白色代表建筑，黑色为未探索区域，绿色圆圈表示代理（agent）计划访问的建筑。

**2. 路径搜索算法（A\*）**  
为了寻找最短路径，系统使用了**A\*算法**，并为不同类型的网格点设置了不同的权重：

- **已知非障碍物点权重设为 1**；
- **未知点权重设为 5**，以鼓励探索但避免过于冒险；
- **障碍物点权重设为无穷大**，表示不可通过。

此外，为避免代理因靠近障碍物而“卡住”或与墙壁发生碰撞（wall-clipping），系统**对靠近障碍物的点附加了一个惩罚权重**，具体为：

- 距障碍物距离为d的点，附加权重为 $ \frac{100}{d} $，距离越近，权重越高。

**3. 路径一致性优化**  
为防止代理因连续路径规划结果差异过大而**原地徘徊**，系统在路径更新时会**优先使用之前计算的路径**，除非发现该路径不可行（如穿越障碍物）。

---

**重点总结**：

- 通过语义记忆中的体积网格构建占用地图，并分为三类网格点；
- 使用A\*算法进行路径搜索，并为不同区域设置不同权重；
- 特别是对靠近障碍物的区域施加额外惩罚；
- 为保持导航稳定性，优先沿用上一路径，除非路径不可行。


## Appendix D Prompt Templates


以下是该节《Appendix D Prompt Templates》的总结：

---

## Appendix D Prompt Templates

本节提供了在 **Section 4.3（Planning, Reaction, and Communication）** 中介绍的各个模块所使用的完整提示模板（prompt templates）。这些模板用于指导基于记忆、计划和交互的智能体行为生成。具体内容通过 **Figure 8 到 Figure 12** 展示，每张图对应一种提示模板的结构和变量替换方式。

---

### Figure 8: 生成日常计划的提示模板

- **用途**：用于生成智能体的**日常计划（daily schedule）**。
- **变量替换**：
  - **Character**：智能体的角色描述。
  - **Context**：从记忆中检索的相关上下文信息。
- **重点**：通过角色描述和记忆内容，生成一个符合角色设定的计划。

---

### Figure 9: 生成反应的提示模板

- **用途**：用于生成智能体对当前情境的**反应（reaction）**。
- **变量替换**：
  - **Character**：角色描述。
  - **Schedule**：当日剩余的计划。
  - **Experience**：从记忆中检索的经验。
  - **Context**：最新的记忆内容。
- **重点**：结合角色、计划和记忆，生成符合当前状态和目标的反应行为。

---

### Figure 10: 生成语言输出的提示模板

- **用途**：用于生成智能体的**语言输出（utterance）**。
- **变量替换**：
  - **Character**：角色描述。
  - **Target_knowledge**：目标知识。
  - **Target_experience**：目标经验。
  - **Context**：记忆内容。
  - **Conversation_history**：最近的4条对话记录。
- **重点**：通过角色、目标信息和对话历史生成自然的对话内容。

---

### Figure 11: 生成对话总结的提示模板

- **用途**：对**对话内容进行总结**。
- **变量替换**：
  - **Conversation_history**：完整的对话记录。
- **重点**：用于提炼和压缩对话内容，便于后续记忆存储和检索。

---

### Figure 12: 从对话中提取知识的提示模板

- **用途**：从对话中**提取知识点（knowledge items）**。
- **变量替换**：
  - **Conversation_history**：完整的对话记录。
  - **Knowledge_items**：从语义记忆中抽样的知识项。
- **重点**：用于知识的动态提取和更新，强化智能体的长期记忆能力。

---

### 总体说明

该附录展示了 Ella 智能体在日常任务中使用的多个提示模板。每个模板都结合了角色设定、记忆检索和特定任务需求，从而生成合理的行为、反应和语言。这些模板是 Ella 实现“具身化终身学习”和“社会智能”功能的关键组件。

- **重点模块**：
  - 日常计划生成（Figure 8）
  - 反应生成（Figure 9）
  - 语言输出（Figure 10）
- **辅助模块**：
  - 对话总结（Figure 11）
  - 知识提取（Figure 12）

---

以上是对 Appendix D Prompt Templates 的结构化总结。