# 2506.24019_Ella: Embodied Social Agents with Lifelong Memory * 首页: * PDF: ## Abstract 我们介绍了 Ella,这是一个能够在一个 3D 开放世界社区中进行终身学习的具身社交代理。通过日常的视觉观察和社交互动,代理可以积累经验和获取知识。 **Ella 的核心能力**在于其结构化的长期多模态记忆系统。该系统能高效地存储、更新和检索信息,由两个部分组成: 1. **以名称为中心的语义记忆**,用于组织所获得的知识; 2. **时空情景记忆**,用于捕捉多模态体验。 通过将这种终身记忆系统与基础模型相结合,Ella 能够: - 检索相关信息用于决策; - 规划日常活动; - 建立社交关系; - 在开放世界中与其它智能体共存的同时实现自主进化。 我们在一个动态的 3D 开放世界中进行了以能力为导向的评估。实验中,15 个代理进行了数天的社交活动,并接受了多种未见过的受控评估。实验结果显示,Ella 能够很好地影响、领导和与其他代理协作以实现目标,展示了它通过观察和社交互动有效学习的能力。 研究结果表明,将结构化记忆系统与基础模型结合,具有推动具身智能发展的变革潜力。更多视频请访问 。 ## 1 Introduction ## 1 引言(Introduction)总结 本节主要介绍构建具有长期记忆的具身社会智能体(embodied social agents)的研究动机与挑战,并提出本文的核心方法与贡献。 --- ### 研究背景与动机 1. **目标**: 研究者长期致力于构建能够融入人类社会、具备生存能力的智能体。这需要智能体在**开放且社交的世界中实现终身学习**。 2. **智能体的关键能力**: - **积累经验**:包括视觉观察与与其他智能体的社交互动(如对话)。 - **知识获取**:从多模态经验中学习,建立新的对象、智能体和事件的概念,并理解它们之间的联系。 3. **基础模型的推动**: 随着基础模型(Foundation Models,如 GPT-4、SAM2、DeepSeek)的快速发展,涌现出大量强大的智能体,涵盖纯文本、多模态、游戏、虚拟世界和现实世界中的机器人。 4. **长期记忆的缺失**: 当前研究的一个关键不足是**长期记忆系统**的缺失。尽管人类通过**情节记忆**(Episodic Memory)和**语义记忆**(Semantic Memory)组织经验与知识,从而实现长期规划和高级认知功能,但现有具身智能体的实验范围**局限于特定空间与短时间尺度**(如室内、几秒或几分钟)。 5. **已有尝试的局限性**: - **Generative Agents**:引入了文本时间序列情节记忆,但依赖完美感知(oracle perception),且仅限于2D沙盒环境。 - **Voyager**:设计了长期程序性记忆,通过自我训练在Minecraft中学习新技能,但同样依赖完美感知。 - **当前挑战**:如何在开放且社交的3D世界中,构建有效的长期记忆系统,使智能体能通过视觉观察和社交互动学习,仍未被充分探索。 --- ### 本文的贡献与方法 1. **方法概述**: 本文提出一种**结构化的长期多模态记忆系统**,从心理学与认知神经科学中汲取灵感,构建两种形式的长期记忆: - **以名称为中心的语义记忆**(name-centric semantic memory): 利用**分层场景图**(hierarchical scene graph)和**知识图谱**(knowledge graph)来组织所学知识。 - **时空情节记忆**(spatiotemporal episodic memory): 记录智能体的多模态体验(如视觉、交互)。 2. **智能体 Ella 的介绍**: Ella 是一个**具身终身学习智能体**,能够在开放的3D世界中,通过视觉感知与社会互动积累经验与知识,并整合结构化记忆与基础模型。 Ella 采用**规划-反应框架**(planning-reaction framework)进行行为控制: - **规划阶段**:从记忆中检索相关上下文,生成结构化的日常计划。 - **反应阶段**:根据新的视觉观察与社交互动更新记忆,并调整计划或进行互动。 3. **实验平台与评估方式**: - **平台**:使用 Virtual Community(Vico),一个支持大规模多智能体模拟的开放世界平台。 - **评估方式**:不同于传统任务导向的评估,本文关注**高阶认知能力**的测试,例如: - **Influence Battle**(影响力竞赛):智能体需说服他人参加其举办的活动。 - **Leadership Quest**(领导力任务):智能体需在资源有限的情况下领导团队完成任务。 4. **实验结果**: 在三个社区中进行多天的模拟实验,Ella 展现了高级认知能力,包括: - **社交推理**(Social Reasoning) - **领导力**(Leadership) --- ### 本文核心贡献总结(重点内容) 1. **结构化长期记忆系统**: 提出结合**以名称为中心的语义记忆**与**时空情节记忆**的框架,支持智能体在开放社交世界中的终身学习。 2. **Ella 智能体的提出**: Ella 是首个通过视觉观察与社会互动实现自我演进的具身社交智能体,整合结构化记忆与基础模型实现智能行为。 3. **大规模动态实验验证**: 在动态3D开放世界中模拟15个智能体多天的行为,验证Ella在**社交推理、领导力**等高阶认知能力上的表现。 --- ### 总结 本节重点阐述了构建长期记忆对于具身智能体的重要性,指出现有工作的不足,并提出本文的解决方案:通过结构化的语义记忆与情节记忆系统,结合基础模型,构建具备终身学习与高阶认知能力的智能体 Ella。实验部分通过开放世界模拟,验证了 Ella 在社交环境中的有效性与优越性。 ## 2 Related Work ## 2 相关工作 本节回顾了与本文研究密切相关的两个重要方向:**具身社交智能**和**智能体记忆**。我们对这两个方向的研究现状进行了梳理,并指出现有工作的局限性,以及本文是如何在这些基础上进行创新的。 --- ### 2.1 具身社交智能 具身社交智能的研究在多智能体环境中广泛展开。一部分研究聚焦于**简化符号或类似游戏的环境**,如星际争霸、多人合作游戏等,这些环境便于建模,但忽略了**开放世界中的复杂挑战**,如环境感知、智能体个性多样性等。 另一部分研究则关注于**生成式智能体**(Generative Agents),如 [Park et al. 2023] 提出的统一时间语言记忆(Unified Temporal Language Memory),展示了在符号化社区中模拟类人智能体的可行性。随后,多个工作在此基础上探索了**基于文本的沙盒环境中社交智能体的构建**,例如 Camel、Sotopia 等项目,这些系统强调智能体之间的交互与合作。 此外,还有研究集中在**人机交互**(Human-Robot Interaction)领域,如 [Gombolay et al. 2015] 和 [Goodrich et al. 2008],它们关注现实世界的应用场景,但大多局限于**特定任务设置**,缺乏对复杂社交行为的建模。 **不同于此,本文的研究重点在于构建一个开放的3D世界中的社区,其中智能体具备空间上的广泛区域和时间跨度上的社交行为**,涵盖多日时间尺度,从而更贴近现实社会的动态性。 --- ### 2.2 智能体记忆 记忆系统在AI中是一个历史悠久的研究领域,尤其在**认知架构**中得到了深入探讨。然而,大多数现代智能体架构假设的记忆是**短时的**,受限于特定领域或任务的时间范围。 在计算机视觉领域,**视觉记忆**(Visual Memory)被广泛用于构建语义表示,包括使用体素(Voxels)、场景图(Scene Graphs)、八叉树(Octrees)或隐式连续表示(Implicit Continuous Representations)等形式。 近年来,多个研究探索了**长期记忆机制**,如: - [Kurenkov et al. 2023] 和 [Yang et al. 2024] 提出了**基于场景图的更新机制**,适用于长期任务; - [Wang et al. 2023] 和 [Li et al. 2024] 构建了**过程记忆**,用于支持游戏中的长期规划; - [Jiang et al. 2024] 提出**基于图的长期记忆**,用于大语言模型任务的自我演化; - [Wang et al. 2024] 结合**长期与短期记忆**,用于家庭环境中的任务执行; - 另一类研究则聚焦于如何从**外部数据源**中检索知识以增强大语言模型的能力。 **然而,上述工作均未研究如何构建一个能够同时从**环境视觉观察**和**社交互动**中学习的长期记忆系统**,本文通过**双结构化记忆**(Dual-form Structured Memory)和**基础模型**(Foundation Models)解决了这一问题。 --- ### 图2说明(Figure 2) 图2展示了一个包含15个智能体和4个社交群体的**纽约社区示例**。图中右侧展示了智能体 Elizabeth Mensah 的角色设定和观察结果,展示了模型在复杂社交环境中的表现。 ## 3 Problem Setting ## 3 问题设定 本节描述了多智能体(Agent)在一个开放且具有社交互动的虚拟世界中运行的基本设定。每个智能体具有独特的**视觉外观** $ v_i $ 和**角色档案** $ c_i $,并且它们会形成 $ k $ 个社交群组,如图 2 所示。 ### 1. 智能体与社交群组 - **智能体定义**:每个智能体由基本属性定义,包括姓名、年龄、职业、价值观(参考 [Schwartz, 2012](https://arxiv.org/html/2506.24019v1#bib.bib79))、爱好、生活方式以及当前在社区中的目标。这些属性**直接影响智能体的日常决策**。 - **社交群组**:社交群组由基于角色兼容性选出的一组智能体组成,每个群组具有: - 一个**群组名称** - 一段**详细的文本描述** - 一个**物理活动地点** 社交群组将智能体连接成一个**紧密的社区**,使得它们能够在3D环境中进行丰富而复杂的**社交互动**。 ### 2. 智能体的初始知识 - 每个智能体在初始化时拥有**部分世界知识**,包括: - 已知的地点(如住所) - 熟悉的其他智能体(如群组成员) 这些知识基于其角色属性设定。 ### 3. 模拟环境与交互机制 - **时间分辨率**:模拟以**每秒一步**的细粒度时间运行。 - **观察输入 $ o_i $**:每个智能体每秒会接收到: - **RGB图像**和**深度图像** - **邻近智能体的对话内容** - **空间限制的对话**:智能体之间的交流受到**空间距离限制**,只有当两个智能体之间的距离小于设定的阈值 $ \theta_s $ 时,才能进行对话。这模拟了现实中语言交流的**空间限制性**。 - **智能体动作 $ a_i $**:智能体每秒执行一个动作 $ a_i $,该动作可以是与环境或其他智能体的互动。 ### 4. 控制评估与干预方式 - 在受控的评估中,干预仅通过**修改智能体的社区目标**来实现。 - 智能体需要根据其**更新后的角色属性 $ c_i $** 和**接收的观察数据 $ o_i $**,做出**最优的决策** $ a_i $。 ### 总结 本节构建了一个**高度模拟现实的社交环境**,其中智能体拥有个体差异、社交互动、空间限制和持续决策机制。重点在于: - 智能体的个性化设定(价值观、目标、兴趣等) - 社交群组的结构与功能 - 空间约束下的对话机制 - 基于角色与观察的决策过程 这些构成后续实验与评估的基础框架。 ## 4 Ella: Embodied Lifelong Learning Agent 以下是对文章“4 Ella: Embodied Lifelong Learning Agent”章节内容的总结,按照原文结构进行讲解,并对重点内容进行着重说明,非重点内容适当精简: --- ## **4 Ella: Embodied Lifelong Learning Agent** 本节介绍Ella系统,一个在3D开放世界中能够持续学习的具身智能体。为了实现这一目标,系统核心在于构建**稳定且高效的长期记忆**。参考心理学和认知神经科学的理论,Ella将长期记忆分为两种形式: - **Name-centric Semantic Memory(名称中心语义记忆)**:用于存储关于代理和环境的事实性知识,持续更新。 - **Spatiotemporal Episodic Memory(时空情景记忆)**:用于存储个人经历,包含时间、地点和多模态内容。 然后,介绍如何利用**基础模型(foundation models)**,将上述记忆系统整合到代理的日常规划与社交互动中。 --- ### **4.1 Name-centric Semantic Memory(名称中心语义记忆)** 语义记忆存储有关代理及其世界的事实性知识,并随着代理与环境和其他代理的互动而不断更新。与语言代理不同,Ella的语义记忆是**环境感知基础的**,通过构建一个**名称中心的知识图谱**,将不同种类的知识组织在一起(图3(a)所示)。 #### **4.1.1 Hierarchical Scene Graph as Spatial Memory(分层场景图作为空间记忆)** 构建一个**分层场景图谱**(Hierarchical Scene Graph)用于代理在3D世界中的定位和导航,具体分为三个层次: 1. **Volume Grid Layer(体积网格层)** - 利用RGB和深度图像构建3D空间表示,生成障碍地图以辅助导航。 - 将空间划分为0.5m×0.5m的块,并进一步划分0.1m×0.1m的小单元,用于判断是否为可行走区域。 2. **Object Layer(对象层)** - 使用多阶段视觉感知流程(包括标签、目标检测和图像分割)提取语义对象。 - 通过3D点云和视觉特征计算对象间的几何和视觉相似性,并进行合并,尤其处理了**动态对象**(如代理和车辆)的跨帧匹配问题。 3. **Region Layer(区域层)** - 利用广义Voronoi图(GVD)对建筑物进行区域划分,通过谱聚类将地图划分为多个区域,实现更结构化的空间划分。 --- ### **4.2 Spatiotemporal Episodic Memory(时空情景记忆)** 情景记忆负责存储个人经历。Ella的情景记忆模块不仅包括**时间与空间信息**,还包含**多模态内容**(文本描述和第一视角图像),使得代理可以基于当前环境检索相关经历。 #### **Retrieval(检索机制)** 情景记忆支持**时空检索**,根据查询的时间、地点和内容,对所有记忆条目进行排序,依据三个指标: 1. **Spatial Proximity(空间接近度)**:事件位置与查询位置之间的距离。 2. **Content Relevance(内容相关性)**:通过文本和图像的余弦相似度计算。 3. **Temporal Recency(时间新鲜度)**:使用指数衰减函数计算最近访问的权重。 最终将三个指标归一化后取平均,作为检索得分,返回Top-k条结果。 --- ### **4.3 Planning, Reaction, and Communication(规划、反应与通信)** Ella利用上述记忆系统,结合**基础模型**,实现日常规划、环境交互和社交行为。总体流程如下: - 根据长期记忆生成**日常计划**。 - 根据观察更新语义记忆,并通过反应模块进行**计划修订**、**环境交互**、**对话**等动作。 - 通信模块负责生成对话内容、对话摘要及知识提取,更新语义记忆。 #### **4.3.1 Daily Schedule(日常计划)** 每天开始时,Ella会从长期记忆中检索并生成一个**基于环境与角色的结构化日常计划**,计划包括活动的起止时间、地点和描述,并考虑**不同地点之间的通勤时间**。例如,从办公室到聚会场所可能需要15分钟以上,若未考虑通勤时间,可能导致错过活动。 #### **4.3.2 Reaction(反应模块)** 当系统获得新的观察信息(如视觉或语音)时,会: 1. 更新语义记忆; 2. 通过“Important things to react to.”的查询检索相关记忆; 3. 通过基础模型决定是否需要**修订计划、与环境交互、对话或无操作**; 4. 若超过预设时间θreact未触发反应,模块将自动激活。 #### **4.3.3 Communication(通信模块)** 当代理决定进行对话时,通信模块将: - 根据最新对话内容或“Things to chat about with conversation targets”的查询,检索相关记忆; - 生成合适的对话内容; - 对话结束后进行**摘要**,并将新知识提取后更新语义记忆。 --- ### **总结** Ella系统通过构建**名称中心语义记忆**和**时空情景记忆**,结合**基础模型**,使代理能够在3D开放世界中进行持续学习和社交互动。整个系统强调**长期记忆的组织与检索**,并利用**结构化规划**和**动态反应机制**,实现智能体的自主行为与社交能力。 ## 5 Experiments ## 5 实验结果总结 ### 5.1 实验设置 本实验在 **Virtual Community** 平台上进行,这是一个基于真实世界构建的开放型多智能体模拟环境,支持大规模社区场景和物理仿真。实验中,使用了 15 个具有不同角色设定的具身社会智能体,在三个不同的城市场景(纽约、伦敦、底特律)中进行测试,总共有两个评估任务: 1. **Influence Battle(影响力竞赛)**:要求两个小组在 6 小时内组织一场派对,需外出邀请其他组的智能体参加。评估指标包括“到场率”(show-up rate)和“总对话次数”。 2. **Leadership Quest(领导力任务)**:每个小组被分配一项在城市中购买物品的任务(3 小时内完成),其中一名成员为“领导者”,其他成员需协助领导。评估指标包括“完成率”(completion rate)和“总对话次数”。 实验分为两个阶段: - **第一阶段**:模拟 9 小时,智能体熟悉环境、彼此建立记忆。 - **第二阶段**:进行上述两个任务评估。 为了与 Ella(本文提出的方法)对比,也复现了两个已有方法作为基线: - **CoELA**:专注于室内场景的协作具身智能体框架。 - **Generative Agents**:依赖“完美感知”(Oracle Perception)和预定义通信机制的行为模拟。 Ella 的感知模块使用了多种模型,包括 RAM++、GroundingDINO 和 SAM2,文本和图像嵌入使用 CLIP 和 Azure 提供的模型。基础模型使用 GPT-4o(CoELA 也使用了 GPT-4o),但对 Generative Agents 使用了 GPT-3.5 以节省成本。此外,还测试了开源模型如 DeepSeek 和 Qwen 用于 Ella 的“Oracle Perception”版本。 ### 5.2 实验结果 #### Ella 在两项任务中表现优异 - **Influence Battle**:Ella 的 **到场率** 和 **对话次数** 在三个城市中均优于 CoELA 和 Generative Agents,尤其是在伦敦和底特律表现突出。 - **Leadership Quest**:Ella 的 **完成率** 明显高于其他方法,尤其在伦敦社区表现最佳,而 CoELA 几乎未完成任务,Generative Agents 表现不佳。 - 搭配 **Oracle Perception(使用真实2D分割)** 后,Ella 的性能进一步提升,尤其是在识别对话目标和维护社交联系方面表现更佳。 #### Ella 的结构化长期记忆系统优势明显 Ella 的记忆系统在任务中展现出 **结构化、稳定、高效** 的增长特性。相比 Generative Agents,Ella 的记忆节点增长更有序,支持更大规模的记忆存储和快速检索,从而提升任务表现。 #### 基于开源基础模型的 Ella 表现有潜力 尽管 GPT-4o 性能最佳,但使用开源模型如 **DeepSeek-R1-Distill-Qwen-14B** 后,Ella 仍能取得接近 GPT-4o 的表现,而 **Qwen2.5-14B-Instruct** 表现较差。这表明 Ella 框架本身具备良好的兼容性和可扩展性。 #### 感知能力对具身社交智能体至关重要 与已有方法相比,Ella 不依赖“完美感知”,而是通过 **视觉识别** 和 **对话内容** 来判断与谁交谈,并根据 **3D 位置** 判断消息传播范围。因此,感知能力的提升(如 Oracle Perception)显著增强交互能力,特别是在复杂 3D 环境中。 --- ### 总结 本节对 Ella 在开放世界 3D 社区中的表现进行了全面实验验证。通过两个挑战性任务(影响力竞赛与领导力任务)和多种感知设置(真实感知与 Oracle 感知),证明了 Ella 在 **社交推理、说服能力、协作能力** 等方面的优越性。其结构化记忆、强大感知、以及对开源模型的良好适配性,为未来具身社会智能体的发展提供了坚实基础。 ## 6 Limitations ## 6 限制(Limitations) 本节总结了当前系统在实现和设计上存在的几个关键限制,分别涉及知识检索方式、模拟效率以及认知过程的同步性假设。 --- ### Leverage the graph structure of the name-centric semantic memory. 虽然**以名称为中心的语义记忆**是以图结构维护的,但当前实现仅依赖于**文本和图像特征的相似性**进行知识检索。这意味着系统尚未充分利用图结构中潜在的复杂关系和连接。 为提升系统的推理能力,未来可以引入**更先进的基于图的知识检索方法**,如文献 [zhang2025surveygraphretrievalaugmentedgeneration](https://arxiv.org/html/2506.24019v1#bib.bib102)、[sun2023think](https://arxiv.org/html/2506.24019v1#bib.bib86)、[gutiérrez2024hipporag](https://arxiv.org/html/2506.24019v1#bib.bib28) 所提出的多跳推理技术。这些方法有望增强系统进行复杂推理的能力,是未来研究的**关键方向**。 --- ### Lifelong simulation of a community of agents in a visually rich, physics-realistic environment is computationally expensive. 尽管实验只持续了**1.5个模拟天数**,看似较短,但系统采用了**终身学习(lifelong learning)**的通用定义,即智能体在不同经验中积累、保留并复用知识的能力(参见 [chen2018lifelong](https://arxiv.org/html/2506.24019v1#bib.bib14))。 然而,即使进行了系统级优化,**每次模拟仍需与现实时间同步**,即每一模拟秒对应一真实秒。这是因为系统需要进行**多摄像头渲染、蒙皮运动计算**,以及调用多个模型或API来支持智能体的决策过程。因此,模拟一天需要**一天的真实时间**,这严重限制了实验的规模和效率。 尽管如此,随着**图形和模拟技术的进步**,这一瓶颈有望被缓解,从而支持在高保真、物理真实环境中开发更复杂的具身化社会智能体。 --- ### All agents’ thinking processes are assumed to finish synchronously. 人类的认知过程是受**有限计算资源限制的**([lieder2020resource](https://arxiv.org/html/2506.24019v1#bib.bib51)),但目前系统假设所有智能体的思考是**同步进行且资源无限**的,即无论其思考过程多复杂,仅需1秒即可完成。 然而,现实中智能体应考虑**在有限资源下进行思考的时间成本**,并研究如何在**快速的系统1思维(system-1)和缓慢的系统2思维(system-2)之间切换**([evans2003two](https://arxiv.org/html/2506.24019v1#bib.bib19))。这是一个值得进一步探索的认知建模方向,有助于更真实地模拟人类智能行为。 ## 7 Conclusion ## 7 结论 在本文中,我们构建了一个结构化的长期记忆系统,包括以名称为中心的语义记忆和时空情景记忆,并引入了 Ella——一个具身化的社会智能体,它利用基础模型和检索到的记忆来进行推理、制定日常计划以及参与社交活动。 我们在一个虚拟社区中进行了以能力为导向的实验,涉及15个智能体,分布在3个不同的社区中。实验结果表明,Ella 能够有效地利用长期记忆在开放世界中对他者智能体施加影响、合作与领导,同时不断积累多模态经验,并从环境的视觉观察和与其他智能体的社交互动中持续获取知识。 本研究的发现表明,将结构化的长期记忆与基础模型相结合,对于推动能够与人类共存的具身通用智能的发展具有重要意义。 ## Appendix A Broader Impact ## Appendix A 更广泛的影响 本节重点探讨了当具身社会智能体(embodied social agents)日益先进并融入以人为中心的环境中时,所引发的伦理和社会层面的关键问题。 首先,**AI驱动的说服能力对人与智能体交互的影响**是主要关注点之一。文章提到,在“影响之战(Influence Battle)”的评估中,智能体Ella成功说服其他智能体参加活动,表现出其对群体行为的塑造能力。尽管这种社交推理能力对于协作型AI非常重要,但如果在现实世界中被滥用,可能导致**操控、误导或不当影响**等风险。因此,必须在设计AI驱动的说服型智能体时,强调**透明的意图披露**和**价值观对齐**,以避免其从事欺骗性或强制性的行为。 其次,**决策过程可能反映和加剧社会偏见**也是一个重要问题。文章以“领导力探索(Leadership Quest)”为例,指出Ella在领导能力上表现优异,但在AI驱动系统中,领导资格的评判标准是否公正仍存疑问。为确保AI在领导角色中的**多样性和公平性**,需要实施**强有力的偏见缓解策略**、**谨慎的数据集构建**,以及**在多种社交背景下的持续评估**。 总结来说,本节强调了AI社会智能体在提升社会协作能力的同时,必须关注其可能带来的伦理风险,并通过技术设计与制度保障,确保其行为符合人类价值观与社会公平原则。 ## Appendix B Additional Experiment Details ## 附录 B 实验附加细节总结 ### B.1 虚拟社区 (Virtual Community) **Virtual Community (ViCo)** 是一个为多智能体具身AI设计的开放世界模拟平台,其特点包括从现实世界中衍生的大规模社区场景,并具有真实的物理模拟和渲染效果。ViCo基于 **Genesis** [[5]](#bib.bib5) 引擎开发,该引擎是一个**全可微的生成式物理模拟器**,能够模拟多种材料和广泛的机器人任务。Genesis还集成了基于OpenGL的实时渲染器和基于Luisa的路径追踪渲染器,以实现高质量的视觉效果。 ViCo的主要功能是提供**可扩展的3D场景创建**以及**具身代理社区的生成**,适用于各种研究和模拟任务。 --- #### B.1.1 场景 (Scenes) ViCo通过一个在线流程将现有的**3D地理空间数据**转化为高质量的模拟场景,并自动标注这些场景以实现与现实世界的对齐。此流程支持在任意地点和规模上生成**室内和室外环境**。目前,ViCo已生成了**57个全球不同城市的场景**。 在本文中,用于评估的场景子集包括:**纽约市**、**底特律**和**伦敦**。图6展示了虚拟社区中不同场景的近景视图(图6略,见原文)。 --- #### B.1.2 代理 (Agents) ViCo提供了**74种角色皮肤**,包括来自Mixamo的普通皮肤和通过Avatar SDK从真实图像生成的名人皮肤。在每个场景中,随机选择了**15种皮肤**进行使用。ViCo结合了**SMPL-X人类骨架**模型和生成的皮肤,支持最多**2,299种独特的动作**(来自Mixamo)。 此外,ViCo能够生成**与场景绑定并具备社交关系的角色**,从而模拟真实的社区生活。图5展示了纽约市中一个生成的社区,并标注了具有不同功能的场所(图5略,见原文)。 --- ### B.2 计算资源 (Compute) 实验是在**单个NVIDIA A100 GPU**上进行的。每个社区生命模拟分为两个阶段: - **第一阶段**运行**20小时**; - **第二阶段**每个任务和社区运行**10小时**。 每个代理的**记忆存储**(包括情景记忆和语义记忆)在模拟运行**9小时后**平均占用**161 MB**。运行时,代理还需额外的内存用于**感知、规划和检索**,其中**感知模块**单独占用约**4 GB GPU内存**。每个代理进程的**最大RAM使用量**约为**1 GB**。 --- ### 总结要点: - **ViCo** 是基于Genesis引擎构建的高质量多智能体模拟平台,支持大规模、可扩展的3D场景生成和具身智能体建模。 - 实验使用了**纽约、底特律和伦敦**三个城市的场景进行评估。 - 代理系统包括多种角色皮肤和动作支持,能生成具有社交关系的社区角色。 - 计算资源方面,实验在A100 GPU上运行,感知模块消耗高(约4GB GPU内存/代理),整体内存使用量较大(约1GB RAM/代理)。 ## Appendix C Additional Implementation Details ### Appendix C Additional Implementation Details(附录C 额外的实现细节) #### C.1 Navigation(导航) 在本节中,作者进一步介绍了在语义记忆(Semantic Memory)中维护的体积网格(volume grid)如何用于导航任务。 **1. 占用地图构建与网格分类** 基于语义记忆中的体积网格,系统构建了一个**占用地图**(occupancy map),并将整个地图划分为三类网格点: - **未知区域(unknown)**:尚未探索的区域; - **已知障碍物区域(known obstacles)**:已识别的障碍物区域; - **已知非障碍物区域(known non-obstacles)**:已探索且可通行的区域。 这一分类如图7所示,图中红色表示已探索区域,白色代表建筑,黑色为未探索区域,绿色圆圈表示代理(agent)计划访问的建筑。 **2. 路径搜索算法(A\*)** 为了寻找最短路径,系统使用了**A\*算法**,并为不同类型的网格点设置了不同的权重: - **已知非障碍物点权重设为 1**; - **未知点权重设为 5**,以鼓励探索但避免过于冒险; - **障碍物点权重设为无穷大**,表示不可通过。 此外,为避免代理因靠近障碍物而“卡住”或与墙壁发生碰撞(wall-clipping),系统**对靠近障碍物的点附加了一个惩罚权重**,具体为: - 距障碍物距离为d的点,附加权重为 $ \frac{100}{d} $,距离越近,权重越高。 **3. 路径一致性优化** 为防止代理因连续路径规划结果差异过大而**原地徘徊**,系统在路径更新时会**优先使用之前计算的路径**,除非发现该路径不可行(如穿越障碍物)。 --- **重点总结**: - 通过语义记忆中的体积网格构建占用地图,并分为三类网格点; - 使用A\*算法进行路径搜索,并为不同区域设置不同权重; - 特别是对靠近障碍物的区域施加额外惩罚; - 为保持导航稳定性,优先沿用上一路径,除非路径不可行。 ## Appendix D Prompt Templates 以下是该节《Appendix D Prompt Templates》的总结: --- ## Appendix D Prompt Templates 本节提供了在 **Section 4.3(Planning, Reaction, and Communication)** 中介绍的各个模块所使用的完整提示模板(prompt templates)。这些模板用于指导基于记忆、计划和交互的智能体行为生成。具体内容通过 **Figure 8 到 Figure 12** 展示,每张图对应一种提示模板的结构和变量替换方式。 --- ### Figure 8: 生成日常计划的提示模板 - **用途**:用于生成智能体的**日常计划(daily schedule)**。 - **变量替换**: - **Character**:智能体的角色描述。 - **Context**:从记忆中检索的相关上下文信息。 - **重点**:通过角色描述和记忆内容,生成一个符合角色设定的计划。 --- ### Figure 9: 生成反应的提示模板 - **用途**:用于生成智能体对当前情境的**反应(reaction)**。 - **变量替换**: - **Character**:角色描述。 - **Schedule**:当日剩余的计划。 - **Experience**:从记忆中检索的经验。 - **Context**:最新的记忆内容。 - **重点**:结合角色、计划和记忆,生成符合当前状态和目标的反应行为。 --- ### Figure 10: 生成语言输出的提示模板 - **用途**:用于生成智能体的**语言输出(utterance)**。 - **变量替换**: - **Character**:角色描述。 - **Target_knowledge**:目标知识。 - **Target_experience**:目标经验。 - **Context**:记忆内容。 - **Conversation_history**:最近的4条对话记录。 - **重点**:通过角色、目标信息和对话历史生成自然的对话内容。 --- ### Figure 11: 生成对话总结的提示模板 - **用途**:对**对话内容进行总结**。 - **变量替换**: - **Conversation_history**:完整的对话记录。 - **重点**:用于提炼和压缩对话内容,便于后续记忆存储和检索。 --- ### Figure 12: 从对话中提取知识的提示模板 - **用途**:从对话中**提取知识点(knowledge items)**。 - **变量替换**: - **Conversation_history**:完整的对话记录。 - **Knowledge_items**:从语义记忆中抽样的知识项。 - **重点**:用于知识的动态提取和更新,强化智能体的长期记忆能力。 --- ### 总体说明 该附录展示了 Ella 智能体在日常任务中使用的多个提示模板。每个模板都结合了角色设定、记忆检索和特定任务需求,从而生成合理的行为、反应和语言。这些模板是 Ella 实现“具身化终身学习”和“社会智能”功能的关键组件。 - **重点模块**: - 日常计划生成(Figure 8) - 反应生成(Figure 9) - 语言输出(Figure 10) - **辅助模块**: - 对话总结(Figure 11) - 知识提取(Figure 12) --- 以上是对 Appendix D Prompt Templates 的结构化总结。