# 2305.17144_GITM: Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory * * PDF: * 引用: 147(2025-08-23) * 组织: * 1Tsinghua University * 2SenseTime Research(商汤科技) * 3Centre for Artificial Intelligence and Robotics, HKISI, CAS * 4University of Science and Technology of China * 5The Chinese University of Hong Kong * 6Shanghai Artificial Intelligence Laboratory * 7Institute of Automation, Chinese Academy of Science (CASIA) ## From Deepseek ### **核心内容** 该论文提出了一种基于大型语言模型(LLM)的智能体框架"Ghost",旨在解决开放世界环境(以《Minecraft》为实验平台)中的通用任务执行问题。通过结合文本化知识表示与记忆机制,Ghost能够像"幽灵"一样灵活地感知、规划并适应复杂的动态环境。 ### **关键创新点** 1. **文本化环境交互** - 将游戏状态、物体属性、操作指令等转化为自然语言描述,使LLM能够直接理解开放世界的非结构化信息。 2. **动态记忆系统** - 构建分层记忆模块(短期/长期记忆),持续存储任务历史、环境变化和经验知识,支持长期决策。 3. **自主目标分解** - 利用LLM的推理能力将复杂目标(如"建造房屋")分解为可执行的子任务,并动态调整计划以应对突发情况(如资源短缺)。 4. **多模态知识融合** - 尽管以文本为核心,系统整合了代码接口、游戏API等非文本工具,扩展了LLM在三维环境中的行动能力。 ### **实验验证** 在《Minecraft》中测试了包括资源收集、建造、探索等多样化任务,结果表明: - Ghost在未知环境中表现出类人的适应性,无需任务特定训练。 - 记忆机制显著提升了长期任务的完成率(如对比无记忆模块的基线模型)。 - 展示了LLM在开放世界作为"通用智能体"的潜力。 ### **意义与展望** - 为LLM在三维开放世界的应用提供了实践框架。 - 揭示了文本化知识表示在具身智能中的有效性。 - 未来可扩展至机器人、虚拟现实等更广泛的交互场景。 ## From Deepseek 这篇论文提出并验证了一种革命性的方法,利用大型语言模型(LLMs)来打造能够在《我的世界》(Minecraft)这种开放世界环境中执行多种复杂任务的通用智能体(Generally Capable Agents, GCAs)。其核心思想是让LLM扮演游戏的“大脑”或“灵魂”(Ghost),通过文本指令来控制游戏角色。 ### 核心问题与动机 1. **现有方法的局限性**:此前,在Minecraft中训练智能体主要依赖**强化学习(RL)**。这种方法在特定任务(如著名的“获得钻石”(ObtainDiamond)任务)上取得了一定成功,但成功率最高也仅在20%左右。RL智能体泛化能力差,难以应对开放世界中层出不穷的新任务和不确定性。 2. **对通用能力的追求**:研究界希望开发出能像人类一样自由探索、规划并完成多种目标的“通用智能体”,而不仅仅是精通单一任务的专家。 ### 核心创新:GITM框架 该论文提出的GITM框架的核心创新点在于: * **以LLM为控制中心**:摒弃了传统的RL控制器,转而使用大型语言模型(如GPT-4)作为智能体的“大脑”。LLM提供了强大的常识、逻辑推理和长期规划能力。 * **文本化交互**:将游戏状态(物品栏、周围环境、健康值等)转化为文本描述,同时将游戏动作(合成、挖掘、移动等)也定义为一套结构化的文本指令。这样,LLM就能以它最擅长的“读文本”和“写文本”的方式来理解和控制游戏。 * **知识库与记忆系统**:为LLM配备了一个文本知识库(如合成配方表)和一个记忆系统(记录过去的成功与失败经验),使其能够基于已有知识和历史经验做出更明智的决策。 **工作流程可以简化为**: 1. **观察**:将游戏状态转换为文本提示(Prompt)。 2. **思考**:LLM接收提示,结合知识库和记忆,推理出下一步应该执行的**行动计划**(也是一段文本)。 3. **执行**:一个轻量级的代码模块(**控制器**)将LLM生成的文本行动计划解析成具体的游戏指令并执行。 4. **循环**:重复上述过程,并根据执行结果更新记忆,持续进行任务。 ### 卓越的性能表现 GITM框架展现出了远超之前方法的强大性能: 1. **大幅提升成功率**:在极具挑战性的“ObtainDiamond”任务上,取得了**67.5%** 的成功率,比之前基于RL的最佳方法(~20%)**提升了惊人的47.5%**。 2. **史上首次**:该智能体成为了**历史上第一个**能够从头开始收集并合成出Minecraft主世界科技树中**所有物品**的AI智能体,充分证明了其处理超长周期、复杂任务链的卓越能力。 3. **强大的鲁棒性**:与RL智能体容易“卡死”或做出怪异行为不同,LLM智能体基于常识的决策使其更能应对意外情况,表现出更强的稳健性。 4. **极高的效率**:该方法**无需使用GPU进行大规模训练**。整个系统在推理时仅需一个**32核的CPU节点**即可运行,极大地降低了计算成本和门槛。 ### 总结与意义 这篇论文的意义远不止于在Minecraft游戏中获得钻石。它成功地证明了: * **LLMs作为智能体“大脑”的潜力**:LLMs所蕴含的丰富知识和推理能力,是解决开放世界任务中规划、序列决策和常识问题的一把钥匙。 * **新范式的可行性**:为构建通用智能体提供了一条不同于传统RL的新路径,即 **“LLM + 知识/记忆 + 控制器”** 的范式。 * **低成本的解决方案**:展示了如何利用现成的、强大的LLM,以极低的计算成本来解决极其复杂的决策问题。 总之,《Ghost in the Minecraft》是一项里程碑式的工作,它通过巧妙的框架设计,将LLMs的能力引入了开放世界环境,为未来人工智能在机器人、自动化、游戏等领域的应用开辟了新的方向。