2305.17144_GITM: Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory

  • https://arxiv.org/abs/2305.17144

  • PDF: https://arxiv.org/pdf/2305.17144

  • 引用: 147(2025-08-23)

  • 组织:

    • 1Tsinghua University

    • 2SenseTime Research(商汤科技)

    • 3Centre for Artificial Intelligence and Robotics, HKISI, CAS

    • 4University of Science and Technology of China

    • 5The Chinese University of Hong Kong

    • 6Shanghai Artificial Intelligence Laboratory

    • 7Institute of Automation, Chinese Academy of Science (CASIA)

From Deepseek

核心内容

该论文提出了一种基于大型语言模型(LLM)的智能体框架”Ghost”,旨在解决开放世界环境(以《Minecraft》为实验平台)中的通用任务执行问题。通过结合文本化知识表示与记忆机制,Ghost能够像”幽灵”一样灵活地感知、规划并适应复杂的动态环境。

关键创新点

  1. 文本化环境交互

    • 将游戏状态、物体属性、操作指令等转化为自然语言描述,使LLM能够直接理解开放世界的非结构化信息。

  2. 动态记忆系统

    • 构建分层记忆模块(短期/长期记忆),持续存储任务历史、环境变化和经验知识,支持长期决策。

  3. 自主目标分解

    • 利用LLM的推理能力将复杂目标(如”建造房屋”)分解为可执行的子任务,并动态调整计划以应对突发情况(如资源短缺)。

  4. 多模态知识融合

    • 尽管以文本为核心,系统整合了代码接口、游戏API等非文本工具,扩展了LLM在三维环境中的行动能力。

实验验证

在《Minecraft》中测试了包括资源收集、建造、探索等多样化任务,结果表明:

  • Ghost在未知环境中表现出类人的适应性,无需任务特定训练。

  • 记忆机制显著提升了长期任务的完成率(如对比无记忆模块的基线模型)。

  • 展示了LLM在开放世界作为”通用智能体”的潜力。

意义与展望

  • 为LLM在三维开放世界的应用提供了实践框架。

  • 揭示了文本化知识表示在具身智能中的有效性。

  • 未来可扩展至机器人、虚拟现实等更广泛的交互场景。

From Deepseek

这篇论文提出并验证了一种革命性的方法,利用大型语言模型(LLMs)来打造能够在《我的世界》(Minecraft)这种开放世界环境中执行多种复杂任务的通用智能体(Generally Capable Agents, GCAs)。其核心思想是让LLM扮演游戏的“大脑”或“灵魂”(Ghost),通过文本指令来控制游戏角色。

核心问题与动机

  1. 现有方法的局限性:此前,在Minecraft中训练智能体主要依赖强化学习(RL)。这种方法在特定任务(如著名的“获得钻石”(ObtainDiamond)任务)上取得了一定成功,但成功率最高也仅在20%左右。RL智能体泛化能力差,难以应对开放世界中层出不穷的新任务和不确定性。

  2. 对通用能力的追求:研究界希望开发出能像人类一样自由探索、规划并完成多种目标的“通用智能体”,而不仅仅是精通单一任务的专家。

核心创新:GITM框架

该论文提出的GITM框架的核心创新点在于:

  • 以LLM为控制中心:摒弃了传统的RL控制器,转而使用大型语言模型(如GPT-4)作为智能体的“大脑”。LLM提供了强大的常识、逻辑推理和长期规划能力。

  • 文本化交互:将游戏状态(物品栏、周围环境、健康值等)转化为文本描述,同时将游戏动作(合成、挖掘、移动等)也定义为一套结构化的文本指令。这样,LLM就能以它最擅长的“读文本”和“写文本”的方式来理解和控制游戏。

  • 知识库与记忆系统:为LLM配备了一个文本知识库(如合成配方表)和一个记忆系统(记录过去的成功与失败经验),使其能够基于已有知识和历史经验做出更明智的决策。

工作流程可以简化为

  1. 观察:将游戏状态转换为文本提示(Prompt)。

  2. 思考:LLM接收提示,结合知识库和记忆,推理出下一步应该执行的行动计划(也是一段文本)。

  3. 执行:一个轻量级的代码模块(控制器)将LLM生成的文本行动计划解析成具体的游戏指令并执行。

  4. 循环:重复上述过程,并根据执行结果更新记忆,持续进行任务。

卓越的性能表现

GITM框架展现出了远超之前方法的强大性能:

  1. 大幅提升成功率:在极具挑战性的“ObtainDiamond”任务上,取得了67.5% 的成功率,比之前基于RL的最佳方法(~20%)提升了惊人的47.5%

  2. 史上首次:该智能体成为了历史上第一个能够从头开始收集并合成出Minecraft主世界科技树中所有物品的AI智能体,充分证明了其处理超长周期、复杂任务链的卓越能力。

  3. 强大的鲁棒性:与RL智能体容易“卡死”或做出怪异行为不同,LLM智能体基于常识的决策使其更能应对意外情况,表现出更强的稳健性。

  4. 极高的效率:该方法无需使用GPU进行大规模训练。整个系统在推理时仅需一个32核的CPU节点即可运行,极大地降低了计算成本和门槛。

总结与意义

这篇论文的意义远不止于在Minecraft游戏中获得钻石。它成功地证明了:

  • LLMs作为智能体“大脑”的潜力:LLMs所蕴含的丰富知识和推理能力,是解决开放世界任务中规划、序列决策和常识问题的一把钥匙。

  • 新范式的可行性:为构建通用智能体提供了一条不同于传统RL的新路径,即 “LLM + 知识/记忆 + 控制器” 的范式。

  • 低成本的解决方案:展示了如何利用现成的、强大的LLM,以极低的计算成本来解决极其复杂的决策问题。

总之,《Ghost in the Minecraft》是一项里程碑式的工作,它通过巧妙的框架设计,将LLMs的能力引入了开放世界环境,为未来人工智能在机器人、自动化、游戏等领域的应用开辟了新的方向。