2305.17144_GITM: Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory¶

https://arxiv.org/abs/2305.17144
PDF: https://arxiv.org/pdf/2305.17144
引用: 147(2025-08-23)
组织:
- 1Tsinghua University
- 2SenseTime Research(商汤科技)
- 3Centre for Artificial Intelligence and Robotics, HKISI, CAS
- 4University of Science and Technology of China
- 5The Chinese University of Hong Kong
- 6Shanghai Artificial Intelligence Laboratory
- 7Institute of Automation, Chinese Academy of Science (CASIA)

From Deepseek¶

核心内容¶

该论文提出了一种基于大型语言模型（LLM）的智能体框架”Ghost”，旨在解决开放世界环境（以《Minecraft》为实验平台）中的通用任务执行问题。通过结合文本化知识表示与记忆机制，Ghost能够像”幽灵”一样灵活地感知、规划并适应复杂的动态环境。

关键创新点¶

文本化环境交互
- 将游戏状态、物体属性、操作指令等转化为自然语言描述，使LLM能够直接理解开放世界的非结构化信息。
动态记忆系统
- 构建分层记忆模块（短期/长期记忆），持续存储任务历史、环境变化和经验知识，支持长期决策。
自主目标分解
- 利用LLM的推理能力将复杂目标（如”建造房屋”）分解为可执行的子任务，并动态调整计划以应对突发情况（如资源短缺）。
多模态知识融合
- 尽管以文本为核心，系统整合了代码接口、游戏API等非文本工具，扩展了LLM在三维环境中的行动能力。

实验验证¶

在《Minecraft》中测试了包括资源收集、建造、探索等多样化任务，结果表明：

Ghost在未知环境中表现出类人的适应性，无需任务特定训练。
记忆机制显著提升了长期任务的完成率（如对比无记忆模块的基线模型）。
展示了LLM在开放世界作为”通用智能体”的潜力。

意义与展望¶

为LLM在三维开放世界的应用提供了实践框架。
揭示了文本化知识表示在具身智能中的有效性。
未来可扩展至机器人、虚拟现实等更广泛的交互场景。

From Deepseek¶

这篇论文提出并验证了一种革命性的方法，利用大型语言模型（LLMs）来打造能够在《我的世界》（Minecraft）这种开放世界环境中执行多种复杂任务的通用智能体（Generally Capable Agents, GCAs）。其核心思想是让LLM扮演游戏的“大脑”或“灵魂”（Ghost），通过文本指令来控制游戏角色。

核心问题与动机¶

现有方法的局限性：此前，在Minecraft中训练智能体主要依赖强化学习（RL）。这种方法在特定任务（如著名的“获得钻石”（ObtainDiamond）任务）上取得了一定成功，但成功率最高也仅在20%左右。RL智能体泛化能力差，难以应对开放世界中层出不穷的新任务和不确定性。
对通用能力的追求：研究界希望开发出能像人类一样自由探索、规划并完成多种目标的“通用智能体”，而不仅仅是精通单一任务的专家。

核心创新：GITM框架¶

该论文提出的GITM框架的核心创新点在于：

以LLM为控制中心：摒弃了传统的RL控制器，转而使用大型语言模型（如GPT-4）作为智能体的“大脑”。LLM提供了强大的常识、逻辑推理和长期规划能力。
文本化交互：将游戏状态（物品栏、周围环境、健康值等）转化为文本描述，同时将游戏动作（合成、挖掘、移动等）也定义为一套结构化的文本指令。这样，LLM就能以它最擅长的“读文本”和“写文本”的方式来理解和控制游戏。
知识库与记忆系统：为LLM配备了一个文本知识库（如合成配方表）和一个记忆系统（记录过去的成功与失败经验），使其能够基于已有知识和历史经验做出更明智的决策。

工作流程可以简化为：

观察：将游戏状态转换为文本提示（Prompt）。
思考：LLM接收提示，结合知识库和记忆，推理出下一步应该执行的行动计划（也是一段文本）。
执行：一个轻量级的代码模块（控制器）将LLM生成的文本行动计划解析成具体的游戏指令并执行。
循环：重复上述过程，并根据执行结果更新记忆，持续进行任务。

卓越的性能表现¶

GITM框架展现出了远超之前方法的强大性能：

大幅提升成功率：在极具挑战性的“ObtainDiamond”任务上，取得了67.5% 的成功率，比之前基于RL的最佳方法（~20%）提升了惊人的47.5%。
史上首次：该智能体成为了历史上第一个能够从头开始收集并合成出Minecraft主世界科技树中所有物品的AI智能体，充分证明了其处理超长周期、复杂任务链的卓越能力。
强大的鲁棒性：与RL智能体容易“卡死”或做出怪异行为不同，LLM智能体基于常识的决策使其更能应对意外情况，表现出更强的稳健性。
极高的效率：该方法无需使用GPU进行大规模训练。整个系统在推理时仅需一个32核的CPU节点即可运行，极大地降低了计算成本和门槛。

总结与意义¶

这篇论文的意义远不止于在Minecraft游戏中获得钻石。它成功地证明了：

LLMs作为智能体“大脑”的潜力：LLMs所蕴含的丰富知识和推理能力，是解决开放世界任务中规划、序列决策和常识问题的一把钥匙。
新范式的可行性：为构建通用智能体提供了一条不同于传统RL的新路径，即 “LLM + 知识/记忆 + 控制器” 的范式。
低成本的解决方案：展示了如何利用现成的、强大的LLM，以极低的计算成本来解决极其复杂的决策问题。

总之，《Ghost in the Minecraft》是一项里程碑式的工作，它通过巧妙的框架设计，将LLMs的能力引入了开放世界环境，为未来人工智能在机器人、自动化、游戏等领域的应用开辟了新的方向。