# 2305.17144_GITM: Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory


* <https://arxiv.org/abs/2305.17144>
* PDF: <https://arxiv.org/pdf/2305.17144>
* 引用: 147(2025-08-23)
* 组织:
    * 1Tsinghua University 
    * 2SenseTime Research(商汤科技)
    * 3Centre for Artificial Intelligence and Robotics, HKISI, CAS
    * 4University of Science and Technology of China
    * 5The Chinese University of Hong Kong 
    * 6Shanghai Artificial Intelligence Laboratory
    * 7Institute of Automation, Chinese Academy of Science (CASIA)


## From Deepseek


### **核心内容**  
该论文提出了一种基于大型语言模型（LLM）的智能体框架"Ghost"，旨在解决开放世界环境（以《Minecraft》为实验平台）中的通用任务执行问题。通过结合文本化知识表示与记忆机制，Ghost能够像"幽灵"一样灵活地感知、规划并适应复杂的动态环境。

### **关键创新点**  
1. **文本化环境交互**  
   - 将游戏状态、物体属性、操作指令等转化为自然语言描述，使LLM能够直接理解开放世界的非结构化信息。

2. **动态记忆系统**  
   - 构建分层记忆模块（短期/长期记忆），持续存储任务历史、环境变化和经验知识，支持长期决策。

3. **自主目标分解**  
   - 利用LLM的推理能力将复杂目标（如"建造房屋"）分解为可执行的子任务，并动态调整计划以应对突发情况（如资源短缺）。

4. **多模态知识融合**  
   - 尽管以文本为核心，系统整合了代码接口、游戏API等非文本工具，扩展了LLM在三维环境中的行动能力。

### **实验验证**  
在《Minecraft》中测试了包括资源收集、建造、探索等多样化任务，结果表明：  
- Ghost在未知环境中表现出类人的适应性，无需任务特定训练。  
- 记忆机制显著提升了长期任务的完成率（如对比无记忆模块的基线模型）。  
- 展示了LLM在开放世界作为"通用智能体"的潜力。

### **意义与展望**  
- 为LLM在三维开放世界的应用提供了实践框架。  
- 揭示了文本化知识表示在具身智能中的有效性。  
- 未来可扩展至机器人、虚拟现实等更广泛的交互场景。


## From Deepseek

这篇论文提出并验证了一种革命性的方法，利用大型语言模型（LLMs）来打造能够在《我的世界》（Minecraft）这种开放世界环境中执行多种复杂任务的通用智能体（Generally Capable Agents, GCAs）。其核心思想是让LLM扮演游戏的“大脑”或“灵魂”（Ghost），通过文本指令来控制游戏角色。

### 核心问题与动机

1.  **现有方法的局限性**：此前，在Minecraft中训练智能体主要依赖**强化学习（RL）**。这种方法在特定任务（如著名的“获得钻石”（ObtainDiamond）任务）上取得了一定成功，但成功率最高也仅在20%左右。RL智能体泛化能力差，难以应对开放世界中层出不穷的新任务和不确定性。
2.  **对通用能力的追求**：研究界希望开发出能像人类一样自由探索、规划并完成多种目标的“通用智能体”，而不仅仅是精通单一任务的专家。

### 核心创新：GITM框架

该论文提出的GITM框架的核心创新点在于：

*   **以LLM为控制中心**：摒弃了传统的RL控制器，转而使用大型语言模型（如GPT-4）作为智能体的“大脑”。LLM提供了强大的常识、逻辑推理和长期规划能力。
*   **文本化交互**：将游戏状态（物品栏、周围环境、健康值等）转化为文本描述，同时将游戏动作（合成、挖掘、移动等）也定义为一套结构化的文本指令。这样，LLM就能以它最擅长的“读文本”和“写文本”的方式来理解和控制游戏。
*   **知识库与记忆系统**：为LLM配备了一个文本知识库（如合成配方表）和一个记忆系统（记录过去的成功与失败经验），使其能够基于已有知识和历史经验做出更明智的决策。

**工作流程可以简化为**：
1.  **观察**：将游戏状态转换为文本提示（Prompt）。
2.  **思考**：LLM接收提示，结合知识库和记忆，推理出下一步应该执行的**行动计划**（也是一段文本）。
3.  **执行**：一个轻量级的代码模块（**控制器**）将LLM生成的文本行动计划解析成具体的游戏指令并执行。
4.  **循环**：重复上述过程，并根据执行结果更新记忆，持续进行任务。

### 卓越的性能表现

GITM框架展现出了远超之前方法的强大性能：

1.  **大幅提升成功率**：在极具挑战性的“ObtainDiamond”任务上，取得了**67.5%** 的成功率，比之前基于RL的最佳方法（~20%）**提升了惊人的47.5%**。
2.  **史上首次**：该智能体成为了**历史上第一个**能够从头开始收集并合成出Minecraft主世界科技树中**所有物品**的AI智能体，充分证明了其处理超长周期、复杂任务链的卓越能力。
3.  **强大的鲁棒性**：与RL智能体容易“卡死”或做出怪异行为不同，LLM智能体基于常识的决策使其更能应对意外情况，表现出更强的稳健性。
4.  **极高的效率**：该方法**无需使用GPU进行大规模训练**。整个系统在推理时仅需一个**32核的CPU节点**即可运行，极大地降低了计算成本和门槛。

### 总结与意义

这篇论文的意义远不止于在Minecraft游戏中获得钻石。它成功地证明了：

*   **LLMs作为智能体“大脑”的潜力**：LLMs所蕴含的丰富知识和推理能力，是解决开放世界任务中规划、序列决策和常识问题的一把钥匙。
*   **新范式的可行性**：为构建通用智能体提供了一条不同于传统RL的新路径，即 **“LLM + 知识/记忆 + 控制器”** 的范式。
*   **低成本的解决方案**：展示了如何利用现成的、强大的LLM，以极低的计算成本来解决极其复杂的决策问题。

总之，《Ghost in the Minecraft》是一项里程碑式的工作，它通过巧妙的框架设计，将LLMs的能力引入了开放世界环境，为未来人工智能在机器人、自动化、游戏等领域的应用开辟了新的方向。