2305.17144_GITM: Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory¶
引用: 147(2025-08-23)
组织:
1Tsinghua University
2SenseTime Research(商汤科技)
3Centre for Artificial Intelligence and Robotics, HKISI, CAS
4University of Science and Technology of China
5The Chinese University of Hong Kong
6Shanghai Artificial Intelligence Laboratory
7Institute of Automation, Chinese Academy of Science (CASIA)
From Deepseek¶
核心内容¶
该论文提出了一种基于大型语言模型(LLM)的智能体框架”Ghost”,旨在解决开放世界环境(以《Minecraft》为实验平台)中的通用任务执行问题。通过结合文本化知识表示与记忆机制,Ghost能够像”幽灵”一样灵活地感知、规划并适应复杂的动态环境。
关键创新点¶
文本化环境交互
将游戏状态、物体属性、操作指令等转化为自然语言描述,使LLM能够直接理解开放世界的非结构化信息。
动态记忆系统
构建分层记忆模块(短期/长期记忆),持续存储任务历史、环境变化和经验知识,支持长期决策。
自主目标分解
利用LLM的推理能力将复杂目标(如”建造房屋”)分解为可执行的子任务,并动态调整计划以应对突发情况(如资源短缺)。
多模态知识融合
尽管以文本为核心,系统整合了代码接口、游戏API等非文本工具,扩展了LLM在三维环境中的行动能力。
实验验证¶
在《Minecraft》中测试了包括资源收集、建造、探索等多样化任务,结果表明:
Ghost在未知环境中表现出类人的适应性,无需任务特定训练。
记忆机制显著提升了长期任务的完成率(如对比无记忆模块的基线模型)。
展示了LLM在开放世界作为”通用智能体”的潜力。
意义与展望¶
为LLM在三维开放世界的应用提供了实践框架。
揭示了文本化知识表示在具身智能中的有效性。
未来可扩展至机器人、虚拟现实等更广泛的交互场景。
From Deepseek¶
这篇论文提出并验证了一种革命性的方法,利用大型语言模型(LLMs)来打造能够在《我的世界》(Minecraft)这种开放世界环境中执行多种复杂任务的通用智能体(Generally Capable Agents, GCAs)。其核心思想是让LLM扮演游戏的“大脑”或“灵魂”(Ghost),通过文本指令来控制游戏角色。
核心问题与动机¶
现有方法的局限性:此前,在Minecraft中训练智能体主要依赖强化学习(RL)。这种方法在特定任务(如著名的“获得钻石”(ObtainDiamond)任务)上取得了一定成功,但成功率最高也仅在20%左右。RL智能体泛化能力差,难以应对开放世界中层出不穷的新任务和不确定性。
对通用能力的追求:研究界希望开发出能像人类一样自由探索、规划并完成多种目标的“通用智能体”,而不仅仅是精通单一任务的专家。
核心创新:GITM框架¶
该论文提出的GITM框架的核心创新点在于:
以LLM为控制中心:摒弃了传统的RL控制器,转而使用大型语言模型(如GPT-4)作为智能体的“大脑”。LLM提供了强大的常识、逻辑推理和长期规划能力。
文本化交互:将游戏状态(物品栏、周围环境、健康值等)转化为文本描述,同时将游戏动作(合成、挖掘、移动等)也定义为一套结构化的文本指令。这样,LLM就能以它最擅长的“读文本”和“写文本”的方式来理解和控制游戏。
知识库与记忆系统:为LLM配备了一个文本知识库(如合成配方表)和一个记忆系统(记录过去的成功与失败经验),使其能够基于已有知识和历史经验做出更明智的决策。
工作流程可以简化为:
观察:将游戏状态转换为文本提示(Prompt)。
思考:LLM接收提示,结合知识库和记忆,推理出下一步应该执行的行动计划(也是一段文本)。
执行:一个轻量级的代码模块(控制器)将LLM生成的文本行动计划解析成具体的游戏指令并执行。
循环:重复上述过程,并根据执行结果更新记忆,持续进行任务。
卓越的性能表现¶
GITM框架展现出了远超之前方法的强大性能:
大幅提升成功率:在极具挑战性的“ObtainDiamond”任务上,取得了67.5% 的成功率,比之前基于RL的最佳方法(~20%)提升了惊人的47.5%。
史上首次:该智能体成为了历史上第一个能够从头开始收集并合成出Minecraft主世界科技树中所有物品的AI智能体,充分证明了其处理超长周期、复杂任务链的卓越能力。
强大的鲁棒性:与RL智能体容易“卡死”或做出怪异行为不同,LLM智能体基于常识的决策使其更能应对意外情况,表现出更强的稳健性。
极高的效率:该方法无需使用GPU进行大规模训练。整个系统在推理时仅需一个32核的CPU节点即可运行,极大地降低了计算成本和门槛。
总结与意义¶
这篇论文的意义远不止于在Minecraft游戏中获得钻石。它成功地证明了:
LLMs作为智能体“大脑”的潜力:LLMs所蕴含的丰富知识和推理能力,是解决开放世界任务中规划、序列决策和常识问题的一把钥匙。
新范式的可行性:为构建通用智能体提供了一条不同于传统RL的新路径,即 “LLM + 知识/记忆 + 控制器” 的范式。
低成本的解决方案:展示了如何利用现成的、强大的LLM,以极低的计算成本来解决极其复杂的决策问题。
总之,《Ghost in the Minecraft》是一项里程碑式的工作,它通过巧妙的框架设计,将LLMs的能力引入了开放世界环境,为未来人工智能在机器人、自动化、游戏等领域的应用开辟了新的方向。