主页

索引

模块索引

搜索页面

Chat with the Environment

  • 标题:Chat with the Environment: Interactive Multimodal Perception Using Large Language Models

  • 时间:2023-03-14

  • 论文:https://arxiv.org/abs/2303.08268

  • 作者:Xufeng Zhao, Mengdi Li, Cornelius Weber, Muhammad Burhan Hafez, Stefan Wermter

  • 赵旭峰, 李梦迪, 科尼利厄斯·韦伯, 穆罕默德·布尔汉·哈菲兹, 斯特凡·韦尔姆特

  • 简介:在复杂的世界中,机器人行为编程面临着多个层面的挑战,从灵巧的低级技能到高级规划和推理。最近预训练的大型语言模型(LLMs)在小样本机器人规划中表现出了非凡的推理能力。然而,在多模态感官输入和连续动作输出的基础上LLMs,同时使机器人能够与环境互动并随着其政策的展开获取新信息仍然具有挑战性。我们开发了一个具有部分可观察状态的机器人交互场景,这需要机器人决定一系列认知动作,以便在能够正确执行任务之前对多种模式中的感官信息进行采样。因此,提出了一种交互式感知框架 Matcha(多模态环境聊天)代理,该框架以 an LLM 为主干,利用其能力来指导认识行为和对由此产生的多模态感觉(视觉、声音、触觉、本体感觉)进行推理,以及根据交互获取的信息计划整个任务执行。我们的研究表明,LLMs在多模态环境中,可以提供高水平的规划和推理技能并控制交互式机器人的行为,而具有环境状态情境的多模态模块有助于建立LLMs和扩展其处理能力。项目网站可在此 https URL 上找到。

正文

  • Matcha (multimodal environment chatting) agent: is able to interactively perceive (“chat” with) the environment through multimodal perception when the information from passive visual perception is insufficient for completing an instructed task.

https://img.zhaoweiguo.com/uPic/2024/07/FW1KSN.png

Overview of Matcha.

主页

索引

模块索引

搜索页面