2501.12326_UI-TARS: Pioneering Automated GUI Interaction with Native Agents ########################################################################### * https://arxiv.org/abs/2501.12326 * GoogleScholar(star: 9) * 组织: 字节,清华 * GitHub: https://github.com/bytedance/UI-TARS Abstract ======== * UI-TARS 是一种 端到端的 GUI 代理模型,仅通过 屏幕截图 作为输入,模拟人类的交互方式(键盘、鼠标操作等)。 * 它的最大特点是 完全不依赖外部大模型(如 GPT-4o),也不需要复杂的提示词 (prompt) 和预设工作流,而是直接通过自身的模型能力执行任务。 * 实验表明,UI-TARS 在 10+ 个 GUI 代理基准测试中 达到了 SOTA(State of the Art,最优性能)。 * UI-TARS 的核心创新 - 增强感知能力(Enhanced Perception):训练于 大规模 GUI 截图数据集,能更精准地理解 UI 组件,并进行精确的 UI 元素标注。 - 统一的交互建模(Unified Action Modeling):将不同平台(如 Windows、Android)的交互方式 标准化,通过 大规模交互数据 学习精确的 UI 组件定位和交互方式。 - 系统 2 级推理(System-2 Reasoning):采用更 高级的推理能力 来执行多步决策,包括: + 任务分解(Task Decomposition) + 反思性思考(Reflection Thinking) + 里程碑识别(Milestone Recognition) - 基于反思的在线迭代训练(Iterative Training with Reflective Online Traces):通过 数百台虚拟机 自动收集新的交互数据,进行数据筛选和优化,反思过去的错误,持续学习和自我优化,减少人为干预 基准测试:: # GUI 自动化 & 计算机视觉 GUI-Odyssey OSWorld (Screenshot 15 steps) ScreenSpot-Pro ScreenSpot-v2 ScreenQA-Short # Web 自动化 & AI 浏览器交互 MM2Web-Website MM2Web-Task MM2Web-Domain VisualWebBench # Android 设备控制 AndroidControl-Low AndroidControl-High 1. Introduction =============== 本章主要讨论自主智能体(Autonomous Agents),特别是它们在图形用户界面(GUI)中的应用和发展。 背景: GUI 代理(GUI Agents)的重要性 ---------------------------------- * 自主智能体可以感知环境、做决策、执行动作,以完成特定任务。而在 GUI 交互方面,它们面临重大挑战,因为 GUI 主要依赖按钮、文本框、图像等视觉元素,而不是纯文本或结构化数据(如 HTML 代码)。 传统 GUI 代理方法的局限性 ------------------------- * 混合方法 - 过去的 GUI 代理主要采用基于文本的混合方法,即: - 读取 HTML 结构、可访问性树(Accessibility Tree)。 - 结合视觉模型来分析 UI。 - 问题 - 平台兼容性差:不同平台的 HTML 结构、可访问性数据不同,导致泛化能力弱。 - 系统权限要求高:许多方法需要访问底层系统信息,受限较多。 - 不够灵活:需要大量人工设计(handcrafted rules),不适应变化。 * 模块化架构 - 许多 GUI 代理使用模块化架构,把不同的功能拆分为: - 视觉语言模型(VLM,例如 GPT-4o):用于理解 UI 组件。 - 任务规划模块:负责逻辑推理和操作执行。 - 记忆模块:存储过去的交互信息。 - 问题 - 依赖专家规则:需要大量人为设计,难以适应新任务。 - 不够端到端(End-to-End):各模块之间的衔接可能导致误差累积,影响整体性能。 原生 GUI 代理(Native GUI Agent) ------------------------------- * 为了克服上述问题,研究者正在推动两个核心转变: * 从文本+视觉方法 → 纯视觉方法 - 过去的 GUI 代理需要解析 HTML,但新方法完全依赖屏幕截图作为输入,类似人类视觉感知 GUI。 - 好处: - 不受平台限制(适用于不同操作系统)。 - 降低系统访问权限要求(无需 HTML 解析)。 - 更符合人类的认知方式。 * 从模块化框架 → 端到端模型 - 模块化方法:各个子模块独立训练,不利于全局优化。 - 端到端方法:所有组件(感知、推理、记忆、行动)整合到同一架构中,使模型能基于数据直接学习,而非依赖人工规则。 当前端到端 GUI 代理面临的挑战 ----------------------------- * 尽管端到端方法概念上更先进,但仍然存在两个核心难点: * GUI 本身的复杂性 - 信息密度高:现代 GUI 界面包含大量信息,代理必须准确识别 UI 组件及其功能。 - 需要复杂的推理能力: - 规划多步交互(比如填表、提交表单)。 - 记忆过去的操作,避免重复错误。 - 处理低级执行(比如精确点击屏幕坐标、输入文本)。 * 数据瓶颈 - 端到端模型需要大规模高质量数据: - 过去的模块化方法使用不同的数据集分别训练子模块,但端到端方法需要完整的操作轨迹数据(action traces),包括 UI 变化、点击位置、决策逻辑等。 - 历史上缺乏此类数据,导致端到端方法难以泛化到复杂任务。 UI-TARS: 新一代原生 GUI 代理 ---------------------------- * 为了克服上述挑战,本文提出了一种新模型UI-TARS,它有以下几个核心创新点 * 1)增强 GUI 视觉感知 - 使用大规模 GUI 截图数据集,结合元数据(如 UI 组件类型、边界框、文本内容)。 - 任务包括: - 元素描述(提供结构化的 UI 组件信息)。 - 密集标注(dense captioning)(整体 UI 解析,包括层次结构、交互关系)。 - 状态变化检测(识别 UI 界面的细微变化)。 - 问答任务(提升对 GUI 视觉推理能力)。 - 视觉标记(set-of-mark prompting)(将 UI 组件与特定功能关联)。 * 2)统一动作建模 - 设计标准化的跨平台动作表示,确保不同平台上的相同操作(如“点击按钮”)具有一致性。 - 训练大规模 GUI 操作轨迹数据,改进多步任务的执行能力。 - 精准 UI 元素定位:数据集包含 UI 组件及其空间坐标,提高交互精度。 * 3)系统-2 推理(深度推理能力) - 收集6600万条 GUI 教程,用于训练模型进行任务推理。 - 结合多种推理模式: - 任务分解(Task Decomposition)。 - 里程碑识别(Milestone Recognition)。 - 试错(Trial & Error)。 - 反思(Reflection)。 - 显式思考过程:UI-TARS 在每次操作前生成“思维轨迹”(类似人类思考后再执行)。 * 4)自适应学习(Iterative Refinement) - 动态数据采集: - 通过虚拟机探索 GUI 任务,生成自动标注的数据。 - 结合规则过滤、VLM 评分、人类审核,确保数据质量。 - 错误纠正机制: - 训练模型自我反思,纠正错误: - 错误修正(标注错误并提供正确操作)。 - 任务恢复(模拟任务失败后如何重新调整)。 总结 ---- * 本文介绍了 GUI 代理的发展趋势,并提出了新一代原生 GUI 代理 UI-TARS,它具备: - 纯视觉感知(不依赖 HTML)。 - 端到端任务执行(整合感知、推理、记忆、行动)。 - 自适应学习(动态数据采集+错误修正)。 * 实验表明,它在多个 GUI 任务中超越现有基准,为未来智能交互系统提供了更强的能力。