2501.12326_UI-TARS: Pioneering Automated GUI Interaction with Native Agents

Abstract

  • UI-TARS 是一种 端到端的 GUI 代理模型,仅通过 屏幕截图 作为输入,模拟人类的交互方式(键盘、鼠标操作等)。

  • 它的最大特点是 完全不依赖外部大模型(如 GPT-4o),也不需要复杂的提示词 (prompt) 和预设工作流,而是直接通过自身的模型能力执行任务。

  • 实验表明,UI-TARS 在 10+ 个 GUI 代理基准测试中 达到了 SOTA(State of the Art,最优性能)。

  • UI-TARS 的核心创新
    • 增强感知能力(Enhanced Perception):训练于 大规模 GUI 截图数据集,能更精准地理解 UI 组件,并进行精确的 UI 元素标注。

    • 统一的交互建模(Unified Action Modeling):将不同平台(如 Windows、Android)的交互方式 标准化,通过 大规模交互数据 学习精确的 UI 组件定位和交互方式。

    • 系统 2 级推理(System-2 Reasoning):采用更 高级的推理能力 来执行多步决策,包括:
      • 任务分解(Task Decomposition)

      • 反思性思考(Reflection Thinking)

      • 里程碑识别(Milestone Recognition)

    • 基于反思的在线迭代训练(Iterative Training with Reflective Online Traces):通过 数百台虚拟机 自动收集新的交互数据,进行数据筛选和优化,反思过去的错误,持续学习和自我优化,减少人为干预

基准测试:

# GUI 自动化 & 计算机视觉
GUI-Odyssey
OSWorld (Screenshot 15 steps)
ScreenSpot-Pro
ScreenSpot-v2
ScreenQA-Short

# Web 自动化 & AI 浏览器交互
MM2Web-Website
MM2Web-Task
MM2Web-Domain
VisualWebBench

# Android 设备控制
AndroidControl-Low
AndroidControl-High

1. Introduction

本章主要讨论自主智能体(Autonomous Agents),特别是它们在图形用户界面(GUI)中的应用和发展。

背景: GUI 代理(GUI Agents)的重要性

  • 自主智能体可以感知环境、做决策、执行动作,以完成特定任务。而在 GUI 交互方面,它们面临重大挑战,因为 GUI 主要依赖按钮、文本框、图像等视觉元素,而不是纯文本或结构化数据(如 HTML 代码)。

传统 GUI 代理方法的局限性

  • 混合方法
    • 过去的 GUI 代理主要采用基于文本的混合方法,即:
      • 读取 HTML 结构、可访问性树(Accessibility Tree)。

      • 结合视觉模型来分析 UI。

    • 问题
      • 平台兼容性差:不同平台的 HTML 结构、可访问性数据不同,导致泛化能力弱。

      • 系统权限要求高:许多方法需要访问底层系统信息,受限较多。

      • 不够灵活:需要大量人工设计(handcrafted rules),不适应变化。

  • 模块化架构
    • 许多 GUI 代理使用模块化架构,把不同的功能拆分为:
      • 视觉语言模型(VLM,例如 GPT-4o):用于理解 UI 组件。

      • 任务规划模块:负责逻辑推理和操作执行。

      • 记忆模块:存储过去的交互信息。

    • 问题
      • 依赖专家规则:需要大量人为设计,难以适应新任务。

      • 不够端到端(End-to-End):各模块之间的衔接可能导致误差累积,影响整体性能。

原生 GUI 代理(Native GUI Agent)

  • 为了克服上述问题,研究者正在推动两个核心转变:

  • 从文本+视觉方法 → 纯视觉方法
    • 过去的 GUI 代理需要解析 HTML,但新方法完全依赖屏幕截图作为输入,类似人类视觉感知 GUI。

    • 好处:
      • 不受平台限制(适用于不同操作系统)。

      • 降低系统访问权限要求(无需 HTML 解析)。

      • 更符合人类的认知方式。

  • 从模块化框架 → 端到端模型
    • 模块化方法:各个子模块独立训练,不利于全局优化。

    • 端到端方法:所有组件(感知、推理、记忆、行动)整合到同一架构中,使模型能基于数据直接学习,而非依赖人工规则。

当前端到端 GUI 代理面临的挑战

  • 尽管端到端方法概念上更先进,但仍然存在两个核心难点:

  • GUI 本身的复杂性
    • 信息密度高:现代 GUI 界面包含大量信息,代理必须准确识别 UI 组件及其功能。

    • 需要复杂的推理能力:
      • 规划多步交互(比如填表、提交表单)。

      • 记忆过去的操作,避免重复错误。

      • 处理低级执行(比如精确点击屏幕坐标、输入文本)。

  • 数据瓶颈
    • 端到端模型需要大规模高质量数据:

    • 过去的模块化方法使用不同的数据集分别训练子模块,但端到端方法需要完整的操作轨迹数据(action traces),包括 UI 变化、点击位置、决策逻辑等。

    • 历史上缺乏此类数据,导致端到端方法难以泛化到复杂任务。

UI-TARS: 新一代原生 GUI 代理

  • 为了克服上述挑战,本文提出了一种新模型UI-TARS,它有以下几个核心创新点

  • 1)增强 GUI 视觉感知
    • 使用大规模 GUI 截图数据集,结合元数据(如 UI 组件类型、边界框、文本内容)。

    • 任务包括:
      • 元素描述(提供结构化的 UI 组件信息)。

      • 密集标注(dense captioning)(整体 UI 解析,包括层次结构、交互关系)。

      • 状态变化检测(识别 UI 界面的细微变化)。

      • 问答任务(提升对 GUI 视觉推理能力)。

      • 视觉标记(set-of-mark prompting)(将 UI 组件与特定功能关联)。

  • 2)统一动作建模
    • 设计标准化的跨平台动作表示,确保不同平台上的相同操作(如“点击按钮”)具有一致性。

    • 训练大规模 GUI 操作轨迹数据,改进多步任务的执行能力。

    • 精准 UI 元素定位:数据集包含 UI 组件及其空间坐标,提高交互精度。

  • 3)系统-2 推理(深度推理能力)
    • 收集6600万条 GUI 教程,用于训练模型进行任务推理。

    • 结合多种推理模式:
      • 任务分解(Task Decomposition)。

      • 里程碑识别(Milestone Recognition)。

      • 试错(Trial & Error)。

      • 反思(Reflection)。

    • 显式思考过程:UI-TARS 在每次操作前生成“思维轨迹”(类似人类思考后再执行)。

  • 4)自适应学习(Iterative Refinement)
    • 动态数据采集:
      • 通过虚拟机探索 GUI 任务,生成自动标注的数据。

      • 结合规则过滤、VLM 评分、人类审核,确保数据质量。

    • 错误纠正机制:
      • 训练模型自我反思,纠正错误:

      • 错误修正(标注错误并提供正确操作)。

      • 任务恢复(模拟任务失败后如何重新调整)。

总结

  • 本文介绍了 GUI 代理的发展趋势,并提出了新一代原生 GUI 代理 UI-TARS,它具备:
    • 纯视觉感知(不依赖 HTML)。

    • 端到端任务执行(整合感知、推理、记忆、行动)。

    • 自适应学习(动态数据采集+错误修正)。

  • 实验表明,它在多个 GUI 任务中超越现有基准,为未来智能交互系统提供了更强的能力。