2501.12326_UI-TARS: Pioneering Automated GUI Interaction with Native Agents
###########################################################################

* https://arxiv.org/abs/2501.12326
* GoogleScholar(star: 9)
* 组织: 字节，清华
* GitHub: https://github.com/bytedance/UI-TARS 


Abstract
========

* UI-TARS 是一种 端到端的 GUI 代理模型，仅通过 屏幕截图 作为输入，模拟人类的交互方式（键盘、鼠标操作等）。
* 它的最大特点是 完全不依赖外部大模型（如 GPT-4o），也不需要复杂的提示词 (prompt) 和预设工作流，而是直接通过自身的模型能力执行任务。
* 实验表明，UI-TARS 在 10+ 个 GUI 代理基准测试中 达到了 SOTA（State of the Art，最优性能）。
* UI-TARS 的核心创新
    - 增强感知能力(Enhanced Perception)：训练于 大规模 GUI 截图数据集，能更精准地理解 UI 组件，并进行精确的 UI 元素标注。
    - 统一的交互建模(Unified Action Modeling)：将不同平台（如 Windows、Android）的交互方式 标准化，通过 大规模交互数据 学习精确的 UI 组件定位和交互方式。
    - 系统 2 级推理（System-2 Reasoning）：采用更 高级的推理能力 来执行多步决策，包括：
        + 任务分解（Task Decomposition）
        + 反思性思考（Reflection Thinking）
        + 里程碑识别（Milestone Recognition）
    - 基于反思的在线迭代训练(Iterative Training with Reflective Online Traces)：通过 数百台虚拟机 自动收集新的交互数据，进行数据筛选和优化，反思过去的错误，持续学习和自我优化，减少人为干预


基准测试::

    # GUI 自动化 & 计算机视觉
    GUI-Odyssey
    OSWorld (Screenshot 15 steps)
    ScreenSpot-Pro
    ScreenSpot-v2
    ScreenQA-Short

    # Web 自动化 & AI 浏览器交互
    MM2Web-Website
    MM2Web-Task
    MM2Web-Domain
    VisualWebBench

    # Android 设备控制
    AndroidControl-Low
    AndroidControl-High


1. Introduction
===============

本章主要讨论自主智能体（Autonomous Agents），特别是它们在图形用户界面（GUI）中的应用和发展。

背景: GUI 代理(GUI Agents)的重要性
----------------------------------

* 自主智能体可以感知环境、做决策、执行动作，以完成特定任务。而在 GUI 交互方面，它们面临重大挑战，因为 GUI 主要依赖按钮、文本框、图像等视觉元素，而不是纯文本或结构化数据（如 HTML 代码）。

传统 GUI 代理方法的局限性
-------------------------

* 混合方法
    - 过去的 GUI 代理主要采用基于文本的混合方法，即：
        - 读取 HTML 结构、可访问性树（Accessibility Tree）。
        - 结合视觉模型来分析 UI。
    - 问题
        - 平台兼容性差：不同平台的 HTML 结构、可访问性数据不同，导致泛化能力弱。
        - 系统权限要求高：许多方法需要访问底层系统信息，受限较多。
        - 不够灵活：需要大量人工设计（handcrafted rules），不适应变化。

* 模块化架构
    - 许多 GUI 代理使用模块化架构，把不同的功能拆分为：
        - 视觉语言模型（VLM，例如 GPT-4o）：用于理解 UI 组件。
        - 任务规划模块：负责逻辑推理和操作执行。
        - 记忆模块：存储过去的交互信息。
    - 问题
        - 依赖专家规则：需要大量人为设计，难以适应新任务。
        - 不够端到端（End-to-End）：各模块之间的衔接可能导致误差累积，影响整体性能。

原生 GUI 代理(Native GUI Agent)
-------------------------------

* 为了克服上述问题，研究者正在推动两个核心转变：
* 从文本+视觉方法 → 纯视觉方法
    - 过去的 GUI 代理需要解析 HTML，但新方法完全依赖屏幕截图作为输入，类似人类视觉感知 GUI。
    - 好处：
        - 不受平台限制（适用于不同操作系统）。
        - 降低系统访问权限要求（无需 HTML 解析）。
        - 更符合人类的认知方式。

* 从模块化框架 → 端到端模型
    - 模块化方法：各个子模块独立训练，不利于全局优化。
    - 端到端方法：所有组件（感知、推理、记忆、行动）整合到同一架构中，使模型能基于数据直接学习，而非依赖人工规则。

当前端到端 GUI 代理面临的挑战
-----------------------------

* 尽管端到端方法概念上更先进，但仍然存在两个核心难点：
* GUI 本身的复杂性
    - 信息密度高：现代 GUI 界面包含大量信息，代理必须准确识别 UI 组件及其功能。
    - 需要复杂的推理能力：
        - 规划多步交互（比如填表、提交表单）。
        - 记忆过去的操作，避免重复错误。
        - 处理低级执行（比如精确点击屏幕坐标、输入文本）。

* 数据瓶颈
    - 端到端模型需要大规模高质量数据：
    - 过去的模块化方法使用不同的数据集分别训练子模块，但端到端方法需要完整的操作轨迹数据（action traces），包括 UI 变化、点击位置、决策逻辑等。
    - 历史上缺乏此类数据，导致端到端方法难以泛化到复杂任务。


UI-TARS: 新一代原生 GUI 代理
----------------------------

* 为了克服上述挑战，本文提出了一种新模型UI-TARS，它有以下几个核心创新点
* 1）增强 GUI 视觉感知
    - 使用大规模 GUI 截图数据集，结合元数据（如 UI 组件类型、边界框、文本内容）。
    - 任务包括：
        - 元素描述（提供结构化的 UI 组件信息）。
        - 密集标注（dense captioning）（整体 UI 解析，包括层次结构、交互关系）。
        - 状态变化检测（识别 UI 界面的细微变化）。
        - 问答任务（提升对 GUI 视觉推理能力）。
        - 视觉标记（set-of-mark prompting）（将 UI 组件与特定功能关联）。

* 2）统一动作建模
    - 设计标准化的跨平台动作表示，确保不同平台上的相同操作（如“点击按钮”）具有一致性。
    - 训练大规模 GUI 操作轨迹数据，改进多步任务的执行能力。
    - 精准 UI 元素定位：数据集包含 UI 组件及其空间坐标，提高交互精度。

* 3）系统-2 推理（深度推理能力）
    - 收集6600万条 GUI 教程，用于训练模型进行任务推理。
    - 结合多种推理模式：
        - 任务分解（Task Decomposition）。
        - 里程碑识别（Milestone Recognition）。
        - 试错（Trial & Error）。
        - 反思（Reflection）。
    - 显式思考过程：UI-TARS 在每次操作前生成“思维轨迹”（类似人类思考后再执行）。

* 4）自适应学习（Iterative Refinement）
    - 动态数据采集：
        - 通过虚拟机探索 GUI 任务，生成自动标注的数据。
        - 结合规则过滤、VLM 评分、人类审核，确保数据质量。
    - 错误纠正机制：
        - 训练模型自我反思，纠正错误：
        - 错误修正（标注错误并提供正确操作）。
        - 任务恢复（模拟任务失败后如何重新调整）。


总结
----

* 本文介绍了 GUI 代理的发展趋势，并提出了新一代原生 GUI 代理 UI-TARS，它具备：
    - 纯视觉感知（不依赖 HTML）。
    - 端到端任务执行（整合感知、推理、记忆、行动）。
    - 自适应学习（动态数据采集+错误修正）。
* 实验表明，它在多个 GUI 任务中超越现有基准，为未来智能交互系统提供了更强的能力。