2501.12326_UI-TARS: Pioneering Automated GUI Interaction with Native Agents¶
GoogleScholar(star: 9)
组织: 字节,清华
Abstract¶
UI-TARS 是一种 端到端的 GUI 代理模型,仅通过 屏幕截图 作为输入,模拟人类的交互方式(键盘、鼠标操作等)。
它的最大特点是 完全不依赖外部大模型(如 GPT-4o),也不需要复杂的提示词 (prompt) 和预设工作流,而是直接通过自身的模型能力执行任务。
实验表明,UI-TARS 在 10+ 个 GUI 代理基准测试中 达到了 SOTA(State of the Art,最优性能)。
- UI-TARS 的核心创新
增强感知能力(Enhanced Perception):训练于 大规模 GUI 截图数据集,能更精准地理解 UI 组件,并进行精确的 UI 元素标注。
统一的交互建模(Unified Action Modeling):将不同平台(如 Windows、Android)的交互方式 标准化,通过 大规模交互数据 学习精确的 UI 组件定位和交互方式。
- 系统 2 级推理(System-2 Reasoning):采用更 高级的推理能力 来执行多步决策,包括:
任务分解(Task Decomposition)
反思性思考(Reflection Thinking)
里程碑识别(Milestone Recognition)
基于反思的在线迭代训练(Iterative Training with Reflective Online Traces):通过 数百台虚拟机 自动收集新的交互数据,进行数据筛选和优化,反思过去的错误,持续学习和自我优化,减少人为干预
基准测试:
# GUI 自动化 & 计算机视觉
GUI-Odyssey
OSWorld (Screenshot 15 steps)
ScreenSpot-Pro
ScreenSpot-v2
ScreenQA-Short
# Web 自动化 & AI 浏览器交互
MM2Web-Website
MM2Web-Task
MM2Web-Domain
VisualWebBench
# Android 设备控制
AndroidControl-Low
AndroidControl-High
1. Introduction¶
本章主要讨论自主智能体(Autonomous Agents),特别是它们在图形用户界面(GUI)中的应用和发展。
背景: GUI 代理(GUI Agents)的重要性¶
自主智能体可以感知环境、做决策、执行动作,以完成特定任务。而在 GUI 交互方面,它们面临重大挑战,因为 GUI 主要依赖按钮、文本框、图像等视觉元素,而不是纯文本或结构化数据(如 HTML 代码)。
传统 GUI 代理方法的局限性¶
- 混合方法
- 过去的 GUI 代理主要采用基于文本的混合方法,即:
读取 HTML 结构、可访问性树(Accessibility Tree)。
结合视觉模型来分析 UI。
- 问题
平台兼容性差:不同平台的 HTML 结构、可访问性数据不同,导致泛化能力弱。
系统权限要求高:许多方法需要访问底层系统信息,受限较多。
不够灵活:需要大量人工设计(handcrafted rules),不适应变化。
- 模块化架构
- 许多 GUI 代理使用模块化架构,把不同的功能拆分为:
视觉语言模型(VLM,例如 GPT-4o):用于理解 UI 组件。
任务规划模块:负责逻辑推理和操作执行。
记忆模块:存储过去的交互信息。
- 问题
依赖专家规则:需要大量人为设计,难以适应新任务。
不够端到端(End-to-End):各模块之间的衔接可能导致误差累积,影响整体性能。
原生 GUI 代理(Native GUI Agent)¶
为了克服上述问题,研究者正在推动两个核心转变:
- 从文本+视觉方法 → 纯视觉方法
过去的 GUI 代理需要解析 HTML,但新方法完全依赖屏幕截图作为输入,类似人类视觉感知 GUI。
- 好处:
不受平台限制(适用于不同操作系统)。
降低系统访问权限要求(无需 HTML 解析)。
更符合人类的认知方式。
- 从模块化框架 → 端到端模型
模块化方法:各个子模块独立训练,不利于全局优化。
端到端方法:所有组件(感知、推理、记忆、行动)整合到同一架构中,使模型能基于数据直接学习,而非依赖人工规则。
当前端到端 GUI 代理面临的挑战¶
尽管端到端方法概念上更先进,但仍然存在两个核心难点:
- GUI 本身的复杂性
信息密度高:现代 GUI 界面包含大量信息,代理必须准确识别 UI 组件及其功能。
- 需要复杂的推理能力:
规划多步交互(比如填表、提交表单)。
记忆过去的操作,避免重复错误。
处理低级执行(比如精确点击屏幕坐标、输入文本)。
- 数据瓶颈
端到端模型需要大规模高质量数据:
过去的模块化方法使用不同的数据集分别训练子模块,但端到端方法需要完整的操作轨迹数据(action traces),包括 UI 变化、点击位置、决策逻辑等。
历史上缺乏此类数据,导致端到端方法难以泛化到复杂任务。
UI-TARS: 新一代原生 GUI 代理¶
为了克服上述挑战,本文提出了一种新模型UI-TARS,它有以下几个核心创新点
- 1)增强 GUI 视觉感知
使用大规模 GUI 截图数据集,结合元数据(如 UI 组件类型、边界框、文本内容)。
- 任务包括:
元素描述(提供结构化的 UI 组件信息)。
密集标注(dense captioning)(整体 UI 解析,包括层次结构、交互关系)。
状态变化检测(识别 UI 界面的细微变化)。
问答任务(提升对 GUI 视觉推理能力)。
视觉标记(set-of-mark prompting)(将 UI 组件与特定功能关联)。
- 2)统一动作建模
设计标准化的跨平台动作表示,确保不同平台上的相同操作(如“点击按钮”)具有一致性。
训练大规模 GUI 操作轨迹数据,改进多步任务的执行能力。
精准 UI 元素定位:数据集包含 UI 组件及其空间坐标,提高交互精度。
- 3)系统-2 推理(深度推理能力)
收集6600万条 GUI 教程,用于训练模型进行任务推理。
- 结合多种推理模式:
任务分解(Task Decomposition)。
里程碑识别(Milestone Recognition)。
试错(Trial & Error)。
反思(Reflection)。
显式思考过程:UI-TARS 在每次操作前生成“思维轨迹”(类似人类思考后再执行)。
- 4)自适应学习(Iterative Refinement)
- 动态数据采集:
通过虚拟机探索 GUI 任务,生成自动标注的数据。
结合规则过滤、VLM 评分、人类审核,确保数据质量。
- 错误纠正机制:
训练模型自我反思,纠正错误:
错误修正(标注错误并提供正确操作)。
任务恢复(模拟任务失败后如何重新调整)。
总结¶
- 本文介绍了 GUI 代理的发展趋势,并提出了新一代原生 GUI 代理 UI-TARS,它具备:
纯视觉感知(不依赖 HTML)。
端到端任务执行(整合感知、推理、记忆、行动)。
自适应学习(动态数据采集+错误修正)。
实验表明,它在多个 GUI 任务中超越现有基准,为未来智能交互系统提供了更强的能力。