2411.00820_AutoGLM: Autonomous Foundation Agents for GUIs

总结

AutoGLM

  • 专注于两类基础GUI场景:

    • 网页浏览器

    • Android系统

  • 中间接口设计(Intermediate Interface Design)

    • 核心观点:代理系统应设计一个中间接口,将规划(planning)与执行(grounding)行为解耦。

    • 原因:

      • 规划需要灵活性与错误恢复能力;

      • 执行则强调动作的准确性;

数据集

  1. VAB-WebArena-Lite

    • 在 WebArena 基础上整理出来的一个子集(165 任务 vs. 原版 812 任务),带有人工验证和评测函数。

    • Web 交互代理基准

  2. OpenTable (Agent Q)

    • 在线人类评估

Abstract

本文介绍了AutoGLM,这是ChatGLM系列中的一个新成员,旨在作为通过图形用户界面(GUI)实现数字设备自主控制的基础智能体(foundation agent)。尽管基础模型在获取人类知识方面表现出色,但在动态真实的环境中进行决策时往往表现不佳,这限制了其向通用人工智能(AGI)发展的进程。

为解决这一问题,文中强调了开发能够通过自主与环境交互学习的智能体的重要性,并在此基础上重构已有模型。研究聚焦于网页浏览器手机这两种具有代表性的GUI场景,开发了适用于真实世界GUI交互的AutoGLM系统。

AutoGLM的实现整合了全面的技术与基础设施,构建了可部署的智能体系统,适合用户使用。研究过程中得出了两个关键结论:

  1. “中间接口”(intermediate interface)的设计至关重要,它能够将规划行为执行行为分离开来,分别进行优化——前者关注灵活性,后者关注准确性。

  2. 提出了一种新型渐进式训练框架,支持AutoGLM通过在线课程强化学习进行自进化训练。

实验评估表明,AutoGLM在多个领域表现出色:

  • 网页浏览任务中,在VAB-WebArena-Lite数据集上取得55.2%的成功率(二次尝试后提升至59.1%),在OpenTable任务中成功率达到96.2%

  • 安卓设备控制方面,在AndroidLab(VAB-Mobile)上成功率为36.2%,在主流中国应用中的常见任务中成功率达到89.7%

部分AutoGLM功能已通过清言浏览器插件(Qingyan Browser Plugin)提供网页应用支持,并通过表单应用(Form Applications)提供安卓测试邀请。

1 Introduction

1.1 基础模型的背景

基础模型(Foundation Models),包括大型语言模型(LLMs)和大型多模态模型(LMMs),因其在语言理解和生成上的卓越能力,受到了广泛关注。通过大规模自监督预训练,这些模型不仅掌握了语言知识,还表现出类人推理和规划能力,催生了LLM 作为智能代理(LLMs as Agents)的概念。

这些智能代理已在多个领域(如编程、数据分析、游戏)中展现出实用价值,为实现人工通用智能(AGI)提供了重要路径。特别是通过构建多模态基础代理(Multimodal Foundation Agents),这些模型能够胜任跨任务和多环境的通用能力。


1.2 图形用户界面(GUI)代理的潜力

随着数字设备的普及,开发具有GUI操作能力的智能代理成为新的研究热点。GUI环境具有以下优势:

  • 并行部署:可通过GUI模拟器进行数据标注和强化学习;

  • 输入丰富:提供丰富的文本和视觉输入;

  • 安全性强:相比真实物理环境,GUI环境更可控;

  • 用户广泛:潜在用户基数大,具有实际应用价值。

这些智能代理的开发有望彻底改变人机交互方式,成为日常生活中不可或缺的智能助手。


1.3 当前面临的挑战

尽管前景广阔,GUI基础代理的发展仍面临关键挑战:

  • 决策数据稀缺:现有的预训练数据主要来自静态互联网内容,缺乏动态的人机交互与环境反馈;

  • 动态知识构建:需要通过实际交互或模拟轨迹来补充模型的动态知识;

  • 环境自适应:智能代理在数字环境中需具备自我进化能力,以逐步提升性能。

此外,开发过程中需考虑用户部署的渐进性:智能代理应作为人类能力的增强工具,而非替代。通过用户部署,既能训练模型更好地服务人类,也可帮助人类适应智能助手,并系统评估其潜在风险与收益。


1.4 AutoGLM 的提出

为应对上述挑战,作者提出了 AutoGLM,这是基于 ChatGLM 模型家族开发的一系列基础代理。AutoGLM专注于两类基础GUI场景:网页浏览器Android系统

为解决数据稀缺问题,作者采用了一系列训练方法,并构建了用户部署的基础设施,得出了两个关键洞见:


1.4.1 中间接口设计(Intermediate Interface Design)

  • 核心观点:代理系统应设计一个中间接口,将规划(planning)与执行(grounding)行为解耦。

  • 原因

    • 规划需要灵活性与错误恢复能力

    • 执行则强调动作的准确性

  • 优势:分离后可提升开发效率与系统性能。


1.4.2 自适应在线课程强化学习(Self-Evolving Online Curriculum RL)

  • 核心观点:通过在线方式进行渐进式弱到强的课程学习(weak-to-strong curriculum)来提升智能代理的鲁棒性与部署能力。

  • 背景

    • 仅靠离线训练难以获得良好的错误恢复能力;

    • 指令与轨迹数据不足限制训练进度;

  • 方法:通过自演化强化学习(RL)逐步提升模型处理复杂任务的能力。


1.5 实验与成果

AutoGLM在多个基准测试与真实任务中表现卓越:

Web 浏览器场景:

  • VAB-WebArena-Lite基准上,AutoGLM的任务成功率(SR)为55.2%,远高于GPT-4o的18.2%;

  • 给予第二次尝试机会后,SR提升至59.1%

  • OpenTable 预订任务中,AutoGLM取得了**96.2%**的成功率,远超GPT-4o(62.6%)和Agent Q(81.7%);

  • 已通过 Qingyan Browser Plugin 向公众开放部分Web功能;

Android 控制场景:

  • AndroidLab(原VAB-Mobile)基准上,AutoGLM的任务成功率为36.2%,优于GPT-4o(31.2%)和 Claude-3.5-Sonnet(29.0%);

  • 在常见中文App任务中,AutoGLM达到了**89.7%**的用户任务成功率;

  • Android客户端已通过内测表单开放邀请测试。


总结:

本节介绍了AutoGLM的背景动机、技术挑战与解决方案,并通过丰富的实验与实际部署案例展示了其在GUI环境下的强大能力。AutoGLM代表了基础智能代理Web和Android场景中的重要突破,并为构建可扩展、可部署的通用智能系统提供了新思路。

2 AutoGLM: Techniques and Insights

本节概述了AutoGLM在开发过程中所采用的关键技术和两个重要的设计洞察。这两个洞察帮助AutoGLM在与现有大语言模型(LLM)或大语言视觉模型(LMM)为基础的GUI代理相比时取得了显著的性能提升。


2.1 重要技术

训练智能体(Agent)与训练普通的LLM或LMM不同,主要障碍在于缺乏高质量的轨迹数据来体现决策过程。以下是我们在项目中实现的一些关键技术:

预训练(Pre-training)

  • 互联网上的文本语料库中很少包含与智能体相关的数据,导致LLM难以有效充当智能体。

  • 现有的LMM预训练主要是“视觉指令调优”,其对文本与图像的对齐建模不够,未能充分从连续的多模态数据中学习。

  • 因此,利用弱监督的决策信号(如在线数据)进行预训练是有益的。

  • 对于多模态感知,根据CogAgent和我们的观察,高分辨率视觉输入非常重要,尤其是在使用像Set-of-Marks(SoM)提示等定位策略时。

大语言视觉模型(LMMs)

  • LMMs在GUI理解和操作中起着重要作用。

  • 传统的RPA方法依赖OCR来匹配人类手工编写的自动化程序中的关键元素,难以扩展和泛化。

  • LMMs则可以通过模糊匹配和长时间规划来更好地适应GUI环境,前提是经过充分训练以具备强大的推理能力。

行为克隆(Behavior Cloning, BC)

  • 行为克隆是利用高质量专家轨迹从零开始训练智能体的关键策略。

  • 该方法已被证明对LLM和LMM智能体训练有效。

  • 然而,专家轨迹的收集成本极高,且BC方法仅模仿专家的行为,缺乏对目标的深刻理解。

  • 当轨迹为“理想轨迹”时,智能体恢复错误的能力会较差。

课程学习(Curriculum Learning)

  • 智能体任务的难度差异很大,因此采用课程学习逐步增加难度是合理的。

  • AutoWebGLM采用多阶段课程,依次训练单步任务、简单多步任务和长时序任务。

  • DigiRL也提出了基于智能体能力变化的动态任务筛选策略。

  • 我们发现课程学习对于构建具备复杂目标实现能力的智能体非常有效。

奖励建模(Reward Modeling, RM)

  • 为了使基础模型支持在线强化学习(RL),需要构建合适的奖励模型(RM)。

  • 传统RL依赖有限任务和精确的规则奖励函数,但基础模型的目标是实现开放世界的通用任务,因此需要构建可泛化的RM。

  • RM可分为结果监督的ORM和过程监督的PRM,提供不同粒度的监督。

强化学习(Reinforcement Learning, RL)

  • 与行为克隆相比,RL更能从失败中学习,这对基础智能体训练尤为重要。

  • 但RL在基础模型训练中面临环境采样效率低的挑战,具体表现在:

    1. 环境模拟器限制:模拟器受限于网络速度和并行度,如Android虚拟设备消耗大量内存。

    2. 样本多样性不足:LLMs和LMMs输出的格式化动作容易导致采样结果单调。

  • 尽管如此,我们认为扩展RL和后训练对构建强基础智能体至关重要,正如OpenAI o1的成功所示。


2.2 洞察1:中间接口设计(Intermediate Interface Design)

在开发过程中,我们发现中间接口设计对于解耦基础智能体中的规划(planning)和定位(grounding)行为非常关键。通过将二者拆分为不同的模块,可以分别优化灵活性和准确性,避免相互干扰。

设计动机

  • 当前LLMs和LMMs在执行智能体任务时,规划能力较强,但定位(如元素识别)错误率较高。

  • 大多数错误发生在定位阶段,如元素描述不准确。

示例对比

  • 端到端智能体:直接输出坐标,如 do(action="Click", element_coordinates=[823,684])

  • 中间接口设计:拆分为两个模块:

    • Planner:生成描述性指令,如 do(action="Click", element_description="the ‘Submit’ button on the bottom right")

    • Grounder:根据描述定位坐标。

实验结果

  • 在VAB-WebArena-Lite上,采用中间接口设计的智能体性能显著提升(如表1所示)。

Observation Type

gpt-4o (text)

gpt-4o (visual)

gpt-4-vision-preview (visual)

End-to-End Agent

14.3%

18.2%

18.8%

Intermediate Interface Design

18.1% (+3.8%)

27.3% (+9.1%)

36.4% (+17.6%)

  • 我们发现,通过训练专门的定位模块(Grounder),能够显著提升基于LLM/LMM接口的Planner的性能。

  • 该设计与另一项并发工作([12])的思路类似,均探索通用的GUI定位模型。


2.3 洞察2:自进化在线课程强化学习(Self-Evolving Online Curriculum RL)

虽然中间接口设计缓解了定位不准的问题,但规划(planning)仍是主要瓶颈。许多现有智能体基于专有LLM/LMM接口,其规划能力难以通过训练提升。

训练挑战

  • 任务数据稀缺:缺乏用户任务或专家轨迹。

  • 策略分布漂移(Policy Distribution Drift):课程学习中策略在逐步增加难度时可能出现分布偏移。

解决方案:WebRL

  • 我们开发了一个自进化在线课程强化学习框架 WebRL,用于从零开始训练基础智能体。

  • 以WebArena环境为例,采用Actor-Critic RL框架进行训练。

  • 任务数据稀缺问题:利用VisualAgentBench提供的BC数据训练GLM-4-9B至22.4% SR后,任务数据耗尽。我们通过在线推演中失败任务的自进化(变异为更复杂或更简单的任务)来扩充任务集。

  • 策略分布漂移问题:我们引入KL约束策略更新基于Actor置信度的经验回放,以防止策略在训练过程中发生不稳定漂移。


总结

本节详细介绍了AutoGLM在构建GUI基础智能体过程中使用的关键技术和两个核心设计洞察:

  1. 预训练、LMM、行为克隆、课程学习、奖励建模和强化学习 是构建智能体的重要技术手段,它们在不同层面上解决了数据稀缺、规划能力不足、环境效率低等关键问题。

  2. 中间接口设计 通过将规划与定位解耦,提升了智能体的灵活性和准确性。

  3. 自进化课程强化学习框架(WebRL) 有效解决了任务数据稀缺和策略分布漂移问题,使智能体具备更强的自适应规划能力。

这些技术与设计共同推动了AutoGLM在复杂GUI任务中的显著性能提升。

3 Results

3.1 在 Web 上的评估

作者采用了三个交互式基准进行评估:VAB, WebArena-LiteOpenTable

VAB, WebArena-Lite 是 WebArena 的一个精简版(原 812 任务,精简为 165 任务),并经过人工验证答案和判断函数,旨在加快评估速度并确保判断准确性。AutoGLM 在这一基准上的表现优于许多现有模型(如 gpt-4o、Agent Q 等),显示其在 Web 任务上的竞争力。

OpenTable 评估基于真实网站 OpenTable(提供在线订位服务),作者根据已有论文中的示例重建了 200 个测试样本,并在真实网站上进行了人工评估。结果显示,AutoGLM 在此任务上的表现优于 gpt-4o 和 Agent Q,说明其在真实场景中具备良好的实用性。


3.2 在 Android 上的评估

作者在 AndroidLab(也称为 VAB-Mobile)和常见中文移动应用中评估了 AutoGLM 在 Android 平台上的能力。

Table 2: Examples of test queries for evaluating AUTOGLM on Chinese APPs.

应用

测试任务示例

微信

在朋友圈给 Alice 的最新动态点赞

美团

在最近的咖啡店下单半糖冷萃椰子拿铁

淘宝

查看我订购衬衫的物流状态

大众点评

查找北京推荐餐厅中最靠近我的地点

高德地图

立即预约打车前往三里屯太古里

小红书

收藏并总结关于阿那亚最受欢迎的旅行指南帖子

12306

预订周六从珠海到广州的公交车票

作者将任务执行结果分为三类:

  • 成功:任务完全完成,满足用户的所有要求;

  • 部分完成:任务在正确的方向上进行,但未完成全部步骤;

  • 失败:任务过早终止、卡住或方向错误。

虽然目前 AutoGLM 还不能在所有任务中完美完成,但其在许多任务上能够达到“部分完成”的状态,这在实际场景中仍有重要价值,能够帮助用户加快 GUI 操作流程。

4 Conclusion

本文介绍了 AutoGLM,它基于 ChatGLM 模型家族构建,是一系列在网页浏览和安卓环境中具有强大 GUI 操作能力的基础智能体。AutoGLM 的关键贡献在于:设计了一个中间接口,有效分离了规划行为与接地行为,以及开发了一种自进化在线课程强化学习方法,提升了容错能力和性能改进

实验结果显示,AutoGLM 在多个基准测试中表现出色,在 VAB-WebArena-Lite 上的成功率为 55.2%,在 AndroidLab 上为 36.2%。同时,AutoGLM 已成功部署在浏览器插件和安卓应用中,验证了其在实际应用中的潜力,为构建实用的 GUI 交互基础智能体迈出了重要的一步。