# 2504.14603_UFO2: The Desktop AgentOS

* [https://arxiv.org/abs/2504.14603](https://arxiv.org/abs/2504.14603)
* 官网: [https://microsoft.github.io/UFO/](https://microsoft.github.io/UFO/)
* GitHub: [https://github.com/microsoft/UFO](https://github.com/microsoft/UFO)
* 组织: Microsoft
* 引用: 9(2025-06-27)
* Keywords: Computer Using Agent, Desktop Automation, Windows System

## Abstract

* 目前的“计算机操作智能体（CUAs）”可以用自然语言自动执行电脑上的复杂操作，但大多仍停留在概念阶段，存在与操作系统整合不深、交互方式脆弱（比如靠截图）、操作容易中断等问题。
* 本文提出了 **UFO2**，一个在 Windows 上运行的多智能体系统（AgentOS），让这些智能体真正实用起来。
* 它包括：
    * 一个负责任务分解与协调的 **HostAgent**；
    * 多个针对不同应用的软件智能体 **AppAgents**，它们使用原生 API 和图形界面操作；
    * 结合视觉识别与 Windows UI 自动化，能识别多种界面风格；
    * 通过“多步预测”减少大模型的响应时间；
    * 使用“画中画”界面，允许用户和智能体同时操作，不互相干扰。
* 在超过 20 个真实 Windows 应用中测试显示，UFO2 在稳定性和执行准确性上远超以往方法，说明深度整合操作系统是实现可靠桌面自动化的关键路径。


![](https://img.zhaoweiguo.com/uPic/2025/06/ZgYKDx.png)

Figure 1.A comparison of (a) existing CUAs and (b) desktop AgentOS UFO2.


## 1.Introduction

### **传统RPA的局限：**

* 以前的桌面自动化（比如 UiPath、Power Automate）主要依赖固定脚本模拟鼠标键盘操作。
* 这种方式很脆弱，一旦界面变动就容易出错，维护成本高、扩展性差。


### **CUA的兴起与问题：**
* 新一代“计算机代理”（CUAs）借助大模型理解指令和界面，可以更灵活地执行操作。
* 但它们目前主要还是实验性质，缺乏对操作系统底层和应用程序内部的深度整合，执行效率和稳定性有限。


### **UFO2 的创新：**
* UFO2 是一种“AgentOS”，也就是深度嵌入Windows系统的自动化操作系统，具有以下特点：
    1. **多代理架构**：由一个主代理（HostAgent）协调多个针对不同应用的子代理（AppAgents）。
    2. **混合控制方式**：结合图像识别+Windows原生API，提高识别准确率和操作稳定性。
    3. **统一执行接口**：同时支持模拟GUI操作和直接调用API，灵活高效。
    4. **持续学习机制**：集成历史执行记录和文档作为知识库，不需要频繁训练也能变聪明。
    5. **提前预测动作序列**：减少大模型的推理开销。
    6. **不干扰用户的PiP界面**：在独立的虚拟桌面中执行任务，不影响用户正常使用电脑。
    7. **实测效果显著**：在20多个真实应用中表现优于现有方案10%以上。

### **总结：**
* UFO2 通过系统级深度集成和架构设计，把桌面自动化从“脚本堆砌”升级为“操作系统级智能控制”。


## 2.Background

### 传统桌面自动化的问题

* 过去几十年，桌面自动化依赖“录屏+回放”的方式，比如录鼠标、键盘操作，或者使用固定规则脚本。
* 这些方式很脆弱：只要界面按钮改一下位置或名字，自动化就会失效，还需要人工频繁维护。
* 这类方法不懂应用的实际逻辑，只能执行简单重复的任务，无法适应变化。

### 新趋势：用大模型驱动的“电脑代理人（CUA）”

* 近年来，大语言模型（LLMs）和多模态技术的发展让自动化进入了新阶段。
* 新的“电脑代理人（CUA）”可以看懂图形界面，理解自然语言指令，然后自主点击、输入操作，而不需要手工写脚本。
* 比如 Claude-3.5 和 OpenAI Operator 就可以跨多个应用自动完成复杂任务。
* 不过，这些新系统目前还多是研究原型，离真正实用还有距离。


### 当前 CUA 的三大问题

1. **没深度接入操作系统**：
    * 它们大多通过截图、模拟鼠标键盘控制界面，而不是用操作系统提供的正式接口（比如 accessibility API 或 shell 命令），所以效率低，稳定性差。
2. **不了解具体应用的内部逻辑**：
    * CUA 把每个应用都当黑盒，不会利用应用自己的 API 或文档，这让它们难以执行更复杂或抽象的任务。
3. **执行方式打扰用户且不安全**：
    * CUA 是直接操作真实桌面，期间用户无法操作电脑，也容易出现干扰甚至风险。

### 根本问题：操作系统缺乏“自动化”这个基础能力

* 现在的操作系统没有为自动化任务提供“系统级支持”。
* 不像文件、进程、网络有标准接口，GUI 界面完全是黑盒。
* 所以不论是旧的 RPA 还是新的 CUA 都只能“贴着表面做事”。


### 解决方案：UFO2 / AgentOS

* 这篇论文提出一个新的操作系统框架 **UFO2**，也叫 **AgentOS**，把自动化能力变成操作系统的“内建功能”。
* 它让代理人可以用标准方式读取界面结构、调用应用 API、协调任务，实现安全、高效、通用的自动化。


## 3.System Design of UFO2

![](https://img.zhaoweiguo.com/uPic/2025/06/n5y1rn.png)

Figure 2.An overview of the architecture of UFO2.


### 3.1. UFO2 as a System Substrate for Automation

* **UFO2 是一个运行在 Windows 桌面的自动化系统平台**，它可以让用户用自然语言发出请求，系统再自动操作多个图形界面应用程序完成任务。
* 它的核心结构分为两个部分：
    1. **HostAgent（主控代理）**：像“大脑”，负责理解用户意图，把请求拆分成子任务，并分发给对应的应用处理模块。
    2. **AppAgents（应用代理）**：每个代理对应一个应用（如 Excel、Outlook），负责操作和观察该应用，使用视觉识别和 API 控制应用执行子任务。
* 这些模块之间通过一种“黑板”机制共享信息，比如中间结果和执行状态。这种架构让多个应用之间协同工作变得容易，比如从 Excel 中提取数据并填入网页表单。
* 所有操作都在一个虚拟桌面中进行，保证各应用间隔离、运行安全。
* 最后，UFO2 的模块化设计也方便开发者增加新应用的支持，使系统易扩展、可维护。


### 3.2. HostAgent: System-Level Orchestration and Execution Control

![](https://img.zhaoweiguo.com/uPic/2025/06/PJ5YRb.png)

Figure 3.High-level architecture of HostAgent as a control-plane orchestrator.

#### 它主要做什么？

1. **理解任务并拆解**：把用户输入的自然语言任务转化为有依赖关系的子任务图。
2. **管理应用程序生命周期**：判断相关程序是否运行，如果没有则自动打开。
3. **启动子代理 AppAgent**：为每个应用程序生成对应的执行代理，赋予它任务上下文和工具。
4. **调度与控制**：用一个状态机管理整个任务执行过程，控制执行顺序、出错恢复等。
5. **共享信息**：通过一个“黑板”机制让多个 AppAgent 共享状态、互相通信。
6. **系统感知能力**：通过屏幕截图（视觉层）+ 系统 API（语义层）理解当前桌面环境。
7. **输出结构化信息**：包括子任务计划、命令行调用、分配的应用、代理指令、用户提示等。


#### 怎么控制执行流程？

* 它用一个\*\*有限状态机（FSM）\*\*来控制任务状态，包括：
    * **CONTINUE**：检查要执行的任务
    * **ASSIGN**：选择程序并生成代理
    * **PENDING**：等待用户进一步输入
    * **FINISH**：任务完成，清理状态
    * **FAIL**：出错处理或终止任务

![](https://img.zhaoweiguo.com/uPic/2025/06/FQyw5a.png)

Figure 4.Control-state transitions managed by HostAgent.


#### 怎么管理记忆？

* 分为两种：
    * **私有状态**：记录当前用户任务、执行进度等（给自己用）
    * **共享黑板**：记录所有代理都能看到的状态信息（大家共享）

#### 它的作用总结：

* HostAgent 统一管理和协调多个桌面应用程序间的协同工作，使复杂任务自动化变得可行、可靠、可扩展。


### 3.3. AppAgent: Application-Specialized Execution Runtime

![](https://img.zhaoweiguo.com/uPic/2025/06/Byhsiw.png)

Figure 5.Architecture of an AppAgent, the per-application execution runtime in UFO2.

#### 什么是 AppAgent？

AppAgent 是 UFO2 中专门为某一个 Windows 应用设计的“智能执行单元”，负责执行这个应用内的具体子任务。


#### AppAgent 的核心特点：

1. **每个 AppAgent 只负责一个特定应用**，不像通用 GUI 代理那样“一把梭”，而是“专精专用”。
2. 由一个上层调度器 HostAgent 启动和管理。
3. 使用 ReAct（感知-推理-执行）循环来完成任务。


#### 它是怎么工作的？

##### 感知层：

* AppAgent 获取应用的多种信息来理解当前状态，包括：
    * **截图**：获取应用界面布局。
    * **UI 元数据**：通过系统 API 拿到控件类型、状态等信息。
    * **符号注释**：在截图上标注控件，方便识别。
* 这些信息融合成一个结构化的“观察对象”。

#### 输出层：

* 基于感知结果，AppAgent 生成：
    * 要操作的控件
    * 操作类型（比如点击、输入、调用 API）
    * 操作参数
    * 推理过程的记录（思维链 CoT）
    * 当前状态（用于状态机）

#### 执行控制（状态机）：

* AppAgent 有一个本地状态机控制流程，包含几种状态：
    * **CONTINUE**：正常执行
    * **PENDING**：危险操作前需要用户确认
    * **FINISH**：任务完成
    * **FAIL**：出错（比如程序崩溃）
* 这个设计让任务失败不会影响整个系统。

![](https://img.zhaoweiguo.com/uPic/2025/06/xTyG1N.png)

Figure 6.Control-state transitions for an AppAgent runtime.


#### 记忆与共享状态：

* 每个 AppAgent 维护：
    * **私有记忆**：记录自己做了什么
    * **共享记忆**：向整个系统汇报信息，比如错误、输出等
* 这样既能独立运行，又能和系统配合。

#### 可扩展性：

* UFO2 提供 SDK，方便为新应用快速开发 AppAgent。开发者可以：
    * 注册 API
    * 定义参数和提示词
    * 加入帮助文档供查询
* 不需要重新训练模型，只更新插件即可。


### 总结：

* AppAgent 是 UFO2 的“分布式大脑”，每个专门控制一个应用，拥有强大的感知、推理、执行和记忆能力。
* 它比传统 GUI 代理更专业、更安全、更容易扩展。


### 3.4. Hybrid Control Detection

* 这段内容讲的是 **UFO2 系统中如何检测图形界面（GUI）中的控件**，以便智能体（AppAgent）能可靠地操作应用程序界面。

![](https://img.zhaoweiguo.com/uPic/2025/06/zmoJve.png)

Figure 7.The hybrid control detection approach employed in UFO2.


1. **背景问题**：
    * 有些应用的界面控件可以通过标准的 Windows 接口（UIA）获取信息，但很多旧应用或自定义界面不支持这种方式，只能靠“看图”识别控件。

2. **解决方案：混合检测机制**
    * UFO2 同时使用两种方法检测控件：
        * **UIA 检测层**：用标准 API 获取界面控件的信息（比如类型、标签、位置），构建控件图。
        * **视觉检测层**：对于无法通过 UIA 获取的控件，用图像识别模型（OmniParser-v2）来识别截图中的按钮等控件，补充信息。

3. **融合去重**：
      * 如果视觉检测到的控件和 UIA 检测的控件有 10% 以上重叠（IoU > 10%），就认为是重复，丢弃视觉结果。
      * 剩下的视觉控件被包装成“伪UIA控件”，和 UIA 的结果整合在一起。

4. **最终目的**：
    * 构建一个完整的控件图，不管控件是通过 API 还是视觉识别得到的，AppAgent 都能用统一方式访问和操作。

### 3.5. Unified GUI–API Action Orchestrator

![](https://img.zhaoweiguo.com/uPic/2025/06/0YSU5A.png)

Figure 8.Puppeteer serves as a unified execution engine that harmonizes GUI actions and native API calls.


* **核心思想：**
    * 让智能代理 AppAgent 执行任务时能在两种方式中选择——
        * GUI 操作（比如模拟点击按钮）
        * 原生 API 调用（比如直接调用 Excel 内部接口）

* **关键点：**
    * GUI 通用但脆弱；API 稳定但需要手动对接。
    * **Puppeteer** 作为统一调度器，根据实际情况决定用哪种方式执行操作。
    * 比如，在 Excel 中选择一段表格，如果用 GUI 要点很多次；但用 API 一步搞定，更快也更稳定。
    * 如果 API 出错，就自动回退用 GUI。
    * 开发者可以用 Python 装饰器暴露 API 给 Puppeteer 使用。


### 3.6. Continuous Knowledge Integration Substrate

![](https://img.zhaoweiguo.com/uPic/2025/06/2E2olv.png)

Figure 10.Overview of the knowledge substrate in UFO2, combining static documentation with dynamic execution history.


* **核心思想：**
    * 结合“文档 + 历史经验”，持续增强 Agent 对各种应用的理解，不用重训练。

* **包含两个来源：**
    1. **从文档中引导：**
        * 自动解析软件说明文档、帮助文档，存入数据库，任务执行时调用它们做参考。
    2. **从经验中学习：**
        * 每次操作都会记录执行日志，后续可以从成功的例子中提取操作步骤作为经验，遇到相似任务时就能参考。

* **系统特性：**
    * 类似“操作系统级的知识缓存层”，以向量方式索引文档和经验。
    * 运行时支持“检索增强生成”（RAG），快速找资料。
    * 支持版本管理，软件更新后知识库也能随之演进。


### 3.7. Speculative Multi-Action Execution

* **核心思想：**
    * 一次调用大模型，预测一整批后续操作，然后逐步验证和执行。

* **执行流程：**
    1. **预测多个操作：** 一次 LLM 调用预测多个可能的下一步。
    2. **运行时检查：** 使用系统 API（比如 Windows UIA）确保按钮等控件还存在且可用。
    3. **按顺序执行：** 验证通过就执行；一旦有控件失效就立刻停止，重新规划。

* **优点：**
    * 大幅减少 LLM 推理次数 → 提升效率
    * 用系统 API 验证控件 → 更加稳定可靠（不靠图像识别）
    * 即使界面变化，也能安全回退


## 4.Picture-in-Picture Interface

* UFO2 系统引入了一个 **画中画（Picture-in-Picture, PiP）界面**，用于在不打扰用户操作的情况下执行自动化任务。

### ✅ 为什么要用 PiP？

* 传统的自动化工具会“抢占”用户电脑（比如鼠标键盘），用户在自动化运行时无法做其他事情。
* PiP 的设计目标是：**后台高效自动化 + 前台用户照常使用电脑**。


### ✅ PiP 是什么？

* 是一个小窗口，里面运行的是一个虚拟桌面（看起来像你电脑的另一个桌面）。
* 自动化任务在这个虚拟桌面里运行，不会干扰真实桌面。
* 用户可以自由移动、最小化这个窗口，继续用自己的电脑干别的事。


### ✅ 技术怎么实现？

* 利用了 Windows 的 RDP（远程桌面）循环机制，在本机开启一个独立会话。
* 自动化任务在这个隔离环境中运行，用户信息、网络环境保持一致，但**输入（鼠标键盘）和窗口控制完全隔离**。


### ✅ 有什么好处？

* 用户操作和自动化任务互不干扰。
* 自动化失败时不会影响真实桌面。
* 系统通过安全的通信机制（Windows Named Pipes）让 PiP 和主系统可以双向通信，进行任务分配、状态同步等。
* 提高了系统的可用性、安全性和扩展性。

### 总结

* PiP 就是一个隔离的小窗口，用来安全地跑自动化任务，用户依然可以正常使用电脑，互不干扰。


## 5.Implementation and Specialized Engineering Design


1. **整体架构**
    * 用Python做核心逻辑和代理控制，
    * C#做图形界面和Windows特定功能，
    * 结合Sentence Transformers实现文档和经验检索。
2. **多轮任务执行**
    * 支持会话式、多轮交互，能记忆上下文和任务状态，方便用户动态调整和监督任务，提升复杂任务完成度。
3. **安全保护机制**
    * 对潜在危险操作（删文件、关闭应用等）主动拦截，暂停执行并请求用户确认，防止误操作带来损失，可根据需求自定义风险规则。
4. **AppAgent机制**
    * 所有功能模块都以“代理”形式封装，支持第三方组件快速接入，实现统一管理和调度，提升系统扩展性。
5. **客户端-服务器部署**
    * 轻量客户端负责界面和感知，
    * 服务器集中处理逻辑和模型请求，增强安全性、可维护性和扩展能力。
6. **日志与调试系统**
    * 详细记录每步操作和状态，生成结构化日志，方便开发者复盘、调试和改进。

7. **自动任务评估**
    * 基于大语言模型自动分析执行过程，给出任务成功度评分，支持自我监控和持续优化。


总结来说，UFO2通过模块化设计、多轮交互、安全控制、服务化部署和完善的调试评估机制，实现了一个稳定、灵活且可扩展的桌面自动化智能代理系统。


## 6.Evaluation

1. **任务完成率提升**：比目前最强的桌面智能体（Operator）高出 10%，相对提升 50%。
2. **识别更多元素**：结合 UI 自动化 (UIA) 和视觉识别，可识别一些定制组件，UIA 单独做不到。
3. **用原生 API 提升成功率**：允许调用应用原生 API，成功率提升 8%，还更快更稳定。
4. **善用外部文档**：利用外部说明文档和执行日志，不用再训练也能应对新任务。
5. **一步多操作**：合并多步操作为一步 LLM 推理，节省最多 51.5% 推理成本。
6. **一切皆 Agent**：把每个应用都视为独立 Agent，使整体更高效，组件潜能充分释放。

> 结论：UFO2 通过深度集成 Windows 和应用 API，显著提高了桌面自动化效果，是原生桌面自动化方向的有力方案。


### 6.1 Experimental Setup


* **测试环境**：使用配有 AMD Ryzen 7 + 8GB 内存的虚拟机，图像模型运行在 NVIDIA A100 上。
* **测试基准**：
    * **WAA**：154 个真实任务，涵盖 15 个常用 Windows 应用。
    * **OSWorld-W**：49 个任务，聚焦 Office、浏览器、文件管理。
* **对比模型**：
    * UFO（旧版）
    * NAVI（截图+UIA）
    * OmniAgent（视觉模型+GPT）
    * Agent S（多智能体+规划）
    * Operator（OpenAI 的模拟人操作）

### 6.2 Success Rate Comparison

* **SR（成功率）**：完成任务的百分比
* **ACS（平均步骤数）**：完成任务需要多少 LLM 步骤，越少越高效

![](https://img.zhaoweiguo.com/uPic/2025/06/ajaXTo.jpg)

Table 1. Comparison of success rates (SR) across agents on WAA and OSWorld-W benchmarks.


* 🏆 成绩对比亮点
    * UFO2 全版本成功率远超所有对手，**最多高出一倍**（OSWorld-W）。
    * 即使是基础版（不加 API）也比现有最强的 Operator 更强。
    * 使用更强的 LLM（o1 模型）进一步拉大差距。
    * **优势场景**：浏览器任务（40%）、编程任务（58.3%）、Office 任务（51.9%）

* 失败主要分三类：
    1. **计划错误**：对任务理解不够，计划不合理。
    2. **执行错误**：计划对了，但操作错了，比如点错地方。
    3. **控件识别失败**：找不到需要操作的按钮或输入框，多见于自定义 UI。

> 最常见的失败原因是 **控件识别失败**，尤其是在不规范软件中（如 LibreOffice）。

![](https://img.zhaoweiguo.com/uPic/2025/06/IJ1UqK.jpg)

Table 2. SR breakdown by application type on WAA and OSWorld-W


### 6.3 Evaluation on Hybrid Control Detection

* 用 UIA + OmniParser（视觉识别）结合的方法，可以挽救 9.86% 的失败任务。
* 混合策略比单独使用任一方法都好，有效识别标准 + 非标准控件。
* 合并检测时，会自动去重，避免重复或误识。


### 6.4 Effectiveness of GUI + API Integration

* 在 Word、Excel、PPT 中手动开发了 12 个 API，用于简化复杂的 GUI 操作。
* 对比结果显示：加入 API 后任务成功率提升（GPT-4o 提升 6.1%，o1 提升 8.2%）。
* 原因：API 可绕过难以识别的控件（GPT-4o）或简化复杂操作（o1）。
* 任务执行步骤显著减少（o1 甚至减少了 58.5% 步数）。
* ✅ **结论**：API + GUI 的结合显著提高成功率和效率，是深度系统集成的关键。


### 6.5 Continuous Knowledge Integration Evaluation

* 给每个任务准备了帮助文档，同时记录成功执行过程，形成知识库。
* 在任务执行时检索相关文档或经验日志指导计划生成。
* 效果：最多可修复 17.7% 的计划错误，特别在使用强模型（如 o1）时效果更好。
* ✅ **结论**：动态知识增强让 UFO2 越用越聪明、越稳定，具备自我进化能力。


### 6.6 Effectiveness of Speculative Multi-Action Execution

* 比较一次一步 vs. 一次推测多步执行方式。
* 结果：成功率相当，但推测多步方式可减少最多 51.5% 的操作步骤（OSWorld-W）。
* ✅ **结论**：一步多做提升效率不牺牲准确性，极大节省 LLM 推理成本和延迟。


### 6.7 Operator as an AppAgent

* 把 OpenAI 的 Operator 作为 UFO2 的子智能体进行协作。
* 成效：在 WAA 中成功率提升（从 20.8% → 26.0%）。
* 原因：HostAgent 会拆分任务、减少干扰、优化视野。
* ✅ **结论**：UFO2 架构可兼容并强化已有智能体，体现“一切皆 Agent”的强大协作能力。


### 6.8 Efficiency Analysis

* **步骤数**：完整 UFO2 每个任务平均步骤数比基础版减少最多 50%。
* **延迟分析**：单步平均耗时约 10 秒，主要开销在 LLM 推理。
* GUI 控件识别增强只增加 1 秒延迟，换来识别准确性大幅提升。
* ✅ **结论**：即便增加视觉处理，整体执行时间仍维持在 1 分钟内，兼顾精度与效率。


### 6.9 Model Ablation

* 比较了 UFO2 用不同模型（GPT-4V、GPT-4o、Gemini 2.0、o1）时的表现。
* 带有内置推理能力的模型（如 o1）表现更好。
* ✅ **结论**：未来可通过增强“多步规划推理”的模型进一步提升自动化能力。


### 总结

* UFO2 的成功得益于以下几点：
    * 系统层深度集成（OS API + 应用 API）
    * 多智能体协同（HostAgent + AppAgents）
    * 混合视觉 + 接口操作方式
    * 灵活任务规划与执行
    * 对复杂、多步任务适应能力强

* 即使使用通用模型 GPT-4o，UFO2 架构也能击败专为自动化设计的系统，说明**架构设计优于模型优化**是成功关键。

> UFO2 通过深度系统集成（API + GUI + 知识 + 多智能体），结合推理能力强的模型，在任务成功率、执行效率和可扩展性上全面领先，是下一代桌面自动化的强力方案。


## 7.Discussion & Future Work

### ⏱️ 延迟与响应速度

* 目前 UFO2 每一步都需要调用大模型推理，**每次操作可能要几秒到几十秒**。
* 一些多步骤的复杂任务总耗时达 **1-2 分钟**，虽然还可以接受，但还是比不上人类。
* 为减少打扰，系统引入了 **画中画（PiP）模式**，在虚拟桌面中后台执行任务。
* **未来改进方向**：考虑使用更小、更快的推理模型（LAM），提升速度和扩展性。

### 🧠 接近人类水平的差距

* UFO2 还没完全达到人类水平，要**从两个方向改进**：
    1. **增强基础视觉语言模型**（比如 GPT-4V）：
       * 通过大量图形界面交互数据精调，提升泛化能力。
    2. **更深入的系统 API 与文档整合**：
       * 接入原生 API、结构化文档，帮助系统更准确理解任务上下文。

> 好消息是：UFO2 是模块化设计，可以**逐步升级**，不断接近人类水平。

### 💻 跨操作系统的通用性

* 虽然 UFO2 目前只支持 Windows（因市场占比超 70%），但架构本身是跨平台设计的。
* Windows 的 UIA 框架在 Linux 和 macOS 也有类似版本（AT-SPI 和 Accessibility API）。
* 所以 UFO2 的原理和结构**可以快速适配其他操作系统**。
* **未来目标**：打造成一个跨 Windows、Linux、macOS 的统一桌面自动化生态。


### ✅ 总结一句话：

> UFO2 目前虽表现出色，但还需在响应速度、模型能力和跨平台支持上进一步优化，未来目标是打造通用、高效、接近人类操作能力的跨平台自动化系统。


## 8.Related Work

### 8.1. Computer-Using Agents (CUAs)

* **CUAs（Computer-Using Agents）** 是指能像人一样在桌面操作系统上执行任务的 AI。
* **UFO（早期代表）**：利用多模态大模型（如 GPT-4V）+ UIA 接口来理解界面并执行任务，首创了多智能体结构，能处理跨应用和长流程任务。
* **后续系统**：
    * **CogAgent**：支持 PC、网页、Android 的多模态交互。
    * **Claude-3.5（Anthropic）**：完全基于截图来操作 GUI。
    * **Operator（OpenAI）**：用更强的多模态推理能力提升桌面自动化性能。

* ⚠️ **问题是**：这些系统大多是原型，**没有深入集成到操作系统或应用本身**。
* ✅ **UFO2 的不同点**：
    * 有模块化的 AgentOS 架构
    * 深度集成 OS 和应用 API
    * 视觉 + UI 混合识别
    * 可插拔、不中断系统运行


### 8.2. LLMs for Operating Systems

* **AIOS（Ge 等人提出）**：提出用 LLM 作为操作系统核心，通过自然语言“编程”操作系统。
* **Mei 等人实现的 AIOS 原型**：把 LLM 与系统核心功能（如进程调度、内存管理等）融合，还提供 SDK，简化 Agent 的开发。
* **Rama 等人**：基于 AIOS，加入语义化文件管理，进一步系统集成。
* **AutoOS**：用 LLM 自动优化 Linux 内核参数，提高系统效率。

* ✅ 这些研究都表明了一个趋势：**LLM 正逐步变成操作系统的核心组件**，实现更智能、自动化、用户友好的系统行为。

### 📌 UFO2 的位置：

> UFO2 继承了 CUAs 和 AIOS 两条研究路径的优点，专注于实际可落地的桌面自动化，采用深度系统集成 + 多模态 LLM + 多智能体协同，推动了“LLM + 操作系统”结合的落地实践。


## 9.Conclusion

* UFO2 是一个**实用的、深度集成操作系统的桌面自动化平台**（AgentOS），专为 Windows 环境设计。它解决了以往自动化系统（CUA）不稳定、难用的问题。
* **架构特点**：
    * 使用 **多智能体结构**：一个中心控制的 HostAgent + 多个负责具体应用的 AppAgent。
    * 每个 AppAgent 能同时使用 **GUI 操作 + 应用原生 API**，并自动吸收新知识，执行更稳更快。
    * 支持 **PiP（画中画）虚拟桌面**，用户和 Agent 可并行操作，互不干扰。
* **效果表现**：
    * 在 20 多个真实 Windows 应用中表现优异，**比现有最强系统更稳、更准、更易扩展**。
    * 即便使用像 GPT-4o 这种**通用模型**，也能超过专门优化的系统（如 Operator），说明系统架构非常关键。

* 一句话总结：
    * > **UFO2 将桌面自动化从实验原型带入实用阶段，靠的是强大的系统集成和多智能体设计，而不是单靠大模型。**