2506.12508_AgentOrchestra: A Hierarchical Multi-Agent Framework for General-Purpose Task Solving¶
组织: Skywork AI, Nanyang Technological University
Abstract¶
目前基于大语言模型(LLM)的智能体系统虽然强大,但在协调多个专用智能体和适应新领域方面仍有限。
AgentOrchestra 是一个新提出的层次化多智能体框架,就像指挥指挥乐团一样,它通过一个中央规划智能体来分解任务,并把子任务分配给不同的专用智能体。这些智能体能处理各种现实任务,如数据分析、文件操作、网页浏览和多模态推理等。
该系统支持灵活的任务协调,包括目标拆解、智能体之间的沟通、以及动态分配角色。在多个真实任务的测试中,它比传统方法更成功、更适应不同任务,说明层次化和专业分工的设计效果更好。
1.Introduction¶
背景
过去,大模型(LLM 或 LMM)主要用于简单对话,但现在已经能进行复杂推理。但它们仍然无法与现实世界互动,因为缺乏工具使用和感知能力。这限制了它们完成复杂任务的能力。
为解决这个问题,需要将大模型变成能“感知-行动-推理”的智能体(Agent),具备与真实或虚拟世界交互的能力。
挑战
泛化能力弱:很难适应新环境或新任务。
多模态能力差:难以综合理解文本、图像、音频等不同形式的信息。
扩展性差:架构不够模块化,难以加入新工具或功能。
协同能力弱:多智能体之间沟通和协作效率低。
作者提出一个新的系统框架 AgentOrchestra,具有以下优势:
可扩展性:通过加入新的子智能体来快速扩展能力。
多模态支持:能统一处理文本、图像、音频、视频等多种形式的信息。
模块化设计:模型、工具、智能体解耦,便于组合和维护。
高效协作:通过层级结构,让多个智能体分工协作、协调完成复杂任务。
3.AgentOrchestra¶
Figure 1:Architecture of AgentOrchestra.
AgentOrchestra 是一个多智能体系统,分为两层:
规划代理(Planning Agent):负责任务拆解、分配、整体把控。
子代理(Sub-Agents):分别处理具体任务,比如信息检索、网页操作、数据分析等。
4.Experiments¶
实验目的¶
验证作者提出的多智能体系统是否比现有模型和方法更强。
评测基准(Benchmark)¶
使用了三个公开测试集:
SimpleQA:考查模型是否能准确回答事实类问题。
GAIA:更复杂的任务,包括多模态处理(如网页浏览、工具使用等)。
HLE(人类终极考试):要求高度推理、跨领域能力,最难。
评估方式¶
用准确率(pass@1)来衡量:模型第一次尝试是否答对。
实验结果(简要)¶
数据集 |
我们的方法表现 |
是否最好 |
---|---|---|
SimpleQA |
95.3% |
是,超过所有模型和智能体 |
GAIA |
平均 82.42% |
是,尤其在难题上更稳定 |
HLE |
25.9% |
虽然整体准确率不高,但仍领先其他系统 |
总结亮点¶
优势:系统可拆解复杂任务给不同“子智能体”,协作完成,效果更好、推理更强。
劣势:对简单任务不够高效,可能增加计算成本。
改进方向:未来计划做“自适应控制”,对简单任务就不用全套流程。