2311.12983_GAIA: a benchmark for General AI Assistants

Abstract

  • GAIA 是一个用于评估通用 AI 助手能力的新测试集。如果 AI 能很好地完成 GAIA 任务,将是 AI 研究的重要突破。

  • GAIA 的问题贴近现实,需要 AI 具备推理、多模态理解、网页浏览、工具使用等基础能力。

  • 这些问题对人类来说很简单(人类得分92%),但即使是用上插件的 GPT-4 也只能得分15%,表现差距很大。

  • 这与近年来大模型在法律、化学等专业任务上超过人类的趋势相反。

  • GAIA 的理念是:想要实现通用人工智能,AI 必须先在这些“对人类简单”的任务上表现得像普通人一样稳健。

  • 目前 GAIA 提出了466个问题,公开了其中166个的答案,其余的用于榜单评测。

1.Introduction

✅ 背景与问题:

当前的大语言模型(LLMs)越来越强,甚至能在一些高难度的测试(如MMLU、GSM8k)中超过人类水平,但这些测试已经不够挑战性,而且容易被“数据污染”(即答案可能早就在训练数据中)。

✅ GAIA 的提出:

  • GAIA 是一个新提出的评测集,用来测试通用 AI 助手(General AI Assistants)

  • 它的特点是:

    1. 任务真实且复杂:涉及现实世界问题,比如要用工具(浏览器、代码等)、处理图像、推理多步。

    2. 题目简单明确但难以破解:每题只有一个正确答案,不能靠猜或查文本数据得出。

    3. 适合自动评价:因为答案是具体数字或事实,所以不需要人工评分。

    4. 人类容易,模型难:人类正确率达 92%,但 GPT-4 最高只有 30%,有些题目完全答不对。

    5. 设计灵活可拓展:便于未来继续加入多模态、工具使用、安全性等新挑战。

✅ GAIA 的意义:

  • 如果某个 AI 系统能很好地完成 GAIA,说明它可能达到了“时间受限通用智能(t-AGI)”的水平。

  • GAIA 提供了一个可以公平、系统地评估下一代 AI 系统的基准。

3.GAIA

3.1 GAIA 简介

  • 定义

    • GAIA 是一个用于评估通用 AI 助手能力的基准测试集,共有 466 个由人类设计的问题。

    • 这些问题围绕真实世界任务,如日常事务、科学、通识知识等,形式简单(如回答一个数字或短语),但对 AI 来说具有挑战性。

    • 问题可能附带图像、表格等文件。

  • 设计原则:

    1. 真实且有挑战性:问题贴近生活,强调推理、跨模态理解和工具使用,挑战当前 AI 的基本能力。

    2. 可解释性强:问题简单,便于用户理解模型的推理过程。

    3. 防止“背答案”:答案不会出现在预训练数据中,AI 需真正推理或操作获取答案。

    4. 使用简单:只需用零样本(zero-shot)方式输入问题,回答清晰、标准化,便于自动评分。

3.2 Evaluation

Figure 2 To answer GAIA, an AI assistant such as GPT4 (here equipped with a code interpreter) needs to complete a few steps, potentially using tools or reading files.

  • 答案是唯一、明确的(比如一个字符串或数字),评分标准是“近似精确匹配”。

  • 使用统一提示语告诉模型回答格式。

  • 自动打分,准确、高效。

3.3 Composition of GAIA

  • 能力覆盖广:涵盖推理、编程、网页浏览、多模态处理(PDF、图像、音频等)。

  • 分三种难度

    • Level 1:不需要工具或步骤少;

    • Level 2:步骤更多,需要结合多种工具;

    • Level 3:模拟一个几乎完美的 AI 助手,需要复杂推理和操作。

  • 话题广泛:兼顾不同文化和需求(如帮助残障人士)。

3.4 Building and extending GAIA

  • 问题由人工设计和标注,强调真实性和答案唯一性。

  • 多数问题基于可信网页或提供完整资料。

  • 每个问题由 3 位标注员独立验证,确保无歧义。

  • 创建一个问题(含验证)大约需要 2 小时。

  • 68% 的问题一次就通过,其余需修正或删除。

  • 挑战:

    • 来自网络的信息可能变化(如网页被更新),需指定网页版本。

    • 尊重网站的 robots.txt 限制,不使用被禁止的内容。

4.LLMs results on GAIA

  1. 人类表现最好,在所有问题难度层级上都很强。

  2. 当前 LLM 表现较差,尤其是难度高的题。

  3. GAIA 基准能有效区分模型能力,也留有提升空间。

  4. GPT-4 插件版通过工具能改写问题、回退重试,解决复杂问题表现较好。

  5. AutoGPT 自动用工具,效果反而更差,可能和参数设置有关,也比其他模型慢。

  6. GPT-4 记忆能力强,即使不能浏览网页,也能回答需要组合信息的问题。

  7. 人类搜索网页可以回答简单问题,但效率低、遇到复杂问题会失败。

5.Discussion

1. 闭源模型的复现性问题

  • 闭源AI(如通过API访问的模型)会不断更新,导致评估结果难以复现。

  • 一些功能(如ChatGPT插件)经常变动,增加了不确定性。

  • 静态评估标准可能过时,而GAIA只看最终答案且要求唯一正确,能减少这种随机性带来的影响。

2. 静态 vs 动态评估基准

  • GAIA采用高质量的开放性问题,相比像MMLU这种多选题更难但更精细。

  • 静态题库会随着时间“腐烂”(例如信息消失或模型提前见过答案),所以GAIA需要不断维护、更新题目来保持有效性。

  • 长远来看,持续更新比一次性构建更能体现模型的泛化和鲁棒性。

3. 朝向统一的生成模型评估方式

  • GAIA评估的是整个系统的输出(包括可能调用的图像识别、网页浏览等模块),不区分子模块的责任。

  • 虽然现在很多模型通过组合多个工具完成任务,未来可能会集成成多模态大模型。

  • GAIA致力于评估整个AI系统,不拘泥于现有架构。

  • 未来也可能用于评估图像生成任务,比如要求模型对图像做复杂修改,并准确理解修改结果。

4. 部分自动化 vs 完全自动化

  • 有些任务只需人类辅助(部分自动化),有些要求机器完全独立完成(完全自动化)。

  • GAIA的任务要求完全自动化,没有容错空间。

  • 这种能力将改变社会结构,但也带来技术集中化的风险——因此更应该推动开源来平衡技术收益分配。

6.Limitations

  • GAIA基准的局限性主要有三个方面:

    1. 缺少对“推理过程”的评估

      • GAIA目前只看答案对不对,不评估模型是如何得出答案的。

      • 因为正确答案可能有多种推理路径,很难设计简单而统一的评判方式。

      • 未来可能加入人类或模型辅助的过程评估。

    2. 题目设计成本高

      • 为了确保题目明确无歧义,需要经过两轮人工审核,比一般的AI训练任务成本更高。

      • 但这种人工审核是值得的,因为可以避免多次错误评估。

      • 尽管如此,仍可能有些歧义,但只要人类能理解就足够,因为目标是让AI对齐人类意图。

    3. 语言和文化多样性不足

      • GAIA目前只有标准英语的问题,而且很多依赖英文网页。

      • 这限制了它在非英语环境下的代表性,未来希望通过社区或新版本来改进这个问题。

Appendix C Extended description of GAIA

Description of capabilities.

  • GAIA设计涵盖五种能力:

    1. 网页浏览

    2. 多模态处理(图像/语音/视频等)

    3. 代码执行

    4. 多种文件格式处理(PDF、Excel等)

    5. 无需外部工具的常规问题

Appendix D Extended description of our question design framework

Table 4 Score and average time to answer for various baselines on GAIA in %.

Figure 9 Proper web search is very effective to answer GAIA questions. The reasoning trace was obtained with the current GPT4 web browsing version.