2307.16125_SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension¶
引用: 673(2025-07-13)
GitHub:
组织:
1Tencent AI Lab
2ARC Lab, Tencent PCG
总结¶
简介
评测多模态大语言模型(Multimodal LLMs)在生成式理解(Generative Comprehension)方面的基准测试
核心目标
评估模型在处理视觉和语言相结合的任务时,是否能够生成连贯、准确且富有洞察力的理解与回应
评价指标
使用 BLEU、ROUGE、CIDEr 等自然语言生成指标,
并结合人工评估(如事实准确性、逻辑性、流畅性等)
数据集
19,242 个高质量多选题
答案通过人工标注
远高于现有基准(MME 的 2194 题和 MMBench 的 2974 题)
涵盖图像和视频等多种模态的理解
评估维度
9个空间理解
场景理解、实例身份识别、属性识别、位置定位、实例计数、空间关系、实例交互、视觉推理和文本识别
3个时间理解
动作识别、动作预测和过程理解
数据来源
空间理解的问题基于CC3M数据集
时间理解的问题则来自SSV2、Epic-kitchen 100和Breakfast等数据集
多选题生成
预训练模型(如BLIP2、Tag2Text、SAM、OCR)提取图像中的信息
再利用ChatGPT/GPT-4生成问题和选项
人工标注者验证答案和分类
LLM 总结¶
这篇文章提出了 SEED-Bench,这是一个用于评测多模态大语言模型(Multimodal LLMs)在生成式理解(Generative Comprehension)方面的基准测试。研究的核心目标是评估模型在处理视觉和语言相结合的任务时,是否能够生成连贯、准确且富有洞察力的理解与回应。
主要内容总结如下:
背景与动机:
虽然现有的多模态模型在图像识别和基本问答任务上表现出色,但缺乏针对“生成式理解”能力的系统性评估。生成式理解要求模型不仅能识别内容,还需进行推理、解释、总结甚至创造新的内容。因此,文章提出 SEED-Bench 作为新的评估基准。SEED-Bench 的设计特点:
任务多样性:涵盖图像描述生成、视觉推理、跨模态检索与生成等任务。
高质量数据集:数据由多轮人工标注和筛选,确保质量与难度。
生成式评价指标:使用 BLEU、ROUGE、CIDEr 等自然语言生成指标,并结合人工评估(如事实准确性、逻辑性、流畅性等)。
实验与分析:
对多个当前主流的多模态 LLM(如 LLaVA、MiniGPT-4、Flamingo 等)在 SEED-Bench 上进行评估。
实验结果显示,模型在某些任务上表现良好,但在需要深层理解或复杂推理的任务中仍存在明显不足。
研究贡献:
提出一个系统性且多样化的多模态生成式理解评测基准。
揭示当前多模态 LLM 在生成式任务中的挑战与局限性。
为未来模型改进和研究方向提供参考依据。
总结:
SEED-Bench 是一个旨在推动多模态 LLM 在生成式理解方面发展的新基准。它通过多样化任务和严格评估方式,帮助研究人员更好地理解和提升模型在视觉-语言任务上的综合能力。
Abstract¶
该论文介绍了名为 SEED-Bench 的基准测试,旨在评估多模态大语言模型(MLLMs)在生成式理解能力方面的表现。SEED-Bench 包含 19,000 道多选题,涵盖图像和视频等多种模态的理解,覆盖了 12 个评估维度,并且数据规模是现有基准的 6 倍。该基准通过自动过滤与人工验证相结合的方式构建问题,确保评估的客观性和效率。论文还评估了 18 个模型在所有维度上的表现,揭示了当前 MLLMs 的局限性,旨在为未来研究提供参考。最后,作者将发布并维护一个排行榜,供社区评估和研究模型能力。
1 Introduction¶
该节主要介绍了 SEED-Bench 这一全新的多模态大语言模型(MLLMs)评估基准。以下是该章节内容的总结:
1. 背景与动机¶
近年来,大语言模型(LLMs) 在文本理解、推理和生成方面表现突出。
基于 LLMs,生成式多模态大语言模型(MLLMs) 在多模态理解和生成方面的能力也得到了提升。
然而,当前对 MLLMs 的评估方式存在以下问题:
评估内容有限:多数依赖少量定性案例或早期为封闭式任务设计的基准。
评估方式主观:如 VQA-v2 要求模型输出与标准答案完全一致(通常只有几个词),难以反映多模态生成模型的全面能力。
缺乏标准化基准:现有基准如 MME、MMBench 等虽然尝试构建客观评估体系,但数据量较小(均少于 3000 个样本),评估结果不够稳定,且依赖人工或 GPT 评估,效率低、主观性强。
2. 相关研究与现有基准比较¶
已有工作尝试构建 MLLMs 评估基准,如:
LVLM-eHub 和 LAMM:利用现有视觉数据集和人工/GPT 评估模型输出质量。
MME 和 MMBench:采用 Yes/No 或多选题形式,提升评估的客观性。
不足之处:
依赖人工或 GPT 评估,效率和客观性差。
数据量小,统计结果不稳定。
多为图文理解任务,缺乏对视频等时序信息的评估。
3. SEED-Bench 的提出¶
为了更全面地评估 MLLMs 的生成式理解能力(Generative Comprehension),作者提出了 SEED-Bench。
SEED-Bench 的特点:
覆盖 图像与视频 两种模态。
包含 12 个评估维度(如空间理解、时间理解等),每个维度对应模型的不同能力方面。
提供 19,242 个高质量多选题,答案通过人工标注,远高于现有基准(MME 的 2194 题和 MMBench 的 2974 题)。
选项为 A/B/C/D 形式,便于自动化评估。
通过自动化生成、过滤及人工验证相结合的方式构建数据,确保数据质量。
4. 数据生成与过滤流程¶
图像信息提取:使用多种基础模型提取图像信息,如图像描述、实例描述和文本元素。
视频信息提取:依赖原始人工标注。
问题生成:将提取的信息输入 ChatGPT 或 GPT-4,根据特定评估维度生成问题及四个选项。
过滤机制:利用多个 LLMs 过滤掉无需视觉输入即可回答的问题。
人工验证:标注正确答案并分类至相应评估维度,最终构建高质量数据集。
5. 评估与实验¶
在 SEED-Bench 上评估了 18 个模型,包括 LLMs、ImageLLMs 和 VideoLLMs。
评估方法:
与 MMBench 中使用 ChatGPT 匹配答案的方式不同,作者采用 GPT-3 的 log-likelihood 方法,直接计算每个选项的可能性并选择最大值,避免依赖模型的指令跟随能力。
发现与结论:
当前大多数 MLLMs 在 12 个维度上的表现仍较有限。
意外发现:VideoLLMs 在时序理解能力上并未显著优于 ImageLLMs,显示出当前模型设计的局限性。
目标:
通过 SEED-Bench 提供客观评估手段,为未来 MLLMs 的研究提供方向。
后续将建立评估平台并维护排行榜,持续更新模型评估结果。
总结¶
SEED-Bench 是一个大规模、多模态、面向生成式理解能力的 MLLMs 评估基准。通过覆盖图像和视频、12 个评估维度及高质量多选题,解决了现有评估方式在规模、客观性和覆盖范围上的不足。该工作不仅为当前 MLLMs 提供了全面评估工具,也为未来模型能力提升提供了研究方向。
3 SEED-Bench¶
SEED-Bench是一个包含19,000个准确标注的多选题的基准测试,用于评估多模态大语言模型(MLLMs)在空间和时间理解方面的能力。本节介绍了SEED-Bench的评估维度(3.1节)、数据来源(3.2节)、多选题构建流程(3.3节)以及针对MLLMs的评估策略(3.4节)。
评估维度
SEED-Bench涵盖了9个空间理解和3个时间理解的评估维度,共计12个方面。空间理解包括场景理解、实例身份识别、属性识别、位置定位、实例计数、空间关系、实例交互、视觉推理和文本识别。时间理解则涵盖了动作识别、动作预测和过程理解。每个维度都有具体的示例问题,以评估模型对视觉信息和时间动态的理解能力。数据来源
空间理解的问题基于CC3M数据集,通过过滤和标注生成丰富的图像描述。时间理解的问题则来自SSV2、Epic-kitchen 100和Breakfast等数据集,利用其精确的动作标注来构建问题。多选题生成
多选题生成流程包括视觉信息提取和问题验证。通过预训练模型(如BLIP2、Tag2Text、SAM、OCR)提取图像中的信息,再利用ChatGPT/GPT-4生成问题和选项。为确保问题质量,使用LLM自动筛选,剔除不依赖视觉信息即可解答的问题,并由人工标注者验证答案和分类,最终构建出19,000个高质量多选题。评估策略
SEED-Bench采用答案排序策略评估模型表现,计算模型生成每个选项的可能性,选择可能性最高的作为预测结果。该方法避免了模型对输出格式的依赖,提高了评估的客观性和准确性。
总结:SEED-Bench是一个全面、高质量的多模态大语言模型基准测试工具,专注于评估模型在空间和时间理解方面的能力,涵盖12个维度的19,000个问题,并提供严格的评估策略以确保评估的公平性和有效性。
4 Evaluation Results¶
本章节主要评估并分析了多种多模态大语言模型(MLLMs)在 SEED-Bench 测试基准上的表现。SEED-Bench 包含 12 个评估维度,分为空间理解(9 个维度)和时间理解(3 个维度),通过准确率(Acc)和排名(Rank)两项指标对模型进行比较。
4.1 模型评估范围¶
评估共涉及 18 个模型,包括:
3 个 LLM 模型:Flan-T5、Vicuna、LLaMA;
12 个 ImageLLM 模型:如 BLIP-2、InstructBLIP、LLaVA、MiniGPT-4、VPGTrans 等;
3 个 VideoLLM 模型:VideoChat、Video-ChatGPT、Valley。
每个模型都在 12 个维度上接受了评估,旨在全面衡量其在空间和时间理解方面的能力。
4.2 评估结果¶
总体来看:
InstructBLIP(尤其是 InstructBLIP-Vicuna) 在空间和时间理解方面均表现最佳,总准确率为 53.37%,排名第一。
ImageLLM 模型(如 BLIP-2、InstructBLIP)在空间理解上的表现优于 VideoLLM,但在时间理解(如动作识别、过程理解)方面表现一般。
LLaVA 在文本识别方面表现突出,但整体表现中等。
VideoLLM 模型(如 Valley)在时间理解方面普遍表现不佳,甚至不如部分 ImageLLM 模型。
VPGTrans 在过程理解和动作识别方面表现最佳。
LLaMA-Adapter V2 在动作识别方面有一定优势。
部分模型(如 OpenFlamingo、GVT)在多个维度上表现均衡。
4.3 分析与发现¶
模型整体表现有限:
多数 MLLMs 在 12 个维度上的平均准确率低于 50%。
除了 BLIP 系列模型,其他 MLLMs 在多个维度上表现远不及 LLM。
图像全局理解较强:
MLLMs 在场景理解和视觉推理方面表现优于 LLM,显示出更强的全局图像理解能力。
InstructBLIP 表现突出:
在 12 个维度中,InstructBLIP 在 8 个维度上排名第一。
可能原因包括:使用了大量指令调优数据(1600 万样本),以及冻结 LLM 权重以减少灾难性遗忘。
但其在动作识别和过程理解方面仍较弱,可能因训练数据与测试任务不一致。
空间关系理解较弱:
即使是最优模型 InstructBLIP,其在空间关系理解上的准确率仅为 40%,显示出识别物体间精细空间关系的难度。
文本识别能力不足:
多数模型在文本识别方面表现不佳(准确率低于 40%),主要由于多模态预训练数据中缺少丰富的文本元素。
VideoLLM 的潜力与局限:
VideoChat 在图像空间理解方面表现良好,表明其在图像和视频联合训练中未损失空间能力。
大多数 VideoLLM 在时间理解方面(如动作识别、过程理解)表现不佳,尤其是 Video-ChatGPT 和 Valley,甚至不如部分 ImageLLM。
未来研究方向:
提高模型在细粒度时间推理和空间关系理解方面的能力。
增加多模态预训练数据中文本元素的比例,以提升文本识别性能。
针对视频数据的模型(VideoLLM)应进一步优化其动作识别和时间关系建模能力。
总结¶
SEED-Bench 提供了对 MLLMs 在空间和时间理解能力上的系统评估。结果显示,尽管部分模型(如 InstructBLIP)在多个维度上表现优异,但整体来看 MLLMs 在时间理解方面仍存在明显短板,尤其是在细粒度动作识别和过程理解上。未来的研究应关注提升模型在这些关键任务上的表现,并优化多模态数据的预训练策略。
5 Conclusion¶
本文总结如下:
本文提出了一项大规模基准测试——SEED-Bench,用于对多模态大语言模型(MLLMs)在生成式理解能力方面进行全面、客观的评估。该基准测试包含19,000个经过人工精确标注的多项选择题,覆盖空间和时间理解的12个评估维度。作者设计了一种先进的流程,用于生成针对特定评估维度的多项选择题,以支持在多个领域中评估数据的扩展性。同时,通过自动筛选和人工验证相结合的方式,提升了生成问题与答案的质量。研究团队对18个模型进行了全面评估与比较,为未来研究提供了有价值的见解。作者计划发布并持续维护排行榜,为社区提供一个评估模型表现的平台,并将持续扩展SEED-Bench的评估维度和数据量。
此外,作者感谢了多位研究人员在建议、数据处理和讨论方面的支持与贡献。