2501.14249_HLE: Humanity’s Last Exam¶

https://arxiv.org/abs/2501.14249
GitHub: https://github.com/centerforaisafety/hle
作者: 1 Center for AI Safety, 2Scale AI
引用(81, 2025-06-26)
官网:
- https://lastexam.ai
- https://agi.safe.ai/

Abstract¶

现有的大语言模型（LLM）进步很快，已经能在很多主流测试（如 MMLU）中拿到超过 90% 的高分，导致这些测试已经不足以准确评估模型能力。
为此，研究者提出了一个新的测试集，叫做 Humanity’s Last Exam（HLE），这是一个多模态、覆盖广泛学科的高难度题库，目的是成为最后一个封闭式学术测试。
HLE 包含 2500 道选择题和简答题，涵盖数学、人文、自然科学等领域，由全球专家设计，题目标准明确，但不能通过简单搜索得出答案。
现有最先进的模型在这个测试中表现不佳，说明它们与专家水平还有较大差距。

1.Introduction¶

近年来，大语言模型（LLM）的能力大幅提升，在很多任务上超过了人类。但原有的评测题库（如 MMLU）已经“被做穿了”，准确率超过90%，不再能有效区分模型水平。
为此，研究者推出了一个新题库：“人类最后的考试（HLE）”，包含 2500 道超高难度的题目，覆盖多个学科。题目经过专家设计，不容易被网络搜索或简单查库解决，有些还是图文混合的。
每道题都要通过测试，确保最先进的模型答不出来，才会被收录。之后还要经过多轮专家评审，确保题目质量。
评测结果显示，当前的最强模型在 HLE 上准确率很低，还常常自信地给出错误答案，说明和人类专家之间仍有很大差距。
这个题库的目标，是为 AI 能力的进一步发展提供一个更严格、更有挑战性的评测标准。部分题库公开，供大家研究和比较模型性能。

Figure 2:Samples of the diverse and challenging questions submitted to Humanity’s Last Exam.

Figure 3:HLE consists of 2,500 exam questions in over a hundred subjects, grouped into high level categories here

3.Dataset¶

以下是这段内容的简洁版解释：

数据集简介¶

HLE（Humanity’s Last Exam） 是一个包含 2500 道高难度题目 的数据集，覆盖 100 多个学科，用于测试大语言模型（LLM）的极限。题目公开发布，但保留了一部分未公开题目用于检测模型是否过拟合。

题目来源¶

来自 全球 50 个国家、500 多个机构的 1000 名专家，大多是教授、研究人员或研究生学历者。

题目类型¶

包括两种格式：
1. 精确匹配题：要求模型输出一个精确的答案。
2. 多选题：模型从多个选项中选择一个答案。
14% 的题目包含图文内容。
24% 为多选题，剩下为精确匹配题。
每题都包含：题目正文、答案说明、解题思路、所属学科、作者姓名和机构。

提交要求¶

问题必须原创、明确、非搜索引擎可查，避免让模型靠记忆答题。
内容需专业、逻辑清晰，答案应唯一可验证。
禁止主观、开放式、涉及大规模杀伤性武器的问题。
每题都附详细解答说明。
回答错误但模型猜对的题目，需改进以防“误猜得分”。

奖励机制¶

总奖金 50 万美元：
- 前 50 道最佳题目各得 $5000。
- 接下来的 500 道题各得 $500。
所有被采纳题目的作者可成为论文合作者，吸引了高质量专家参与。

评审流程¶

初筛： 用多个顶级大模型测试题目，只有模型答错的才进入下一轮。
- 总共测试了 7 万次，最终约 1.3 万道题被送交人工审核。
人工评审：
- 所有评审人员都有硕士以上学历。
- 两轮评审流程，评估标准化，逐步精炼题目，最终筛选出优秀题目组成正式数据集。

4.Evaluation¶

📌 研究目的¶

作者评估了当前先进的大模型（LLMs）在 HLE 数据集（一个高难度的闭卷考试题库）上的表现，分析它们在不同问题类型和领域下的能力。

🧪 4.1 评估方法（Setup）¶

使用统一的提示词，要求模型先推理再作答。
用 o3-mini 模型作为“裁判”来判断答案是否正确。
接受格式上的合理差异（如小数 vs 分数）。
没有把“靠猜答对”的题目去掉，以保持数据的真实性。

📊 4.2 量化结果（Quantitative Results）¶

Table 1: Accuracy and RMS calibration error of different models on HLE, demonstrating low accuracy and high calibration error across all models, indicative of hallucination. ∗Model is not multi-modal, evaluated on text-only subset.

✅ 准确率（Accuracy）¶

所有模型在 HLE 上的得分都很低（最高约 13.4%），说明还有很大改进空间。
数据集有意筛除了容易题，所以模型表现差属正常，但猜对的成分也存在。
低分并不代表模型无能，但也不能说明它们有进步。

⚖️ 校准误差（Calibration Error）¶

模型常常在不确定时依然自信地给出错误答案，这叫“幻觉（hallucination）”。
所以还测了“信心匹配度”，即模型说自己 70% 有把握时，是否真的能有 70% 正确率。
所有模型在这项指标上表现也不好，说明它们不擅长自我判断。

🔢 Token 数量（Token Counts）¶

推理型模型生成的 token（字数）更多，计算成本更高。
尽管表现略好，但效率低下。
未来模型需要兼顾准确率与计算效率。

5.Discussion¶

模型未来表现：
- 虽然当前大模型在 HLE 测试上的准确率很低，但历史表明模型性能提升很快，因此到 2025 年底可能会超过 50%。
- 但即使模型在这种考试中表现很好，也不代表它具有自主研究能力或通用人工智能，因为 HLE 只测试封闭、可验证的学术问题，不涵盖开放性或创造性任务。
影响：
- HLE 提供了一个统一的评估标准，有助于科学家和政策制定者理解 AI 发展水平，进而做出更好的决策和监管规划。