2306.05685_Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

总结

  • 数据集

    • 80个MT-bench问题

    • 3000个专家评估

    • 3万个含人类偏好的对话

  • 评估工具

    • MT-Bench:

      • 80个高质量多轮问题的基准测试集

      • 评估模型在多轮对话和指令遵循方面的能力

      • 覆盖8种常见用户场景:

        • 写作

        • 角色扮演

        • 信息提取

        • 推理

        • 数学

        • 编程

        • 科学技术知识(STEM)

        • 人文社科知识(社会/人文)

    • Chatbot Arena:

      • 众包评估平台,用户可以同时测试两个匿名模型的响应,并投票选出更优的回答

      • 运行一个月后,已收集约3万次用户投票

  • LLM作为裁判的三种形式

    • 成对比较(Pairwise Comparison):给定一个问题和两个回答,LLM判断哪个更好或平局。

    • 单个回答评分(Single Answer Grading):LLM直接对单个回答进行打分。

    • 参考答案引导评分(Reference-guided Grading):在有参考答案时,结合参考答案进行评分。

  • 改进方法

    • 交换位置(Swapping Positions):通过交换位置后两次评估并比较结果,减少位置偏差。

    • Few-shot Judge:提供少量示例,提升LLM对位置偏差的鲁棒性。

    • Chain-of-Thought(CoT)与参考引导(Reference-Guided):在评分前先独立回答问题,再参考答案进行判断,可显著提高数学题评估的准确性。

    • 微调裁判模型:在对抗数据上微调LLM,提升其作为裁判的能力,初步结果显示有潜力。

LLM 总结

该论文章节的标题为《用MT-Bench和Chatbot Arena评估LLM作为裁判的能力》,其内容主要围绕如何评估大语言模型(LLM)在作为“裁判”时的表现。文章借助两个评估工具——MT-Bench和Chatbot Arena,对LLM在生成和评估对话质量方面的能力进行系统性测试和比较。

总结如下:

  1. 研究背景:LLM在生成高质量回复方面已取得显著进展,但如何客观评估LLM生成内容的质量成为一个关键问题。部分研究尝试让LLM自身担任“裁判”,即利用LLM对其他模型或回复进行质量评分或排序。

  2. 评估工具

    • MT-Bench:这是一个多任务基准测试集,用于评估LLM在不同任务上的表现。

    • Chatbot Arena:这是一个在线平台,允许用户对不同LLM生成的回复进行对比和评分,从而提供用户视角的评估数据。

  3. 评估方法:文章通过在MT-Bench上的系统性测试,以及Chatbot Arena上的用户反馈,评估LLM在作为“裁判”时的表现。具体包括对回复的相关性、准确性、连贯性、自然程度等维度的评估能力。

  4. 主要发现

    • 部分LLM在作为裁判时表现出与人类评估者相似的判断能力。

    • 但同时也发现,某些LLM仍存在评估偏差或不一致的问题,特别是在复杂或需要深度推理的任务中。

  5. 研究意义:这项研究为LLM在自评估和质量控制方面的应用提供了实证基础,有助于推动LLM在对话系统、内容过滤、自动评分等领域的实际应用。

总的来说,该章节通过MT-Bench和Chatbot Arena两个工具,系统评估了LLM作为“裁判”的能力,揭示了其在生成质量评估中的潜力与局限性。

Abstract

该论文章节主要探讨了如何评估基于大语言模型(LLM)的聊天助手的问题。由于现有基准测试在衡量人类偏好方面存在不足,作者提出使用强大的LLM作为“评判者”来评估模型在更开放问题上的表现。文章分析了LLM作为评判者的使用方式和局限性,包括立场偏差、冗长性偏差、自我增强偏差以及推理能力有限等问题,并提出了解决部分问题的方法。

为了验证LLM评判与人类偏好的一致性,作者引入了两个基准测试:MT-bench(一个多轮问答数据集)和Chatbot Arena(一个众包对抗平台)。研究结果显示,像GPT-4这样的强大LLM能够很好地匹配人类的偏好,无论是受控还是众包的人类偏好,其一致性超过80%,与人类之间的一致性相当。因此,LLM作为评判者是一种可扩展且可解释的方法,能够有效近似人类偏好,而人类偏好获取成本很高。

此外,作者还通过评估LLaMA和Vicuna的不同变体,展示了他们的基准测试与传统基准测试之间的互补性。研究数据包括MT-bench问题、3000个专家投票和30000个包含人类偏好的对话,已公开在GitHub上,供研究者使用。

1 Introduction

Figure 1:Multi-turn dialogues between a user and two AI assistants—LLaMA-13B (Assistant A) and Vicuna-13B (Assistant B)—initiated by a question from the MMLU benchmark and a follow-up instruction. GPT-4 is then presented with the context to determine which assistant answers better.

本文的引言部分主要探讨了大型语言模型(LLM)在对齐人类偏好方面的评估挑战,并提出了一个系统性的解决方案。以下是该章节内容的总结:

  1. LLM聊天助手的兴起
    近年来,基于监督指令微调和人类反馈强化学习(RLHF)的LLM聊天助手(如ChatGPT、Vicuna等)迅速发展,展现出更强的指令遵循和对话能力。这类对齐人类偏好的模型在用户中更受欢迎,但在传统基准测试(如MMLU、HELM)中的表现未必优于未对齐的基础模型。

  2. 现有评估方法的局限性
    传统基准测试主要关注模型在封闭任务(如多选题、事实性问题)上的能力,而忽略了模型在开放任务中对人类偏好的对齐能力。这种评估方式无法准确反映模型在真实对话场景中的表现差异。

  3. 核心问题
    本文提出的核心问题是:如何开发一种稳健且可扩展的自动化方法,以评估LLM是否与人类偏好对齐?作者指出,当前评价体系在多轮对话和指令遵循等关键能力上的不足,导致模型的实际用户满意度与其基准测试表现不一致。

  4. 提出的解决方案
    为解决这一问题,作者提出了两个评估基准:

    • MT-bench:一套开放式的多轮对话问题,用于评估聊天机器人的对话和指令遵循能力。

    • Chatbot Arena:一个众包平台,用户可同时体验两个聊天机器人并根据个人偏好进行评分,模拟真实场景中的模型对比。

  5. LLM作为评估者的探索
    由于人类评估成本高且效率低,作者探索了使用先进的LLM(如GPT-4)作为“裁判”(LLM-as-a-judge)来自动评估模型表现。这类模型因训练中融入人类反馈,表现出较强的人类对齐性。尽管存在诸如位置偏差、冗长偏差等潜在问题,但作者通过实验表明,GPT-4在与人类评估的一致性上达到80%以上,接近人类之间的评估一致性。

  6. 研究贡献与公开数据
    本文的主要贡献包括:

    • 对LLM作为评估者的系统性研究;

    • 提供高质量的人类偏好数据集(包括80个MT-bench问题、3000个专家评估和3万个含人类偏好的对话)。 作者建议未来LLM评估应采用混合评估框架,结合传统能力基准和基于偏好的评估,以全面衡量模型的核心能力和人类对齐性。

总结:本文揭示了传统基准测试在评估LLM对齐人类偏好方面的不足,并提出通过MT-bench、Chatbot Arena和LLM-as-a-judge等方法,构建更贴近实际应用场景的评估体系,推动LLM在对话和用户体验领域的进一步发展。

2 MT-Bench and Chatbot Arena

本章主要介绍了两个用于评估大型语言模型(LLM)在多轮对话和指令遵循等能力方面的新工具:MT-BenchChatbot Arena

2.1 动机

随着LLM的不断发展,基于LLM的助手在多种任务中表现出类人智能,如写作、聊天和编程。然而,现有的评估基准多集中于封闭式问题和简短回答的测试,难以全面评估现代聊天助手在多轮对话和开放式问题上的能力。当前的评估基准主要分为三类:

  1. 核心知识类:如MMLU、HellaSwag等,通过零样本或少量样本测试LLM的核心能力。

  2. 指令遵循类:如Flan、NaturalInstructions等,用于测试模型在指令微调后的性能。

  3. 对话类:如CoQA、OpenAssistant等,虽然接近实际应用,但其问题多样性和复杂性仍不足以挑战最新聊天机器人。

此外,当前基准忽略了用户偏好这一重要指标。为弥补这一不足,作者提出了两个新的评估工具,以更好地衡量模型在真实交互中的表现。

2.2 MT-Bench

MT-Bench是一个包含80个高质量多轮问题的基准测试集,专门用于评估模型在多轮对话和指令遵循方面的能力。测试问题覆盖8种常见用户场景:

  • 写作

  • 角色扮演

  • 信息提取

  • 推理

  • 数学

  • 编程

  • 科学技术知识(STEM)

  • 人文社科知识(社会/人文)

每个类别设计了10个手动编写的多轮问题,以挑战模型的综合能力。表1展示了部分示例问题。

2.3 Chatbot Arena

Chatbot Arena是一个众包评估平台,用户可以同时测试两个匿名模型的响应,并投票选出更优的回答。平台运行一个月后,已收集约3万次用户投票。由于不预设问题,Chatbot Arena能够基于用户多样化的兴趣,收集真实场景中的互动数据和偏好反馈。平台界面截图可在附录中找到。

总结

本章提出了两个评估模型实际对话能力的新工具:MT-Bench 提供结构化的多轮问题测试集,而 Chatbot Arena 则通过用户参与的方式收集多样的真实反馈。两者结合,为评估LLM在开放、多轮对话中的综合表现提供了有效手段。

3 LLM as a Judge

本章节主要探讨了将大语言模型(LLM)作为“裁判”(Judge)来评估聊天助手响应质量的可行性与挑战。由于传统人工评估成本高、效率低,且传统自动评估指标(如ROUGE、BLEU)不适用于开放性问题,作者提出使用LLM作为自动评估工具,并分析其优劣与改进方法。

主要内容总结如下:

1. LLM作为裁判的三种形式

  • 成对比较(Pairwise Comparison):给定一个问题和两个回答,LLM判断哪个更好或平局。

  • 单个回答评分(Single Answer Grading):LLM直接对单个回答进行打分。

  • 参考答案引导评分(Reference-guided Grading):在有参考答案时,结合参考答案进行评分。

每种方法各有优缺点:成对比较在评估大量模型时扩展性差;单个评分可能不稳定;参考引导有助于数学题评估。

2. LLM作为裁判的优势

  • 可扩展性:减少人工参与,适合大规模基准测试。

  • 可解释性:LLM不仅输出评分,还能提供解释,提升评估结果的透明度。

3. LLM作为裁判的局限性

  • 位置偏差(Position Bias):LLM倾向于优先选择第一个答案,部分模型还会因命名而偏好特定助手。

  • 冗长偏差(Verbosity Bias):LLM倾向于认为更长的回答更好,即使内容重复或质量不高。

  • 自我偏好(Self-enhancement Bias):一些模型(如Claude-v1、GPT-4)在与自身生成回答对比时可能表现出更高的偏好。

  • 数学与推理题评估能力有限:即使LLM能解答题目,也可能因答案干扰而做出错误判断。

4. 改进方法

  • 交换位置(Swapping Positions):通过多次评估并比较结果,减少位置偏差。

  • Few-shot Judge:提供少量示例,提升LLM对位置偏差的鲁棒性。

  • Chain-of-Thought(CoT)与参考引导(Reference-Guided):在评分前先独立回答问题,再参考答案进行判断,可显著提高数学题评估的准确性。

  • 微调裁判模型:在对抗数据上微调LLM,提升其作为裁判的能力,初步结果显示有潜力。

5. 多轮对话评估(Multi-turn Judge)

  • 在涉及多轮对话的评估中,LLM需理解完整的对话上下文。

  • 如下图所示:在单个提示中呈现两个完整的对话,并要求 LLM 评委专注于第二个问题

    • 这样,一次性完整展示对话能显著提升评估准确性。

    • 将对话分两次评估容易导致上下文混淆

Figure 8:The prompt for multi-turn pairwise comparison.

总结:

本章系统分析了LLM作为评估工具的潜力与挑战,提出了多种LLM裁判形式和改进策略,为替代人工评估提供了可行路径。尽管存在位置偏差、冗长偏好等局限,但通过交换位置、引入参考答案、使用链式思维等方法,可以显著提升LLM作为裁判的可靠性和准确性。作者强调,LLM裁判仍需结合人类评估进行校准,并在数学与推理评估方面仍需进一步研究。

4 Agreement Evaluation

本章节主要探讨了不同大型语言模型(LLM)评判者与人类评判者在 MT-benchChatbot Arena 数据集上的一致性评估,并分析了不同评判方式(如成对比较和单答案评分)的效果。研究还比较了不同模型在不同任务类别中的表现。

主要内容总结如下:

  1. 研究背景与数据集

    • MT-bench:小规模、受控的人类评估数据集,包含80个问题。

    • Chatbot Arena:大规模、众包形式的真实人类评估数据集,包含3万条数据。

    • 两个数据集都用于比较LLM作为评判者的判断与人类的一致性。

  2. 实验设置

    • MT-bench

      • 使用6个模型生成答案:GPT-4、GPT-3.5、Claude-V1、Vicuna-13B、Alpaca-13B、LLaMA-13B。

      • 评判者包括:LLM评判者和58位专家级人类标注者(以研究生为主)。

    • Chatbot Arena

      • 从3万条数据中随机选取3000条单轮投票数据。

      • 评判者包括:LLM评判者和来自2114个不同IP的众包人类评判者。

    • 一致性度量指标定义为:随机选择两个不同类型的评判者,其对同一问题打分一致的概率

  3. GPT-4与人类高度一致

    • 在MT-bench上,GPT-4与人类专家的非平局一致性达到85%,高于人类之间的默契(81%)。

    • 当人类的选择与GPT-4不同时,75% 的人类认为GPT-4的判断合理34% 的人类甚至愿意改变自己的选择,说明GPT-4的评判具有说服力。

    • 在Chatbot Arena中也观察到类似趋势:GPT-4在非平局判断上的数量远高于其他模型,判断更果断,受位置偏差影响较小。

  4. 单答案评分 vs 成对比较

    • GPT-4的单答案评分与成对比较或人类评判结果高度一致,显示出GPT-4内部评估标准的稳定性。

    • 虽然单答案评分有时会给出更多平局结果,但它更具可扩展性,适合大规模评估任务。

  5. 模型对与类别分析

    • GPT-4与人类的一致性随着模型间表现差异的增大而提高,在差异较大的模型对之间,一致性从70%提升到近100%。

    • 不同模型在各类别(如写作、角色扮演、数学、编程)中的表现,GPT-4在绝大多数类别中表现优于其他模型。

  6. 不同评判者的模型胜率

    • LLM评判者的平均胜率曲线与人类评判者高度一致。

    • 在MT-bench中,Claude和GPT-3.5在第二轮中更受人类偏爱,表明多轮任务更能区分模型的高级能力。

    • 在数学和编程类别中,尽管GPT-4和GPT-3.5在某些难题上都失败,但GPT-4在直接对比中仍表现更好。

  7. 模型变体评估

    • 表格中展示了多个模型变体在训练数据、MMLU、TruthfulQA和MT-bench上的表现。

    • GPT-4在MT-bench上的得分为8.99,显著高于其他模型。

总结:

本章节通过系统性的实验分析,验证了GPT-4作为LLM评判者与人类之间具有高度一致性,尤其在模型表现差异较大时表现更优。GPT-4的单答案评分方法在保持一致性的同时,更具可扩展性,适合大规模评估任务。此外,GPT-4在多个任务类别中表现出色,远超其他主流模型。

5 Human Preference Benchmark and Standardized Benchmark

本章探讨了人类偏好基准(如 MT-bench 和 Chatbot Arena)与标准化基准(如 MMLU 和 Truthful QA)在评估大语言模型(LLM)时的互补性与重要性。主要结论如下:

  1. 两种基准的互补性:人类偏好基准关注模型的对话能力和用户偏好,而标准化基准侧重知识、推理等基础能力。作者建议应结合使用这两种基准,以全面评估模型性能。

  2. 实验设置与方法:作者基于 LLaMA 模型的多个变体,在 MMLU 和 Truthful QA 上进行测试,并使用 MT-bench(由 GPT-4 作为裁判)评估对话表现。采用了 GPT-4 单答案评分方法,因其在可扩展性和简洁性方面表现良好。

  3. 实验结果

    • 在高质量对话数据集(如 ShareGPT)上进行微调,能显著提升模型在 MMLU 上的表现,且提升幅度与数据量成正比。

    • 小规模高质量对话数据(如 3K 对话)虽能帮助模型更好地适应 GPT-4 或人类的偏好风格,但对 MMLU 等标准化评估提升有限,说明不同基准关注点不同。

  4. 模型评估的综合性:实验表明,单一基准无法全面反映模型质量,必须通过多维度评估。LLM 作为“裁判”的方法在模拟人类偏好方面表现良好,具有成为未来评估标准的潜力。

  5. 平台与动态数据:作者提出和维护了一个动态更新的模型排行榜,并指出 DynaBench 这类平台在克服静态基准的过拟合和饱和问题上有重要意义。LLM 作为裁判的方法可以为这类平台提供自动化和扩展能力。

总结:本章强调人类偏好与标准化基准的结合评估是全面衡量模型质量的关键。LLM 作为裁判的方法在实际应用中具备高度可行性,有望成为未来模型评估的新标准。

6 Discussion

该章节主要讨论了论文的局限性、数据收集与发布、社会影响以及未来的研究方向:

  1. 局限性:本文强调了聊天助手的“有用性”(helpfulness),但相对忽视了“安全性”和“无害性”(honesty and harmlessness),这些同样是关键指标。作者认为可以通过调整默认提示来评估这些安全相关指标。此外,在“有用性”这一维度下,还包含准确性、相关性和创造性等多个方面,但本文将其简化为单一指标,未来可以进一步将其拆解,以实现更全面的评估。作者也提出了初步方案来应对LLM作为评判者的局限性和偏见,但认为还有更多改进空间。

  2. 数据收集与发布:附录C详细描述了数据收集与发布的过程,包括用户指导、数据收集界面截图、参与用户的背景信息以及发布数据的内容。

  3. 社会影响:本研究对社会具有多方面的影响。其评估方法有助于提升聊天机器人的质量和用户体验,但同时也必须关注其中的偏见问题。所构建的数据集有助于更好地研究人类偏好与模型行为的关系。此外,先进聊天助手可能会替代部分人类工作,带来就业替代和新的就业机会。

  4. 未来方向

    • 扩大聊天机器人的基准测试范围,涵盖更广泛类别;

    • 开发开源的、与人类偏好一致的LLM评判模型;

    • 提升开源模型在数学和推理方面的能力。

7 Conclusion

本文提出了将大语言模型(LLM)作为评估者用于聊天机器人评估的方法,并通过系统性实验验证了其有效性。研究使用了来自58位专家在MT-bench上的偏好数据,以及数千名Chatbot Arena平台用户的反馈数据。研究结果表明,强大的LLM在评估一致性上可以达到80%以上的同意率,与人类专家的判断水平相当,为基于LLM的评估框架奠定了基础。

Appendix A Prompt templates

该章节为附录 A,主要介绍了用于 LLM 评判(judge)的提示模板(prompt templates)。

内容总结如下:

  • 本章节列出了多种用于 LLM 评判任务的提示模板,具体模板包括:

    1. 成对比较的默认提示(见图4):用于比较两个回答的优劣。

    2. 单个回答评分的默认提示(见图5):用于对单个回答进行评分。

    3. 数学与推理问题的链式思维提示(见图6):引导模型进行分步推理。

    4. 参考引导的成对比较提示(见图7):结合参考答案进行成对比较。

    5. 多轮对话的成对比较提示(见图8):用于多轮对话中的回答比较。

    6. 参考引导的多轮单答案评分提示(见图9):结合参考答案对多轮对话中的单个回答进行评分。

  • 提示模板的完整细节可在项目 GitHub 仓库中查阅(https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)。

本附录为 LLM 评判系统提供了多种提示结构,以适应不同任务和场景的需求。

Appendix B Case Study

本附录 B 提供了几个对 GPT-4 作为评估者(LLM judge)表现的案例研究,总结如下:

  1. 位置偏差(Position Bias):当两个助理 A 和 B 的回答位置互换时,GPT-4 对两者的评估发生了变化,显示出位置对判断结果的影响。这一现象也出现在 GPT-3.5 和 Claude 等模型中。

  2. 冗长偏差(Verbosity Bias):通过“重复列表攻击”的实验,发现 GPT-3.5 和 Claude 对更长、重复的回答有偏向性。而 GPT-4 成功识别了这种攻击,显示出更强的识别能力。

  3. 数学题评分能力有限:在使用默认提示词的情况下,GPT-4 在评分数学问题时表现有限,尽管它能自己正确回答问题,但受给定答案影响而出现计算错误。

  4. 推理题评分能力不足:GPT-4 虽然知道如何解决推理题,但在评分时错误地判断两个错误答案为正确,显示出在复杂推理任务中作为评估者的不足。

  5. 思维链提示下的判断错误:在使用“思维链”(Chain-of-Thought)提示时,GPT-4 直接复制了错误答案并据此做出错误判断,说明其独立判断能力仍受给定答案的影响。

  6. 提示设计对判断的影响:当问题被拆分成多个提示时,GPT-4 在定位助手先前回答时出现困难,导致判断错误,显示出当前提示设计对大语言模型评估能力的挑战。

总体而言,这些案例揭示了 GPT-4 作为评估者在处理位置偏差、冗长内容、数学和推理评分、思维链机制以及提示结构等方面仍存在局限性。

Appendix C Data Collection

本节总结了论文附录C中关于数据收集的详细过程,主要包括以下三个部分:


C.1 MT-bench 人工评估

  • 数据收集界面类似 GPT-4 的提示,用户会被展示来自 MT-bench 的问题及两个匿名助手的回答,并要求选择更好者。

  • 用户首先对第一轮对话进行投票,然后是第二轮对话。若用户不确定,可以跳过最多 5 个问题。

  • 对于某些需要推理的问题(如数学题),用户还可以看到参考答案。

  • 如果用户的投票与 GPT-4 的判断不一致,系统会显示 GPT-4 的判断,并要求用户判断其合理性。

  • 参与者需签署同意书,每完成 20 个问题可获得 20 美元,相当于时薪约 35 美元,参与者主要是来自十几所大学的研究生。


C.2 Chatbot Arena

  • Chatbot Arena 是一个免费网站,用户无需注册即可使用。

  • 用户需接受使用条款,以获取参与许可并同意数据的使用。

  • 详细信息和分析可参考其博客:https://lmsys.org/blog/2023-05-03-arena/


C.3 数据发布

  • 在发布数据集之前,会清除所有个人身份信息(PII)。

  • 使用 OpenAI 的内容审核 API 标记有毒对话,以确保数据的安全和合规性。


总结:本节详细介绍了 MT-bench 和 Chatbot Arena 两个平台的数据收集流程、参与者管理方式以及数据发布前的处理措施,强调了数据质量与用户隐私保护。

Appendix D Additional Experimental Results

附录D 补充分析与实验结果总结

D.1 位置偏见(Position Bias)

本节测试了不同提示词(prompt)对LLM作为评判者时位置偏见的影响。主要测试了两种新的提示词:“score”(输出两个绝对评分)和“short”(简化提示词,去掉避免位置偏见的指令)。结果显示:

  • 不同模型对提示词的响应不同。例如,“score”提示词可以提升GPT-3.5的一致性,但会降低Claude-v1和GPT-4的一致性。

  • 位置偏见在开放性问题(如写作、STEM/人文知识)中更为明显,而在数学和编程问题上,LLM评判者更倾向于给出一致但可能错误的判断。

  • 当两个模型性能接近时,位置偏见更显著;当性能差异较大时,偏见几乎消失。

D.2 少样本评判者(Few-shot Judge)

本节研究了少样本示例对LLM评判者一致性的影响:

  • 少样本提示显著提升了所有模型的一致性,尤其是对GPT-4几乎消除了位置偏见。

  • 对于GPT-3.5,少样本提示将偏见从第一个位置转移到第二个位置。

  • 少样本GPT-4的两两比较与人类的判断一致性与零样本GPT-4表现相似,未有明显提升。

D.3 一致性评估(Agreement Evaluation)

本节定义并评估了不同评判者之间的一致性,包括模型之间和模型与人类之间的一致性:

  • 人类之间的一致性可能低估了模型与人类之间的一致性。因此引入了“human-majority”(人类多数票)这一新的评判类型,用于更准确地评估一致性。

  • 表14展示了多个模型(GPT-4、Claude、作者和人类)在不同设置下的一致性结果。结果显示GPT-4与人类之间的较高一致性,尤其是在非平票情况下。

D.4 按类别评分(Category-wise Scores)

本节使用单答案评分方法对6个模型在MT-bench上的表现进行了评估,并在图19中展示了各模型在不同类别上的得分情况:

  • 不同模型在不同任务类别中的表现存在显著差异,例如在写作和推理类任务中表现更好,而在数学或代码类任务中可能较差。

  • 图表展示有助于直观理解模型在各领域的表现优劣,为模型选择和改进提供了参考。

总结

附录D提供了对LLM作为评判者的深入分析,涵盖了位置偏见、提示词影响、少样本提升、一致性评估和类别表现等多个方面。这些补充分析有助于更全面地理解LLM在评判任务中的优势与局限性,并为未来的研究和实践提供了实证支持。

Appendix E Training Details of Vicuna Models

本节主要介绍了 Vicuna 模型的训练细节,总结如下:

  1. 数据来源与清洗

    • Vicuna 是在 LLaMA 基础模型上,通过 fine-tuning ShareGPT 网站上的用户对话数据训练得到的。

    • ShareGPT 是一个用户分享 ChatGPT 对话的平台。

    • 原始数据经过 HTML 转换为 markdown,并过滤掉低质量或不适当的内容,最终得到约 125K 条对话(之前博客中使用的是 70K)。

    • 长对话被分割为适合模型最大上下文长度的小片段。

  2. 数据集构建

    • 基于清洗后的数据,构建了三个不同规模的训练数据集:All(全数据集)、Single(仅包含每条对话的第一轮)、Selected(精选高质量数据集,3K 条)。

    • “Selected” 数据集的构建方式是选取包含至少 3 轮对话且由 GPT-4 生成的内容,并使用聚类算法选出 3K 个中心样本。

  3. 训练配置与环境

    • 所有 Vicuna 模型(7B/13B)使用相同的超参数:全局 batch size 为 128,学习率为 2e-5,训练 3 个 epoch,序列长度为 2048。

    • “Selected” 数据集训练 5 个 epoch。

    • 训练代码基于 Alpaca 项目,并扩展支持多轮对话。

    • 使用 8 块 A100 GPU 进行训练,最长训练时间为约 2 天。

    • 为了节省成本,使用 SkyPilot 管理 spot 实例;为优化内存使用,采用 FlashAttention。

    • 训练代码开源在 https://github.com/lm-sys/FastChat

  4. 数据集统计

    • 给出了 Alpaca、Selected、Single 和 All 四个数据集的统计信息,包括总 token 数、序列数、平均对话轮次和平均响应长度等指标,其中 “Selected” 数据集虽然规模较小,但平均响应长度较长,质量较高。

Appendix F Exploring Vicuna as a judge

本文在附录 F 中探讨了使用开源模型 Vicuna-13B 作为评估模型(LLM-as-a-judge)的潜力,以替代昂贵的闭源模型如 GPT-4。

背景与动机

闭源模型虽然评估性能较好,但成本较高。而 Vicuna-13B 是一个性能较强的开源模型,具备良好的语言理解能力,成本远低于闭源模型。因此,作者尝试探索其在评估中的可行性。

F.1 零样(Zero-Shot)Vicuna

在零样设置下,Vicuna-13B 表现不佳,主要存在两个问题:

  1. 位置偏差(Position Bias):Vicuna 更倾向于选择第一个回答,一致性(Consistency)很低,仅在 11.2% 到 16.2% 之间,远低于闭源模型。

  2. 格式错误率高:因为其指令跟随能力较弱,经常不按预设模板输出结果(如直接输出“Answer A is better than answer B”),导致自动解析困难,错误率高达 22.5% 到 78.8%。

这些缺陷限制了其在自动评估流水线中的实用性。

F.2 精调(Fine-Tuned)Vicuna

为提升 Vicuna 的评估能力,作者使用 Chatbot Arena 中的人类投票数据对其进行精调:

  • 训练数据:从 Arena 中随机采样 22K 条单轮投票数据,涵盖多种模型的输出,训练集 20K,验证集 2K。

  • 任务设定:将问题建模为三分类任务(A 更好、B 更好、平局),避免对输出格式的严格要求。

  • 训练设置:3 个训练轮次,使用余弦学习率调度器,最大学习率为 2e-5。

结果分析

  1. 位置偏差改善显著:一致性从 16.2% 提升到 65.0%,格式错误率降至 0%。

  2. 评估准确率提升

    • 包含平局的准确率为 56.8%,高于随机猜测的 33%。

    • 排除平局后的准确率为 85.5%,接近 GPT-4 的 87%。

整体来看,精调后的 Vicuna-13B 显示出作为低成本评估模型的潜力。

结论

通过精调,Vicuna-13B 的评估性能大幅提升,能够有效地替代昂贵的闭源模型用于自动评估任务。这一结论也得到了其他研究的验证。