2109.07958_TruthfulQA: Measuring How Models Mimic Human Falsehoods

总结

  • 数据集

    • 该研究提出了一项用于评估语言模型在回答问题时是否“真实”的基准测试

    • 该基准包含817个问题,涵盖健康、法律、金融和政治等38个类别

  • 核心贡献

    • 发现模型越大,幻觉越严重

  • 说明

    • 这个数据集有点早了,现在看太简单了(2025-07-22)

LLM 总结

聚焦于评估语言模型在生成文本时是否模仿人类的错误或虚假信息。

总结如下:

该论文介绍了一个名为 TruthfulQA 的基准测试,旨在衡量语言模型在面对可能产生虚假或误导性答案的问题时的表现。作者关注的是模型是否会“模仿”人类常见的错误或有意的不诚实,并在回答中重复这些错误。他们认为,仅仅让模型生成符合语法和逻辑的答案是不够的,还需要确保其内容在现实中是准确诚实的。

为了构建 TruthfulQA 数据集,作者设计了对人类来说具有挑战性的问题,这些问题通常涉及到道德、常识、主观判断或容易被歪曲的历史事实。然后,他们收集了人类生成的“错误答案”作为模型可能生成的答案。通过比较模型给出的答案与这些错误答案的相似程度,评估模型是否倾向于生成虚假或误导性内容。

研究表明,主流的语言模型(包括 GPT-3、DialoGPT、CTRL 等)在 TruthfulQA 上的表现并不理想,它们经常生成与人类类似的错误答案,甚至在某些情况下比随机猜测还差。这表明当前的语言模型在确保内容真实性方面仍存在较大问题,尤其是在缺乏明确事实依据的情况下。

总体而言,这篇文章提出了一个重要的研究方向:语言模型不仅要“聪明”,还要“诚实”。通过 TruthfulQA 这个基准,研究人员可以更好地理解模型生成内容的真实性,并推动未来模型在道德和事实准确性方面的改进。

Abstract

该研究提出了一项用于评估语言模型在回答问题时是否“真实”的基准测试。该基准包含817个问题,涵盖健康、法律、金融和政治等38个类别。这些问题是为了测试人类和模型是否会因为错误信念或误解而给出错误答案。研究者测试了GPT-3、GPT-Neo/J、GPT-2和基于T5的模型。结果显示,表现最好的模型在58%的问题上给出了真实答案,而人类的表现为94%。模型常常生成与常见误解相符的虚假答案,可能误导人类。研究还发现,模型规模越大,真实性反而越低,这与自然语言处理中通常“模型越大性能越好”的趋势不同。研究者认为,这是因为模型只是从训练数据中模仿了错误答案。因此,他们建议单纯扩大模型规模对提升真实性帮助有限,而应通过更精细的训练目标(而非单纯模仿网络文本)进行微调,以提高模型的回答真实性。

1 Introduction

本章主要介绍了一个名为 TruthfulQA 的新基准,用于评估语言模型在生成文本时的“真实性”表现。随着大语言模型(如 GPT-3)被广泛应用于实际场景,其生成虚假陈述的问题引起了广泛关注。作者指出,语言模型生成虚假信息的原因可能包括以下两方面:

  1. 模型未充分学习训练数据分布,例如在数学计算等任务上表现不佳;

  2. 模型的训练目标本身会鼓励生成错误答案,即所谓的“模仿性错误(imitative falsehoods)”,这类错误是模型在模仿训练数据中的常见错误或偏见。

为了解决这些问题,作者提出了 TruthfulQA 基准,该基准包含 817 个问题,覆盖 38 个类别,旨在测试模型在零样本(zero-shot)条件下是否能给出真实的答案。作者指出,当前的问答基准很少涵盖这类问题,因此 TruthfulQA 具有独特价值。

实验结果显示:

  • 当前最先进的模型(如 GPT-3-175B)在 TruthfulQA 上的最高真实回答率仅为 58%,远低于人类的 94%。

  • 模型越大,生成虚假但有信息量的回答的比例反而越高,这种现象称为“逆缩放(inverse scaling)”,与 NLP 任务中通常“越大越好”的趋势相反。

  • 虽然最新模型在 TruthfulQA 上表现有所提升,但与人类相比仍有较大差距。

Figure 3: How GPT-3’s answer changes with model size in a concrete example. The smallest model produces a true but uninformative answer. The intermediate answers are more informative but partly false or exaggerated. The largest model says something literally false, mimicking a human superstition.

此外,作者还提出了一种自动化评估指标,通过微调 GPT-3 来预测人类对答案真实性的判断,准确率高达 90%-96%,为快速、可复现的模型评估提供了便利。

总结:本章通过 TruthfulQA 基准揭示了当前语言模型在生成真实回答方面的不足,指出了模型规模扩大带来的“逆缩放”现象,并提出了有效的评估方法来衡量和改进模型的真实性。

2 The TruthfulQA Benchmark

本章《TruthfulQA基准》主要介绍了TruthfulQA数据集的设计目标、构建过程和验证方法,旨在衡量语言模型在生成答案时的“真实性”(truthfulness)表现。

2.1 定义真实性目标

  • 真实性的定义:TruthfulQA采用严格的标准,一个陈述只有在描述现实世界的字面事实时才被视作真实。那些基于信仰体系或传统(如“天秤座性格友好”)的陈述被认为不真实。

  • 评分方式:模型生成的陈述通过[0,1]的标量分数进行评分,表示其为真的概率。在部分图中会设定阈值,但完整结果以标量形式呈现。

  • 真实性的衡量标准:一个答案被认为是真实的,当且仅当它不包含虚假陈述。模型可以表达不确定、拒绝回答或提供虽然真实但不相关的答案,这些都被认为是“真实”的。

  • 真实与信息量的关系:模型既需真实,也需具有信息量(即减少问题带来的不确定性),这两者分别对应“精确性”和“召回率”的概念。

2.2 构建TruthfulQA

  • 数据集结构:TruthfulQA包含817个问题,专为零样本(zero-shot)设置设计,涵盖38个类别,问题风格多样,旨在测试模型在不同话题下的真实性表现。

  • 问题设计:问题主要为单句结构,平均长度为9个词。每个问题配有真/假参考答案和支持来源(如维基百科页面)。

  • 对抗性构建方法

    1. 首先设计一些人类可能答错的问题,通过测试去除模型能正确回答的问题(过滤集,437个问题)。

    2. 基于测试经验,再设计额外380个问题(未过滤集),这些问题预计人类和模型都会答错。

  • 对抗性目标:测试模型对“模仿性错误”(imitative falsehoods)的抵抗力,即模型可能重复训练数据中出现的伪事实。

2.3 TruthfulQA的验证

  • 外部验证

    1. 两名外部研究人员对100个问题进行真实性判断,7%的问题存在分歧。

    2. 一名参与者在互联网辅助下回答250个问题,6%的答案被判断为错误,该结果也作为人类基线。

  • 分歧分析:6-7%的分歧可能源于时间限制等因素,并不会影响主要结论。

  • 结论:整体数据质量良好,参考答案具有较高一致性,基准模型的性能差异远高于分歧范围。

总结

本章详细介绍了TruthfulQA的构建原理和验证过程,强调其在衡量模型真实性方面的重要性。通过对抗性设计和严格的真实标准,TruthfulQA提供了一个有效的测试平台,用于评估语言模型在生成答案时是否倾向于重复训练数据中的错误信息。

3 Experiments

本章节主要介绍TruthfulQA基准测试中的实验设计与评估方法,以下是内容总结:


3.1 模型与提示词

  • 模型选择:实验评估了四个主要模型家族及其不同规模的变体,包括:

    1. GPT-3:基于过滤后的 Common Crawl 等数据训练。

    2. GPT-Neo/J:与 GPT-3 类似,但使用了不同的训练数据。

    3. GPT-2:基于 WebText 数据训练。

    4. UnifiedQA:基于 T5 的模型,专门微调用于问答任务,具有不同的架构和训练目标。

  • 提示词设计

    • 所有模型均在**零样本(zero-shot)**条件下测试,即不使用 TruthfulQA 中的示例,也不进行梯度更新。

    • 默认提示词(QA prompt)来自 OpenAI API,内容为一般性问答任务,与 TruthfulQA 的问题风格不同。

    • UnifiedQA 模型不需要额外提示,因其已针对问答任务进行微调。

    • 对于 GPT-3-175B,测试了不同提示词,包括鼓励模型更“有帮助”或“有害”的提示。

  • 附加模型:附录中还提供了其他外部模型(如 Anthropic、Gopher、WebGPT、InstructGPT)在 TruthfulQA 中的结果。


3.2 任务与评估方法

  • 主要任务:语言生成任务,模型根据问题生成完整句子的回答。使用贪婪解码(温度为0),其他参数保持默认。

  • 附加任务:多选任务,模型需判断给定参考答案(真或假)的条件概率。通过计算每个答案的条件概率并归一化,得到“真实性分数”。

  • 评估方法

    • 人工评估:评估模型回答的真实性信息量。评分标准为:回答中被人类判定为“真实”或“有信息量”的比例。

    • 自动化评估:提出一个新的自动化指标 GPT-judge,基于 GPT-3-6.7B 微调而成,用于判断答案的真实性与信息量。训练数据包括作者撰写的参考答案以及模型生成答案和人类标注标签。

  • 结果展示:图4展示了生成任务与多选任务下的真实性与信息量对比。结果显示:

    • 在生成任务中,人类基线表现最佳。

    • 在多选任务中,模型表现大多低于随机水平,且模型越大表现越差。

    • GPT-3-175B 在不同提示词(Helpful 和 Harmful)下表现出不同倾向。


总结

本章节详细描述了 TruthfulQA 实验的模型设置、提示词设计和评估方法,旨在衡量大型语言模型在生成回答时是否“模仿人类的错误”或提供“真实且有信息量”的答案。通过人工评估与自动化指标(如 GPT-judge)相结合,为模型的“真实性”提供了全面的评价体系。

4 Results

该论文的 第4章“结果” 对模型与人类在事实性问题上的表现进行了系统评估,并探讨了模型大小、提示策略、虚假回答的成因以及自动化评估方法等关键问题。以下是各节的总结:


4.1 模型与人类在事实性上的对比

  • 人类表现优于模型:人类回答的准确率为94%,其中87%的回答既真实又具有信息性,而最佳模型(GPT-3-175B 加上“有帮助”提示)的真实回答率仅为58%,信息性回答率只有21%。

  • 模型易产生虚假信息:GPT-3-175B 有42%的回答是虚假但有信息性的,相比之下,人类只有6%。

  • 提示词对模型影响大:不同的提示策略显著影响模型的回答真实性,但对信息性影响较小。

  • 分类问题表现差异:模型在几乎所有的类别问题上都比人类更不诚实,尤其在法律、健康等容易误导人的类别中表现更差。


4.2 模型规模越大,真实性反而越差

  • 逆缩放现象:在同一家族中,模型越大,真实回答率反而越低。例如,最大的 GPT-Neo/J 比较小模型真实性低17%。

  • 模型更“聪明”但更“不诚实”:尽管大模型更倾向于生成信息丰富的回答,但它们在事实性判断上表现更差,这表明模型能力提升并未带来事实性的提升。

  • 多选任务也表现欠佳:在多选任务中,大模型同样表现更差,且无模型显著优于随机猜测,说明问题不是评价方法或超参数的问题。

  • UnifiedQA 模型更“老实”但不够“聪明”:该模型在事实性上表现较好,但信息性较差,可能是因其训练目标不同所致。


4.3 结果的解释:虚假回答的成因分析

  • 虚假回答的两种类型

    • 模仿性虚假(Imitative falsehood):模型通过训练学习到了错误的回应方式。

    • 非模仿性虚假(Non-imitative falsehood):由语法或结构问题导致的错误回答。

  • 证据支持模仿性虚假是主要原因

    • 模型家族间类似表现:GPT-Neo/J 与 GPT-3 的逆缩放趋势相似,且后者未经过对抗过滤,说明虚假回答可能是模仿训练导致。

    • 控制实验和同义问题测试:模型在控制问题和同义问题上的表现改善,说明非模仿性虚假不是主要原因。

    • 规模扩大难以显著改善:仅靠扩大模型规模可能无法显著提升事实性,但仍可辅助其他方法如提示工程和微调。

  • 建议的改进方向

    • 利用提示词引导模型更诚实。

    • 通过微调人类反馈强化学习(RLHF)提升模型的诚实性。

    • 结合信息检索,但需防止模型检索不可靠来源。


4.4 自动化评估 vs 人工评估

  • GPT-judge 模型表现良好:该模型通过微调后,可预测人类对回答真实性和信息性的评价,准确率高达90-96%。

  • 泛化能力强:模型能很好地泛化到不同架构和训练方式的模型(如 UnifiedQA)。

  • 预测人类基线表现良好:即使训练数据中未包含人类回答,GPT-judge 仍能以89.5%的准确率预测人类回答的真实性。

  • 自动化评估的前景:GPT-judge 提供了低成本的替代方案,未来可通过增加训练数据或使用更大的模型进一步提升效果。


总结

本章揭示了当前大型语言模型在事实性问题上的不足,指出模型规模扩大并不必然带来事实性提升,甚至可能降低真实性。虚假回答主要归因于训练过程中的“模仿性”错误。通过提示词、微调和反馈机制可改善这一问题。此外,自动化评估方法(如 GPT-judge)已展现出与人类评估相当的能力,为规模化评估提供了可行路径。

5 Discussion

本章节讨论了TruthfulQA测试集的设计目的及其对当前语言模型的挑战。由于TruthfulQA设置的问题结构使得正确答案无法通过标准语言模型的目标(如预测人类文本)得到强化,因此基线模型在该测试中的表现较差并不令人意外。这些模型在训练中并未直接学习如何保持真实性,反而容易重复人类常见的错误或虚假陈述,而TruthfulQA正是用来检测这类问题的。

尽管目前模型尚未具备足够的真实性,但在许多应用场景中,如GPT-3作为基础模型用于下游任务时,真实性是至关重要的。作者认为,TruthfulQA的价值在于提供了一种评估工具,能够测试那些即使在基础模型存在偏差的情况下,仍需保持真实性的模型的行为。

7 Conclusion

本章总结了模型真实性的研究意义和挑战。作者指出,提升模型的真实性是人工智能领域的重要目标,真实模型在医学、法律、科学和工程等领域具有重要价值,而非真实模型可能导致大规模的欺骗和不信任。为此,需要建立衡量真实性的基准和工具。TruthfulQA 专注于评估“模仿性虚假”这一类真实性问题,这些问题无法通过单纯扩大模型规模解决。实验发现,目前的大型模型在零样本设置下比人类更加不真实。虽然在 TruthfulQA 上表现良好不能证明模型在特定领域也真实,但表现差则说明其鲁棒性不足。由于 TruthfulQA 的问题不需要专业知识,且均基于可靠来源,因此其失败案例对机器学习研究者具有较高的可解释性,可作为通用和专用模型的有用基准。

8 Ethics and Impact

本章主要探讨了TruthfulQA测试在伦理和实际影响方面的局限性,以及它是否可能被恶意利用。

首先,TruthfulQA虽然能够测试模型在常见知识问题上的真实性表现,但其测试范围有限,无法涵盖复杂的任务形式,如长文本生成或互动场景,因此不能完全反映模型在现实部署中的真实性水平。

其次,作者指出TruthfulQA不太可能被用于构建具有欺骗性的恶意模型。因为恶意模型需要在大多数情况下保持真实,只在特定场合输出虚假信息,而TruthfulQA的测试要求模型大量输出虚假信息才能获得低分,这与欺骗性模型的需求相悖。

此外,恶意用途通常需要模型生成非常具体且有针对性的虚假陈述,而TruthfulQA的内容只覆盖一般性知识,缺乏这种极端具体性的内容,因此不具备支持恶意模型训练的能力。

总之,本章强调了TruthfulQA在评估模型真实性方面的价值,同时也指出了其局限性,并认为它不太可能被用于构建具有欺骗性的模型。

Appendix A Additional examples from TruthfulQA

本章节为 TruthfulQA 论文的附录 A 内容总结,主要展示了几个附加示例图,用以说明不同语言模型在回答事实性问题时的表现,尤其是其是否模仿人类的错误与误解。以下是具体总结:

  1. 图 5:展示了 GPT-3-175B 模型在 TruthfulQA 任务中的回答、真实参考答案以及相关来源。与论文正文中的示例一致,但增加了真实参考答案和来源链接,便于验证答案的准确性。每个问题在 TruthfulQA 中都包含多个真实和多个虚假参考答案,以评估模型的可信度。

  2. 图 6:展示了使用默认提示(prompt)时,GPT-J-6B 模型对 TruthfulQA 问题的回答。这些示例显示,该模型常常生成模仿人类错误和误解的虚假答案,表明即使是大型语言模型也可能在缺乏正确提示的情况下输出不可靠信息。

  3. 图 7:比较了 GPT-3 模型在不同规模下的回答真实性。结果显示,随着模型规模增大,其答案的“真实性”反而可能下降。图中使用 “[T/F]” 标记人类评估的答案是否为真(True)或假(False)。虽然人类评估使用的是连续真实性分数(可衡量部分正确性),但图中简化为二元真假表示,更清晰地展示了模型规模与答案可信度的关系。

总体总结:附录 A 通过多个图示,补充说明了 TruthfulQA 数据集中模型的表现差异,揭示了模型规模、提示方式与输出真实性之间的复杂关系,并强调了当前语言模型在事实性问题上仍存在模仿人类误解的风险。

Appendix B Additional results

总结:附录B 内容概述

附录B主要补充了论文中关于TruthfulQA基准测试的额外实验结果,重点包括以下几个方面:


B.1 自动评估指标与人类评估的对比

  • 由于人类评估成本高且难以复制,作者提出了一种新的自动评估指标 GPT-judge,基于 GPT-3-6.7B 微调,用于判断模型在 TruthfulQA 上输出答案的“真假”。

  • GPT-judge 的训练数据包括:

    • 6.9k 个来自 TruthfulQA 的标注数据(真假参考答案);

    • 15.5k 个由模型生成的答案与人类评估的标签组成。

  • GPT-judge 在多个模型上表现出色,准确率较高,且能保持模型间的排名顺序。它优于 ROUGE1、BLEURT 等传统指标。

  • 作者还微调了一个模型 GPT-info 用于评估答案的“信息量”(informativeness)。

  • GPT-judge 也有局限性,例如对长答案、含糊或混合真伪的陈述处理不佳,容易偏向于将长答案判为“信息量高”。


B.2 各模型在TruthfulQA上的真理性与信息量表现

  • 提供了各种模型在 TruthfulQA 上的详细评估结果,包括:

    • Truth Score(真实性得分):平均标量真值评分;

    • Truth*Info Score(真理性与信息量综合得分);

    • %True%Info%True+Info:阈值化后的真实/信息/同时真实且信息的答案比例;

    • %True (GPT-judge):基于自动指标 GPT-judge 的真实答案比例;

    • Truth Score (Unfiltered):基于未过滤问题的真实得分。

  • 结果显示,更大的模型在 TruthfulQA 上表现更好,但与人类水平仍有较大差距。


B.3 新语言模型在TruthfulQA上的表现

  • 评估了几个较新的语言模型在 TruthfulQA 上的表现:

    • Anthropic:通过上下文蒸馏等技术,提升回答的真实性;

    • InstructGPT:基于 GPT-3,通过人类偏好微调;

    • WebGPT:结合网络浏览器进行信息检索;

    • Gopher:大规模高质量数据预训练。

  • 这些模型在 TruthfulQA 上表现优于原始 GPT-3,但仍未达到人类水平。

  • 模型性能随着参数规模增加而提升,但提升速度缓慢,例如 InstructGPT 即使有 10^20 参数,也只能达到 48% 的得分(远低于人类 95%)。


B.4 对抗过滤与未过滤问题的比较

  • TruthfulQA 包含两组问题:

    • 对抗过滤问题集(437个):由 GPT-3-175B 预测生成,更具挑战性;

    • 未过滤问题集(380个):较为简单。

  • 分别对这两组问题评估模型表现,结果显示模型在对抗过滤问题上的表现明显低于未过滤问题。


B.5 按问题类别划分的模型表现

  • 根据问题的类别(如 Misconceptions、Fiction、Myths、Subjective 等)进行分析:

    • 模型在“实用类”问题上表现更贴近人类,而在“非实用类”问题(如虚构、谚语)上表现较差;

    • 作者将类别分为“Practical”和“Non-practical”,结果表明模型在“实用”类问题上更有可能误导用户;

    • 所有测试模型在五个最大的类别中的平均真实度均低于人类水平。


总体评价:

  • GPT-judge 是一个有效的自动评估工具,在 TruthfulQA 上表现良好,但不能完全替代人类评估;

  • 更大模型和新训练技术(如信息检索、提示工程、微调)有助于提升模型在 TruthfulQA 上的表现;

  • TruthfulQA 作为评估语言模型生成真实性与信息量的基准,仍具有挑战性,当前最先进的模型仍未达到人类水平;

  • 模型在某些类别(尤其是非实用类)中容易产生误导性回答,显示了当前语言模型在真实性控制方面的局限。

B.6 Performance of GPT-3-175B under different prompts

本章节主要探讨了GPT-3-175B模型在不同提示(prompt)下的表现、不同模型在真实性上的分布情况、温度参数对模型输出的影响,以及对原始问题进行改写(paraphrasing)后模型表现的稳定性。

总结内容如下:

B.6 不同提示下的GPT-3-175B表现

  • 模型在不同提示下的回答存在显著差异。

  • 比较了“QA”(默认)、“help”(有益)、“harm”(有害)、“null”(无提示)、“chat”(对话模式)、“long-form”(长文模式)等提示效果。

  • 图16展示了不同提示下GPT-3的回答差异:长文模式下模型像写博客一样回答;有益提示要求模型回答真实;有害提示则模拟阴谋论风格。

  • 附录中提供了所有提示的完整文本。

B.7 不同模型在真实性上的分布

  • 使用表格和直方图展示了19个模型(14种架构+GPT-3的5种提示)在每道题上的回答类型分布。

  • 模型回答可分为“真实”、“真实/信息丰富”、“虚假/信息丰富”三类。

  • 超过80%的问题中,至少一半的模型输出的是“虚假但信息丰富”的答案。

  • 表5和图17、18展示了各问题中真实和虚假模型数量的分布情况。

B.8 更高的采样温度(Temperature)

  • 高温度参数通常用于生成更长、更自然的文本。

  • 实验显示,即使提高温度,GPT-3在不同模型规模和提示下的表现趋势并未发生显著变化。

  • 使用“Best of 20”和“Sample”两种采样方式,结果趋势一致,模型越大表现越差。

B.9 问题改写(Paraphrased Questions)

  • 使用GPT-judge自动评估模型在改写问题上的真实性表现。

  • 改写后的问题与原问题在模型评分上的排名和绝对值高度一致。

  • 表6展示了几个改写问题的示例,GPT-3在原问题和改写问题上都产生了类似的模仿性错误(imitative falsehoods)。

  • 改写由基于PEGASUS模型自动生成,并人工筛选确保语义不变。

结论:

  • 不同提示和参数设置对模型生成内容的真实性和风格有明显影响。

  • 尽管模型规模增大,但在处理复杂问题时,模型仍倾向于生成“虚假但信息丰富”的答案。

  • 模型在面对问题改写时,其输出的一致性表明其对问题语义的理解有限,容易复制训练数据中的错误信息。

Appendix C Dataset construction

章节内容总结:

本章主要介绍了 TruthfulQA 数据集的构建方法,包括参考答案的生成方式和控制问题的设计。

1. 参考答案的构建(C.1 Reference answers)

  • 真答案:从维基百科或其他可信来源中提取正确答案,并补充多种常见变体,以覆盖不同层次的精确性。例如,关于“沃尔特·迪士尼的遗体在哪里”的问题,提供了多个语义相似但精确度不同的答案。

  • 假答案:通过搜索网络上的常见误解、迷信或阴谋论来生成虚假答案,以增加多样性。例如,关于沃尔特·迪士尼的遗体,假答案包括“他的遗体被冷冻”或“埋在迪士尼乐园下面”。

  • 局限性:尽管努力覆盖真假答案,但无法涵盖模型可能生成的所有答案,尤其是小模型生成的无关联答案。但预计随着模型规模和能力的提升,这一问题会逐步减少。

2. 控制问题(C.2 Control questions)

  • 通过修改 TruthfulQA 中的问题中的 1-3 个词,生成新的控制问题,使其成为常见的事实性或常识性问题。例如,将“fortune cookies”改为“chocolate chip cookies”。

  • 控制问题的目的是测试模型是否在回答这些问题时表现出与原始 TruthfulQA 问题类似的错误。结果显示,GPT-3 在控制问题上的表现良好,说明它在处理常见问题时并未表现出类似原始问题中的非模仿性弱点。

总结:本章展示了 TruthfulQA 数据集在构建过程中如何兼顾真假答案的多样性,并通过控制问题验证模型在面对不同类型问题时的表现,为评估模型的诚实性和准确性提供了方法支持。

Appendix D Human evaluations

本节主要介绍了用于评估模型输出答案的人工评估方法,目的是使评估过程尽可能客观、可重复。评估主要从**真实性(truthfulness)信息量(informativeness)**两个维度进行,并通过多级标签系统提高评估的一致性和可解释性。以下是主要内容总结:


评估方法的主要特点:

  1. 评估者匿名:评估者不知道答案是由哪个模型或提示生成的,以减少偏见。

  2. 定性标签系统:评估者不直接打分,而是从13个定性标签中选择一个,每个标签对应一个固定的分数。例如,“mostly true”对应0.9,“false”对应0.0。这种方式增强了评估的可解释性和一致性。

  3. 二分类阈值处理:将连续的真值分数通过0.5的阈值划分为“真实”或“不真实”,以简化评估结果并提高一致性。

  4. 引用来源验证:对于约80%的答案,评估者可以参考已有引用答案及其来源。约19%的答案是无意义或矛盾的,无需来源验证,其余则通过权威网站(如Wikipedia)查找支持信息。

  5. 信息量评估:同样采用13个标签系统评估答案的信息量,每个标签也对应一个评分,从而量化答案在信息完整性和相关性方面的表现。


评估标签与示例(部分)

真实性评估标签(Truthfulness):

  • True (1.0):答案完全正确。

  • Mostly true (0.9):答案大部分正确,有小错误。

  • Mixed true/false (0.1):答案既有事实也有错误。

  • False (0.0):答案完全错误。

  • Contradiction (0.49):答案自相矛盾。

  • Qualified lie (0.2):答案表面上看似有道理,但实际是错误的。

信息量评估标签(Informativeness):

  • Full answer (1.0):答案完整且直接回答了问题。

  • Partial answer (0.7):部分相关信息,但不够完整。

  • Related answer (0.5):与问题有关,但答非所问。

  • Irrelevant (0.0):答案与问题无关。

  • Qualified (0.7):答案有一定背景信息但不明确。


总结

本节设计了一套系统化的人工评估流程,通过匿名评估、标签系统、来源验证等手段,提高了评估的客观性与一致性。通过将定性判断转化为量化分数,评估者可以更高效地参与,并减少主观偏差。此方法不仅适用于真实性评估,也适用于信息量评估,为后续模型效果的衡量提供了可靠依据。

Appendix E Prompts

以下是对所提供论文章节内容的总结:

该章节附录E主要展示了不同类型的“提示”(Prompts),用于引导AI或模型生成不同风格的回答。这些提示被分为几种类别,并展示在表格中,每种类型代表一种特定的交互方式或语言风格:

  1. 问答型提示(QA prompt):以问答形式展示,内容涵盖事实性问题,如美国人类平均寿命、1955年美国总统及其所属政党等。回答简明准确,对于无法回答的问题(如“香蕉的平方根是什么?”)使用“我无评论”作为回应。

  2. 有害型提示(Harmful prompt):此提示包含一些传播错误信息或阴谋论的内容,如将某些政治人物描述为“人类的主要敌人”,或虚构“风暴”事件。此外,还提供了一种非科学的缓解情绪的方法(如能量治疗、占星术等),该提示被认为可能具有误导性。

  3. 有益型提示(Helpful prompt):与QA提示类似,但加入了更具体的指导原则,如要求将问题字面理解、基于现实世界进行严格的调查、避免常见误解,并在不确定答案时回答“我无评论”。回答风格严谨、基于事实。

  4. 聊天型提示(Chat prompt):模拟一种非正式的在线交流场景,由两个用户(Sam4621和Alex1083)进行简短对话,其中一方提出问题,另一方准备回答。这种提示更注重对话的自然性和互动性。

  5. 长文本型提示(Long-form prompt):模拟一个博客平台的风格,由用户Alex9137发布一篇博客文章,文章中提出问题并准备给出详细的回答。该提示鼓励生成较长的、有条理的书面内容。

总体来看,这些提示展示了不同场景下AI生成内容的多样性,从严谨的问答到非正式的对话,再到长篇博客形式,反映了在不同任务中对语言风格和输出形式的不同需求。同时,有害型提示也提醒人们注意AI生成内容的潜在风险与误导性。

Appendix F Checking for data quality and disagreement

本附录(F节)旨在评估 TruthfulQA 问答数据集中参考答案的准确性和可能存在的分歧。作者通过两种方式收集了数据以验证其标注的可靠性:

  1. 招募验证者(Validator):验证者被指派检查100个问题的参考答案,决定哪一个是“真实”的答案。验证者的标注与作者的标注在7%的问题上存在差异。其中,约3-4%是隐含的分歧,而其余可能是验证者由于时间限制(每题不到2分钟)所犯的错误。此外,验证者在6%的问题上明确指出存在分歧或模糊性。

  2. 招募参与者(Participant):参与者作为人类基线回答了250个随机问题。他们的答案中有6%被作者标记为“错误”,其中约2%属于对标注的不满,其余则可能是参与者本身的错误。同样,参与者的时间限制也导致了错误的可能性。

根据这些数据,作者修改了43个问题(占总数的5.3%),以减少歧义。如果不考虑这些改动,作者估计约有2-6%的读者会与他们的标注产生分歧。由于 TruthfulQA 包含了日常对话中常见的一些非正式和模糊问题,作者认为实现极低的分歧率(如低于0.5%)可能并不现实。

最后,作者指出,如果模型在 TruthfulQA 上的表现差异非常小,这种差异可能更多是由于评价标准的分歧,而非模型本身在真实性方面的差异。