2009.01325_Learning to summarize from human feedback¶

首页: https://arxiv.org/abs/2009.01325
PDF: https://arxiv.org/pdf/2009.01325
引用: 3058(2025-12-14)
组织:

From Moonlight¶

三句摘要¶

📝 本文提出了一种利用人类反馈显著提升抽象式摘要模型质量的方法，通过收集人类对摘要对的偏好比较数据，训练一个奖励模型（RM）来预测人类偏好，然后使用该RM作为强化学习（PPO）的奖励函数来微调语言模型。
📈 实验结果表明，在Reddit TL;DR数据集上，经人类反馈训练的模型显著优于更大的仅通过监督学习训练的模型，且其摘要被人类偏好度超过原始数据集中的人工摘要。
🌍 该方法在CNN/DailyMail新闻文章摘要任务上展现出强大的泛化能力，未经新闻特定微调的模型表现几乎与数据集的人工参考摘要质量相当，同时证实了奖励模型在预测人类偏好方面优于传统指标ROUGE，并且优化奖励模型比优化ROUGE能产生更高质量的摘要。

关键词¶

TL;DR 数据集: 该数据集源自 Reddit 网站，包含数百万篇帖子及其由原帖作者撰写的摘要（TL;DRs）。论文中使用了经过过滤的版本，确保摘要长度在24至48个token之间，并排除了不适合一般人群的子版块内容，最终包含约12.3万篇帖子。该数据集被用作训练模型进行Reddit帖子摘要的主要语料库。
CNN/DM 数据集: 这是一个包含新闻文章及其摘要的常用数据集。论文中，该数据集主要被用来评估在TL;DR数据集上训练出的模型在新领域（新闻摘要）上的迁移能力。
Transformer: 这是一种基于自注意力机制的深度学习模型架构，由Vaswani等人于2017年提出。它在自然语言处理领域取得了巨大成功，是现代大型语言模型（如GPT系列）的基础。本文中使用的模型，包括预训练模型、奖励模型和策略模型，均采用了Transformer架构。
GPT-3: 指的是OpenAI开发的一系列大型语言模型（Language Models），以其巨大的参数规模（如6.7B，即67亿参数）和强大的语言理解及生成能力而闻名。本文中的模型基于GPT-3的架构风格，并利用了其强大的预训练能力。
预训练: 指在海量文本数据上对大型语言模型进行初始化训练的过程。在此阶段，模型学习语言的通用模式、语法和知识。本文的模型首先在包含Commoncrawl、Webtext、书籍和维基百科等的大规模语料库上进行预训练。
微调: 指在预训练模型的基础上，使用特定任务的数据集对其进行进一步训练，以使其适应该任务。本文中，模型首先在TL;DR数据集上通过监督学习进行微调，然后通过强化学习进一步优化。
强化学习: 一种机器学习范式，其中智能体（Agent）通过与环境互动，根据接收到的奖励信号来学习如何采取行动以最大化累积奖励。在本研究中，强化学习被用来微调摘要模型，使其生成的摘要更能符合人类的偏好。
奖励模型: 一个模型，它学习预测人类对给定文本（在此即摘要）的偏好程度。本文通过人类对两份摘要进行比较的数据集来训练这个模型。一旦训练好，奖励模型就可以为任何给定的文本生成一个分数，这个分数代表了人类可能有多喜欢这份文本。
人类反馈: 指直接来自人类用户的评价或偏好信息。在本研究中，人类反馈通过让标注员比较两篇摘要的好坏来收集，用于训练奖励模型，并最终指导摘要生成策略的优化。
监督学习: 一种机器学习方法，模型通过学习已标记的数据集（输入-输出对）来预测输出。在本文中，监督学习常用于初始化模型或作为基线，即直接让模型学习如何模仿人类写的参考摘要。
最大似然估计: 监督学习中常用的目标函数，旨在最大化观测数据的概率。具体到文本生成任务，就是最大化生成人类参考摘要的概率。论文指出，这种方法存在“曝光偏差”（Exposure Bias）等问题，且不直接优化人类关心的“质量”。
ROUGE: 自动评估文本摘要质量的指标，主要计算模型生成的摘要与参考摘要之间n-gram的重叠度。尽管广泛使用，论文指出ROUGE分数与人类判断的相关性较差，并且过度优化ROUGE可能导致摘要质量下降。
PPO: Proximal Policy Optimization（近端策略优化）是一种策略梯度强化学习算法。它通过在每次策略更新时，确保新策略不会与旧策略差异过大，从而实现更稳定和高效的训练。本文使用PPO来优化摘要策略，使其最大化奖励模型给出的分数。
KL散度: Kullback-Leibler Divergence（KL散度）衡量两个概率分布之间的差异。在本研究中，它被用作强化学习训练中的一个正则化项，旨在惩罚生成的摘要（策略）与初始监督学习模型产生的摘要分布之间过大的差异，以保持模型的稳定性和多样性。
抽象文本摘要: 指生成新的句子来概括原文内容，而不是简单地从原文中抽取句子。这种摘要方式更具灵活性，但对模型的要求更高。本文关注的是抽象文本摘要任务。
语言模型: 一种能够预测文本序列中下一个词（或token）的概率分布的模型。大型语言模型（LLMs）如GPT-3，在大量文本上进行预训练后，展现出强大的文本生成能力，并可被微调以执行特定任务。
摘要质量: 指摘要的优劣程度，包括其准确性、覆盖度、流畅性、连贯性等。论文指出，传统的ROUGE等自动指标不能很好地捕捉人类对摘要质量的真实判断，因此提出了使用人类反馈来优化摘要质量。
偏好学习: 指通过学习人类对不同选项的偏好来训练模型。在本研究中，人类对摘要的比较结果被用作偏好数据，用于训练奖励模型，并驱动摘要生成策略的优化。
Likert量表: 一种用于衡量态度或意见的量表，通常由一系列描述不同程度的陈述组成，受访者选择最符合其观点的陈述。本文使用7点Likert量表让标注员从覆盖度、准确性、连贯性和整体质量四个维度对摘要进行评分。
最佳-N采样: Best-of-N sampling（BoN）是一种不依赖于强化学习的优化摘要策略的方法。它从一个基础模型（通常是监督模型）中采样N个不同的摘要，然后使用奖励模型对这N个摘要进行评分，并选择评分最高的摘要作为最终输出。这种方法可以看作是奖励模型优化的一种简单形式。

摘要¶

该论文提出了一种通过人类反馈（Human Feedback, HF）训练语言模型生成摘要的方法，以解决传统监督学习（Supervised Learning, SL）中训练目标（最大化人类文本似然）与实际期望的摘要质量（人类偏好）之间的不匹配问题。作者认为，现有的自动评估指标如ROUGE与人类判断的相关性较差。

核心方法论（Core Methodology）

该方法受[73]的启发，并适应于批处理（batch setting）模式，主要包括以下三个可迭代的步骤：

收集人类反馈（Collect Human Feedback）：
- 从Reddit TL;DR数据集中采样Reddit帖子，并从不同策略（当前策略、初始策略、原始参考摘要及各种基线模型）中采样生成摘要。
- 将摘要对（pairs of summaries）发送给人类评估者，评估者根据给定帖子选择更好的摘要。
- 为了确保高质量的人类数据，作者采取了严格的程序，包括：研究员先自行评估以理解任务，详细的标注者入职培训（包括即时反馈校准），构建自定义标注网站，以及持续监控标注者-研究员之间的一致性（agreement rates）。最终，标注者与研究员的一致性达到77%±2%，研究员之间的一致性为73%±4%。
- 数据集包含了64,832个人类对TL;DR摘要的比较。
训练奖励模型（Train Reward Model, RM）：
- RM是一个Transformer解码器（Transformer decoder），其结构风格类似于GPT-3，参数量为1.3亿（1.3B）和6.7亿（6.7B）。
- RM以帖子（post）$x$和候选摘要$y$作为输入，输出一个标量值$r_\theta(x, y)$。
- 训练RM的目标是预测人类更偏好哪个摘要。如果人类偏好摘要$y_i$，则损失函数为： $$ \text{loss}(r_\theta) = -\mathbb{E}_{(x,y_0,y_1,i)\sim D} \left[ \log(\sigma(r_\theta(x, y_i) - r_\theta(x, y_{1-i}))) \right] $$ 其中，$D$是人类判断数据集，$\sigma$是Sigmoid函数。
- RM的初始化是基于一个已训练好的监督基线模型，并在其之上添加一个随机初始化的线性输出头。RM训练一个epoch，学习率采用余弦衰减（cosine schedule）。
- 训练结束时，RM的输出会进行归一化，使得数据集中参考摘要的平均得分接近0。
使用强化学习（Reinforcement Learning, RL）优化策略（Optimize Policy with RL）：
- 摘要生成策略模型（policy）同样是一个Transformer解码器，初始化为在TL;DR数据集上通过监督学习（SL）微调过的模型。
- RM的输出被视为整个摘要的奖励，用于通过近端策略优化（Proximal Policy Optimization, PPO）算法[58]来最大化策略得分。每个时间步对应一个BPE token。
- 完整的奖励函数$R(x, y)$包含了RM的得分和与初始监督微调策略$\pi_{\text{SFT}}$之间的KL散度惩罚项： $$ R(x, y) = r_\theta(x, y) - \beta \log\left[\frac{\pi_{\text{RL}}^\phi(y|x)}{\pi_{\text{SFT}}(y|x)}\right] $$ 其中，$\beta$是KL散度系数。这个KL项既作为熵奖励鼓励探索，也确保策略不会偏离RM训练时所见的摘要分布太远。
- PPO的价值函数（value function）使用独立的Transformer网络，以避免在训练早期破坏预训练策略。价值函数初始化为奖励模型的参数。

实验结果与分析

Reddit TL;DR数据集上的性能：与仅通过监督学习训练的基线模型相比，通过人类反馈训练的策略显著优于这些基线。例如，1.3B参数的HF模型在人类偏好方面显著优于10倍大小的监督模型（61% vs 43%）。6.7B参数的HF模型进一步优于1.3B模型，表明该方法受益于模型规模的增大。HF模型的摘要甚至比数据集中原始人类撰写的参考摘要更受偏好。论文还通过控制摘要长度（length-controlled analysis）证实了HF模型的优势并非简单归因于生成更长的摘要。在召回率（coverage）方面，HF模型表现尤为突出，但在连贯性（coherence）、准确性（accuracy）和整体质量（overall quality）等维度也全面超越监督基线。
向新闻文章的迁移能力（Transfer to CNN/DM）：在未经任何特定新闻领域微调的情况下，Reddit上训练的HF模型在CNN/DailyMail数据集上也能生成高质量的摘要。这些模型的性能几乎与专门在CNN/DM上微调的6.7B监督模型相匹配，尽管其生成的摘要平均长度更短。这表明HF模型具有出色的领域泛化能力。
奖励模型分析（Understanding the Reward Model）：
- 优化过程：奖励模型的优化过程并非一蹴而就。过度优化（over-optimization）可能导致奖励模型与人类偏好之间的反相关性，类似ROUGE。但在适度优化下，RM能有效提升摘要质量。
- 规模效应：通过消融实验（ablation study）表明，训练数据的增加（如翻倍）能使RM验证集准确率提升约1.1%，而模型规模的增加（如翻倍）则能带来约1.8%的提升。6.7B的RM在所有数据上训练后，其准确率接近单个研究员的判断水平。
- 学习能力：RM能够泛化到评估CNN/DM摘要，并能区分摘要中细微但语义重要的细节（例如，通过最小编辑或角色反转的摘要）。然而，RM对较长摘要存在偏好偏差。
自动评估指标的对比（Analyzing Automatic Metrics）：
- RM在预测人类偏好方面始终优于ROUGE、摘要长度、复制量（copying）以及监督模型的log probability等传统自动指标，即使在未曾训练过的CNN/DM数据集上也是如此。
- ROUGE无法有效地跟踪样本质量的提升：当模型改进时，ROUGE与人类判断的一致性会下降。相比之下，当模型改进时，RM仍然表现良好。
- 图7展示了通过“best-of-N”拒绝采样（rejection sampling）优化不同指标的效果，结果表明优化RM能够比优化ROUGE带来更高的摘要质量。

讨论

局限性：该方法的时间和计算成本较高，例如6.7B模型的RL微调需要约320个GPU-天。人类数据收集也耗费了大量标注者时间和研究员投入，这限制了进行同等高质量人类演示数据收集以训练监督基线的可能性。
未来方向：该方法可应用于人类能比较样本的任何任务，尤其适用于生成长文本样本。研究团队对扩展到人类难以评估输出质量的任务感兴趣。此外，还可以探索除二元比较之外的其他人类反馈形式，如高质量演示、模型输出编辑或提供偏好解释，以进一步提升奖励模型和策略的性能。
社会影响：该技术有望提高AI系统与人类意图的对齐，避免因优化粗略指标而导致的负面后果（如推荐系统中的“点击诱饵”）。然而，也存在被恶意利用的风险，例如用于操纵人类信念或生成有害内容。作者强调在更复杂的任务中，需要让受技术影响的群体参与定义“良好”模型行为。Reddit TL;DR数据集包含未经审查的用户提交内容，可能导致模型生成有偏见或攻击性的摘要，因此在面向用户的应用中需谨慎。最后，该技术可能导致自动化程度提高，从而引发失业等社会问题。

Abstract¶

本节为论文的摘要部分，概述了研究的背景、方法、成果以及意义。

研究背景¶

随着语言模型能力的提升，训练和评估模型的瓶颈逐渐转移到了任务所使用的数据和评估指标上。以摘要任务为例，当前模型通常通过预测人工参考摘要进行训练，并使用ROUGE等自动指标进行评估，但这些指标并不能很好地反映摘要的真实质量。

研究方法¶

为了解决这一问题，作者提出了一种基于人类偏好的训练方法：

收集了一个大规模、高质量的人类对摘要的比较数据集；
训练一个模型来预测哪篇摘要更受人类喜爱（即奖励模型）；
利用该奖励模型，通过强化学习对摘要模型进行微调。

研究成果¶

该方法应用于Reddit的TL;DR摘要数据集，结果显示：
- 模型表现显著优于人工参考摘要；
- 同时也优于仅使用监督学习微调的更大模型；
模型还具有良好的泛化能力，在未进行新闻数据微调的情况下，对CNN/DM新闻数据的摘要质量接近人工参考水平。

分析与验证¶

对奖励模型和微调模型进行了深入分析，验证了：
- 奖励模型在新数据集上具有良好的泛化能力；
- 优化奖励模型比优化ROUGE更能提升摘要质量（由人类评估）。

研究意义¶

作者希望本研究能促使机器学习研究者更加关注训练目标（损失函数）与模型实际行为之间的关系，从而提升模型在真实应用场景中的表现。

重点内容：基于人类偏好的训练显著提升了摘要质量，并优于传统方法；模型具有良好的泛化能力；奖励模型比ROUGE更符合人类评价标准。
次要内容：模型样本、代码、数据集的公开信息（如网站链接、GitHub地址）仅作简要提及。

1 Introduction¶

背景与问题¶

大规模语言模型的预训练已成为提升自然语言处理（NLP）任务性能的重要手段。通常，这些模型在具体任务上通过监督学习进行微调，目标是最大化人类示范文本的对数概率。然而，这种微调目标与我们真正关心的——生成高质量输出——之间存在不一致。

这种不一致主要体现在：

最大似然目标无法区分重要错误（如编造事实）和次要错误（如同义词选择）；
模型被激励为所有人类示范分配概率，包括低质量样本；
采样过程中的分布偏移可能降低性能。

虽然非均匀采样策略（如束搜索）可以显著提升质量，但也可能带来重复等不良效果。因此，以质量为导向的优化可能是更合理的方法。

研究目标与任务选择¶

本文旨在推进更贴近人类期望行为的训练方法。为实现短期进展，研究聚焦于抽象式英文文本摘要生成，因其具有长期研究基础，且属于主观任务，难以通过自动指标准确评估质量。现有自动评估指标（如ROUGE）与人类判断的相关性较差。

方法概述¶

研究方法借鉴了[3, 73]的工作，通过人类反馈进行奖励学习，具体步骤如下：

收集人类对摘要对的偏好数据；
通过监督学习训练奖励模型（RM），预测人类偏好；
使用强化学习（RL）训练策略模型，最大化RM评分，采用PPO算法；
利用策略模型生成新样本，继续收集人类反馈，形成迭代闭环。

模型基于GPT-3预训练模型，最大参数量达67亿。

主要贡献¶

（1）人类反馈训练显著优于强基线¶

在Reddit TL;DR数据集上，通过人类反馈训练的策略模型生成的摘要优于更大规模的监督训练模型。人类标注者更倾向于选择人类反馈模型生成的摘要，而非原始人类示范（见图1）。

（2）人类反馈模型具有更好的跨域泛化能力¶

在未进行新闻领域微调的情况下，Reddit训练的模型在CNN/DM新闻数据集上生成高质量摘要，接近参考摘要质量。通过标注者一致性监控和避免优化简单指标（如长度、复制率）验证了结果的可靠性。

（3）对策略模型与奖励模型的深入分析¶

分析模型与数据规模的影响；
研究持续优化奖励模型的效果；
使用合成与人工扰动摘要分析奖励模型表现；
验证奖励模型在预测人类偏好方面优于ROUGE；
直接优化奖励模型生成的摘要质量优于优化ROUGE。

（4）公开发布人类反馈数据集¶

发布包含64,832条摘要对比的数据集，涵盖TL;DR和CNN/DM两个数据集，包括对比数据和Likert评分数据，供后续研究使用。

长期意义¶

本文方法部分源于对AI系统与人类期望不一致的长期担忧。虽然当前摘要模型的错误风险较低且易于识别，但随着AI系统承担更关键任务，其错误可能变得更为隐蔽且关乎安全，因此该方向值得进一步研究。

3 Method and experiment details¶

3.1 高层方法论（High-level methodology）¶

本研究方法借鉴自[[73]]，但适用于批量设置。整体流程分为三步，可迭代进行：

收集样本并获取人类比较结果：从多个策略（当前策略、初始策略、参考摘要、基线模型）中采样摘要，发送成对摘要供人类评估者选择更优摘要。
从人类比较中训练奖励模型：训练模型预测人类更偏好的摘要，输出为log odds。
使用奖励模型优化策略：将奖励模型的logit输出作为强化学习（PPO算法）的奖励，优化生成策略。

实际操作中并非严格迭代，而是持续更新数据收集和训练流程（详见附录C.6）。

3.2 数据集与任务¶

数据集（Datasets）¶

使用Reddit的TL;DR摘要数据集，包含约300万条帖子，经过过滤后保留123,169条，其中5%作为验证集。
过滤标准包括：使用通用子版块（subreddits）白名单、限制摘要长度在24~48 token之间，以减少长度对质量评估的影响（详见4.1节与附录F）。
选择TL;DR而非CNN/DM数据集，是因为CNN/DM的参考摘要质量较低，简单抽取式方法即可超越（详见4.2节与附录E、G.2）。

任务（Task）¶

目标是生成长度小于48 token的高质量摘要，依据人类判断。
通过人类评估摘要是否忠实传达原帖内容（详见附录C.5）。
由于评估能力有限，雇佣标注员进行比较判断，并通过详细流程确保评估一致性。

3.3 收集人类反馈（Collecting human feedback）¶

相比[[73]]，本研究做了两项改进以提升人类数据质量：
1. 采用离线设置：批量发送比较任务，定期重新训练模型。
2. 与标注员保持密切互动：提供详细培训、实时答疑、持续反馈，确保标注员与研究人员判断一致。
结果：标注员与研究人员的判断一致率为77% ± 2%，研究人员之间为73% ± 4%（详见附录C.1、C.2、C.5）。

3.4 模型（Models）¶

所有模型为Transformer解码器，类似GPT-3，参数规模为1.3B和6.7B。

预训练模型（Pretrained models）¶

使用大规模语料库预训练，用于“零样本”任务（zero-shot），通过上下文填充高质量摘要示例（详见附录B与B.2）。

监督基线模型（Supervised baselines）¶

在TL;DR数据集上进行微调，用于：
- 生成初始摘要用于人类比较
- 初始化策略与奖励模型
- 作为评估基线
最终评估中使用温度T=0进行采样，效果优于其他采样方式（详见附录B.1）。
在CNN/DM上微调后，ROUGE分数略优于2019年SOTA模型（详见附录G.4）。

奖励模型（Reward models）¶

从监督模型出发，添加随机初始化的线性头，输出标量奖励。
损失函数为：

\[ \text{loss}(r_{\theta}) = -\mathbb{E}_{(x, y_0, y_1, i) \sim D} \left[ \log \sigma \left( r_{\theta}(x, y_i) - r_{\theta}(x, y_{1-i}) \right) \right] \]
奖励模型输出归一化，使参考摘要平均得分为0。

人类反馈策略（Human feedback policies）¶

使用PPO算法最大化奖励模型输出，目标函数为：

\[ R(x, y) = r_{\theta}(x, y) - \beta \log \left[ \frac{\pi^{\text{RL}}_{\phi}(y|x)}{\pi^{\text{SFT}}(y|x)} \right] \]
KL散度项作用：
- 鼓励探索，防止策略陷入单一模式
- 防止策略生成奖励模型未见过的输出
使用独立参数的Transformer作为价值函数，防止训练初期破坏预训练策略（详见附录G.1）。
奖励模型、策略模型和价值函数大小一致。

总结：本章详细描述了基于人类反馈的摘要生成方法，包括三步迭代流程、数据集构建与任务定义、高质量人类反馈的获取机制，以及所使用的模型架构与训练策略。重点在于通过人类比较训练奖励模型，并利用强化学习优化生成策略，以提升摘要质量。

4 Results¶

4.1 基于人类反馈的 Reddit 帖子摘要¶

人类反馈训练的策略优于更大规模的监督策略¶

实验结果显示，使用人类反馈训练的模型在 TL;DR 数据集上显著优于监督学习基线模型。1.3B 参数的反馈模型表现优于 10 倍其大小的监督模型（61% vs 43% 的人类偏好率）。6.7B 参数的模型又优于 1.3B 模型，说明人类反馈训练也受益于模型规模的提升。此外，两个反馈模型的摘要质量都被人类评价为优于数据集中的人类示范。

控制摘要长度的影响¶

摘要长度是影响质量判断的一个混杂因素。由于反馈模型倾向于生成更长的摘要，因此长度可能是质量提升的一个原因。在控制长度后，反馈模型的偏好率下降约 5%，但 6.7B 模型仍以约 65% 的比例优于参考摘要。

反馈模型在哪些方面优于基线？¶

通过四个维度（覆盖度、准确性、连贯性、整体质量）评估摘要质量，发现反馈模型在所有维度上都优于监督模型，尤其是覆盖度。6.7B 的 PPO 模型有 45% 的摘要获得满分 7 分，而监督模型和参考摘要分别为 20% 和 23%。

4.2 迁移到新闻文章摘要¶

无需进一步训练即可生成高质量新闻摘要¶

反馈模型在未经过新闻文章训练的情况下，也能在 CNN/DM 数据集上生成高质量摘要。它们显著优于仅在 TL;DR 上训练的监督模型和仅使用预训练语料的模型。6.7B 的反馈模型即使生成更短的摘要，其表现也接近于在 CNN/DM 上微调的 6.7B 模型。

摘要长度与质量的关系¶

由于反馈模型生成的摘要平均长度仅为 CNN/DM 模型的一半，因此直接比较困难。评估使用了与 4.1 相同的四个质量维度。结果显示，如果生成更长的摘要，反馈模型的表现可能更好。定性分析表明，反馈模型生成的摘要流畅且合理。

4.3 理解奖励模型¶

优化奖励模型会发生什么？¶

适度优化奖励模型可以提升摘要质量，但过度优化会导致奖励模型与人类偏好脱节，甚至出现负相关。这种现象在 ROUGE 和机器人领域的奖励函数中也有观察到。图 5 显示了不同 KL 系数下的优化效果。

奖励模型随数据和模型规模的变化¶

增加训练数据或模型大小都能提升奖励模型的性能。数据翻倍带来约 1.1% 的准确率提升，模型大小翻倍带来约 1.8% 的提升。6.7B 模型在全部数据上训练后，其准确率接近人类水平。

奖励模型学到了什么？¶

奖励模型能够泛化到 CNN/DM 数据集，与人类偏好一致率分别为 62.4%（1.3B）和 66.5%（6.7B），接近人类间的一致率（66.9%）。它对摘要中的小但关键的修改敏感，能识别出角色颠倒的错误。但模型偏好更长的摘要，对缩短的改进识别率低于人类。

4.4 摘要自动评估指标分析¶

自动指标评估¶

研究了 ROUGE、摘要长度、复制程度、监督模型的对数概率等自动指标与人类偏好的一致性。结果显示，学习到的奖励模型始终优于其他指标，即使在未训练的 CNN/DM 数据集上也是如此。ROUGE 在反馈模型生成的摘要中与人类一致性下降至约 50%，而奖励模型仍保持 62% 的一致性。

优化效果¶

使用 best-of-N 采样优化 ROUGE 并不能持续提升质量，其效果在早期就达到峰值，且峰值质量显著低于奖励模型优化效果。这与 [[45]] 的发现一致。

总结：
本章系统评估了基于人类反馈训练的摘要模型，结果显示其在多个维度和任务上均优于监督学习模型。反馈模型不仅在 Reddit 数据上表现优异，还能迁移到新闻文章摘要任务。同时，研究了奖励模型的优化边界、泛化能力及其与自动指标的对比，揭示了其优势与局限。

5 Discussion¶

1. Limitations（局限性）¶

重点内容：

本研究的主要局限在于模型训练所需的时间和成本较高。例如，使用强化学习（RL）对6.7B参数模型进行微调，耗费了约320个GPU天。
数据收集过程也较为昂贵：训练数据集的标注耗时数千小时，研究人员还需大量时间确保数据质量。
由于资源限制，无法收集到足够多的高质量人类示范数据用于监督学习基线对比实验，这部分分析留待未来研究。

次要内容精简：

尽管成本高，但作者认为奖励建模（reward modeling）在需要高技能或长时间示范的任务中更具扩展潜力。

2. Future directions（未来方向）¶

重点内容：

本文方法可广泛应用于人类能比较输出结果的任务，如对话、机器翻译、问答、语音合成、音乐生成等。
特别适用于生成长文本任务，因为最大似然方法在长文本中容易出现分布偏移和内容退化问题。
可通过跨任务反馈预测来提升样本效率。

次要内容精简：

作者关注如何将人类反馈扩展到人类难以直接评估模型输出质量的任务，例如通过训练辅助系统帮助人类评估。
探索除二元比较外的其他反馈形式，如高质量示范、模型输出编辑、偏好解释等，这些反馈可用于训练更强大的奖励模型和策略。

3. Broader impacts（更广泛影响）¶

重点内容：

本文技术具有广泛适用性，适用于任何人类可评估模型输出质量的任务。
研究动机是提升机器学习系统与人类设计者意图的一致性，避免传统方法依赖简单代理指标（如点击率）带来的问题（如YouTube推荐点击诱饵）。
长远来看，随着模型能力增强，确保其行为安全变得愈发重要。本文方法有助于缓解高能力系统带来的潜在风险。

潜在风险与挑战：

技术也可能被恶意使用，如训练更具说服力的语言模型、诱导人类依赖技术、生成有害内容等，需警惕这些负面应用。
在定义“良好行为”时需谨慎，尤其在目标复杂、人类意见分歧的任务中，应让受影响群体参与定义标准并参与标注工作。

数据与部署风险：

使用Reddit TL;DR数据集训练模型，因其内容多样且缺乏审核，可能导致模型生成偏见或冒犯性摘要，部署前需充分评估潜在危害。
模型能力提升可能加速自动化进程，导致部分岗位被取代，若缺乏相应政策应对，可能引发社会问题。

4. Acknowledgements（致谢）¶

内容精简：

作者感谢多位研究人员、工程师、标注人员在项目中的支持与贡献，包括模型训练、基础设施建设、论文撰写、数据标注等方面。
特别致谢所有参与数据标注的合同工，他们的工作对模型训练至关重要。

以上是对《5 Discussion》章节的结构化总结。

Appendix A TL;DR dataset details¶

数据集构成¶

主要来源：TL;DR数据集主要来自Reddit的不同子版块（subreddit），其中：
- relationships（人际关系）占比最高，达54.25%；
- AskReddit（问答）为13.23%；
- relationship_advice（情感建议）占7.45%；
- 其他如tifu、dating_advice等占比依次递减。
总体分布：前三大subreddit合计占比超过70%，说明数据集中人际关系相关内容占主导。

数据预处理步骤¶

用于RL训练的数据集构建¶

去重：通过检查文本内容，去除约20,000条完全重复的帖子。
重新解析TL;DR：使用启发式方法重新提取摘要，仅保留顶级帖子（非评论）。
过滤非白名单subreddit的帖子：仅保留Table 2中列出的子版块内容。
去除特定标题的帖子：
- 标题以“Edit”、“Update”等开头的帖子被过滤，因其通常需要上下文理解。
内容过滤：使用启发式方法过滤涉及敏感话题（如色情、自杀）的帖子。
长度限制：保留正文长度不超过512 token的帖子，以适配模型输入限制。
- 最终得到287,790条帖子，其中约5%作为验证集用于强化学习（RL）训练。

用于监督基线模型的参考摘要处理¶

摘要过滤：
- 去除以“Edit”、“Update”、“P.S.”开头的摘要；
- 去除含有特定程度脏话的摘要；
- 保留长度在24~48 token之间的摘要。
长度控制原因：
- RL模型倾向于生成较长摘要；
- 控制长度重叠，便于进行长度控制分析；
- 短于16 token的摘要通常质量较低。
质量验证：
- 被过滤的摘要平均比保留的摘要在奖励模型中低0.5 nats，即偏好概率约为1.6倍更低。
最终数据集：
- 包含摘要的帖子共123,169条，其中约5%作为验证集；
- 在开发过程中使用了1913条验证数据进行模型选择，论文中的评估结果不包含这些数据。

数据集局限性说明¶

领域集中：约三分之二的数据来自人际关系相关subreddit，可能影响模型泛化能力。
泛化能力验证：尽管数据集中领域偏重，模型在CNN/DM新闻数据集上的良好表现表明其并未过度拟合特定领域。

Appendix B Further model training details¶

B.1 超参数设置¶

本节列出了不同规模模型的超参数设置，如表3所示：

模型结构：所有模型均采用标准的Transformer架构，并使用2048个可学习的位置嵌入。
训练精度：大多数模型使用fp16激活值，监督学习基线、奖励模型和强化学习模型使用fp32权重，但TL;DR监督基线使用了fp16权重（历史原因，对性能影响较小）。
优化器：使用Adam优化器。
词表编码：使用与[[48]]相同的字节对编码（BPE）。

采样策略¶

通过调整温度（temperature）和top-p值进行采样策略测试，发现极低温度采样在该任务上表现更好。

预训练¶

数据来源：Commoncrawl、Webtext、书籍和Wikipedia。
总训练量：2000亿到3000亿token。
学习率调度：cosine退火，先warmup，再衰减至最大值的10%。
批量大小：逐步增加至最大值，每条输入包含2048个token。

监督学习基线¶

初始化：使用预训练模型。
学习率：通过log线性搜索选择，最终学习率分别为：
- TL;DR模型：1.3B (6.35e-5)、3B (5.66e-5)、6.7B (2.83e-5)、13B (2.83e-5)
- CNN/DM模型：6.7B (2.38e-5)
批量大小：128，训练1个epoch。

奖励模型¶

初始化：基于监督学习基线，顶部添加奖励头（初始化为 𝒩(0, 1/(d_model+1))）。
训练：1个epoch，cosine学习率调度，初始学习率通过log线性搜索选择。
实验设置：尝试3-10个随机种子，选择验证集开发部分表现最好的模型。
学习率示例：1.3B (1.5e-5)，6.7B (5e-6)
批量大小：64，训练1个epoch。

PPO强化学习¶

网络结构：策略网络和价值网络分离。
初始化：策略网络基于监督学习模型，价值网络基于奖励模型。
参数设置：
- γ=1，λ=0.95（用于优势估计）
- 每个rollout批次优化4轮
学习率：1.3B (1.5e-5)，6.7B (7e-6)
KL系数：0.05（除非特别说明）
批量大小：1.3B (512)，6.7B (256)
训练轮次：1百万次episode。

B.2 输入格式¶

本节展示了不同模型在TL;DR和CNN/DM数据集上的输入格式，如表4所示。

输入处理¶

所有输入均使用字节对编码（BPE），长度固定。
输入不足时：在开头填充padding token。
输入过长时：在换行处截断post/article字段。

上下文填充策略¶

对于仅在预训练语料上训练的模型（未微调TL;DR），在输入开头填充高质量摘要的示例以提升性能。
填充的示例格式与主输入一致，尽可能填满token限制。

输入格式示例（见表4）¶

TL;DR模型：
- 格式：包含子版块（SUBREDDIT）、标题（TITLE）、帖子内容（POST）和TL;DR提示。
- 最大token数：512
CNN/DM模型：
- 格式：包含文章（Article）和TL;DR提示。
- 最大token数：1999
预训练模型用于TL;DR或CNN/DM任务：
- 使用示例填充上下文，后接实际输入内容（如文章或帖子）。

总结重点¶

超参数：不同规模模型的层数、维度、头数、最大学习率和批量大小均有详细设定。
训练策略：预训练、监督学习、奖励模型和PPO强化学习各有不同的初始化、学习率调度和训练轮次。
输入格式：不同任务和模型类型使用不同的上下文格式，且对输入长度进行严格控制，必要时使用高质量示例填充上下文以提升性能。

Appendix C Human data collection details¶

C.1 Process for ensuring high-quality human data¶

重点内容：

为确保高质量的人类数据，作者设计了四个主要步骤：

Step 0: Understanding the task ourselves
- 研究人员先自己进行摘要比较，再雇佣少量标注员进行比较，讨论分歧，形成初步标注指南。
Step 1: Labeler onboarding
- 从Upwork、Scale、Lionbridge等平台招聘标注员。
- 标注员需完成付费培训，通过速度和一致性门槛后保留。
- 自建标注网站，支持定制化界面。
Step 2: Collecting comparison data
- 标注员先进行“naive interpretation”（不看原文先理解摘要），再进行摘要比较。
- 使用9分制评估摘要A是否优于B。
Step 3: Providing labeler feedback
- 分析标注员之间的一致性，用共享问题池进行校准。
- 展示争议案例帮助标注员改进。
Step 4: Researcher comparison calibrations
- 研究人员也参与标注，评估与标注员的一致性。
- 设定“高置信度”阈值，用于筛选高质量数据用于奖励模型验证。
- 保持与标注员的高频率沟通，包括聊天室、办公时间、一对一视频会议。

总结：
整个流程强调培训、反馈、校准和沟通，确保数据质量。表现差的标注员会被淘汰。

C.2 Assessing human feedback quality¶

重点内容：

评估方法：
比较标注员与研究人员的偏好一致性（忽略置信度），计算一致率（Agreement Rate）。
主要结果：
- 标注员与研究人员一致率：77% ±2%（研究人员之间为73% ±4%）。
- 最低水平标注员在最难任务中一致率约65%，高水平标注员在最易任务中可达85%。
- 标注员之间平均一致率为72%，三人投票可提升至77%。
- 在图1的评估中，标注员与研究人员一致率为73% ±3%，标注员之间为73% ±2%。
研究人员之间的一致率：
- 最难任务65%，最易任务80%，讨论后可达95%。
数据过滤尝试：
- 尝试过滤低置信度或低一致性标注员的数据，但发现这反而会降低奖励模型性能。
- 结论：即使低质量数据也比完全剔除更好。

C.3 Labeler demographics¶

重点内容：

提供标注员人口统计信息（21人参与匿名调查）：
- 性别：女性61.9%，男性38.1%。
- 种族：白人42.9%，东南亚裔23.8%，其他包括美洲原住民、东亚、中东等。
- 国籍：美国人45%，菲律宾人30%，其他包括南非、塞尔维亚、英国等。
- 年龄：20-29岁最多（42.9%），60岁以上为0。
- 教育：本科57.1%，硕士23.3%，博士4.8%。

总结：
标注员群体具有多样性，但以白人和美国人为主。

C.4 Labeler website¶

重点内容：

自建标注网站，用于统一和定制化标注界面。
支持多种任务类型：naive interpretation、摘要比较、Likert评分。
可分配不同任务给不同标注员，数据可直接导入数据库。
提供截图展示界面设计。

C.5 Instructions for labelers¶

重点内容：

提供详细的标注指南，分为Reddit和CNN/DM两类任务。
摘要比较指南：
考察维度包括：Essence、Clarity、Accuracy、Purpose、Concise、Style，前几项权重更高。
Likert评分指南：
从四个维度评估摘要质量：
1. Coherence（连贯性）：摘要是否清晰易懂。
2. Accuracy（准确性）：是否与原文事实一致。
3. Coverage（覆盖性）：是否涵盖关键信息。
4. Overall quality（整体质量）：综合评估。
每个维度提供评分标准（1-7分）及示例说明。
对CNN/DM任务做了额外说明，如不强调句子流畅性。

C.6 Composition of the labeled dataset¶

重点内容：

数据集包含多个策略生成的摘要，包括监督策略、强化学习策略（PPO）、Best-of-N策略。
表格列出各策略名称、参数量、训练目标等信息。
监督策略（supervised policies）：
- sup1 ~ sup4，参数量从750M到6.7B不等。
奖励模型（reward models）：
- rm1 ~ rm4，参数量有1.3B和6.7B两种。
强化学习策略（PPO policies）：
- 基于sup4和rm4等训练，KL系数和KL散度作为训练控制参数。
Best-of-N策略（BoN）：
- 从监督策略中采样多个摘要，选择奖励模型评分最高的作为输出。
数据组成：
- 每个奖励模型训练时使用了不同策略生成的摘要对。
- 包括与参考摘要（ref）对比的数据，用于防止标注员偏好漂移。

C.7 Example comparison tasks¶

重点内容：

提供两个摘要比较示例，展示任务难度：
1. 随机比较（Random TL;DR comparison）：
  来自验证集的随机样本，展示正常标注任务。
2. 困难比较（Hard TL;DR comparison）：
  选择标注员意见分歧较大的案例，展示准确性和覆盖性之间的权衡。
  - Summary A 不准确但覆盖全面。
  - Summary B 准确但未涵盖整体内容。
  - 4人选择A，3人选择B。
提供链接供查看更多比较任务。

总结¶

本附录详细描述了人类数据收集流程，包括质量控制机制、标注员评估、人口统计、标注网站设计、标注指南、数据组成和示例任务。整体强调数据质量、标注员培训与反馈机制，并通过实验验证标注一致性。

Appendix D Choice of baselines¶

在测试我们的人类反馈技术时，我们从人工标注者那里收集了大量高质量的数据。为了与基于监督学习的技术进行公平比较，我们需要花费相似的人工标注时间来收集高质量的示范数据，并通过监督学习对模型进行微调。但由于成本过高，我们没有提供这样的基线。

已有研究如 PEGASUS [70] 在与我们非常相似的数据集上（即 TL;DR 中的 /r/tifu 子集）研究过监督方法。但它们使用的是更小的模型（5亿参数），并且根据人工评估，其模型输出的摘要质量劣于人类参考摘要。因此，由于我们在评估阶段标注预算有限，我们决定使用我们自己的监督模型和零样本模型作为基线（在验证了监督模型的 ROUGE 表现后），同时也将 T5 [49] 作为基线之一。

T5 模型 [49] 的预训练和微调方式与我们的监督基线模型类似，但它们采用的是编码器-解码器架构。我们使用的 T5 输出是通过束搜索（beam search）解码得到的，具体方式见原文描述。此外，我们还仔细处理了模型输出在分词（tokenization）方面的差异。由于分词会影响输出的大小写和标点符号，我们对所有模型的 CNN/每日邮报输出进行了标准化处理：先将所有文本转为小写，然后通过启发式方法重新添加大写。我们验证了这种标准化方法在不同分词方式下的参考摘要上可以产生相同的结果。

Appendix E CNN/DM lead-3 vs reference summaries¶

主要发现¶

在 CNN/DM 数据集上，标注者明显更偏好 lead-3 摘要（即文章前三个句子的组合），而不是数据集提供的参考摘要。这在一定程度上是因为摘要越长，覆盖内容越多，而 lead-3 的平均长度比参考摘要长 50%（见表13）。

策略	长度（标准差）	质量	每100字符质量提升
参考摘要（ref）	314（119）	5.54	0.14
lead-3	475（114）	6.23	0.34

表13显示了 lead-3 在质量和长度上的优势。

控制长度后的分析¶

即使通过线性回归将 lead-3 的长度调整到与参考摘要相同（314字符），其质量预测值仍为 5.68，略高于参考摘要的5.54。这说明 lead-3 的优势不仅仅来自长度。

对摘要方法的质疑¶

lead-3 这样简单的抽取式方法就能与参考摘要表现相当甚至更好，这引发了对是否需要抽象式摘要或复杂机器学习模型的质疑。

标注者行为分析¶

为了确认这种偏好不是标注错误，研究者人工检查了部分标注结果：

在 143 个样本中，有 20 个案例标注者明显更偏好 lead-3（差值≥3分）；
如果排除这些样本，参考摘要的相对得分将提高约 0.5 分；
但只有 7 个案例中参考摘要明显更受偏好。

参考摘要表现差的原因¶

研究者发现参考摘要表现不佳主要源于两个问题：

遗漏关键信息：20 个样本中有 13 个遗漏了文章的关键点。这可能是因为原始“亮点”（highlights）是为已经看过标题的读者写的，而 CNN/DM 数据集中不包含标题。
引入新信息：20 个样本中有 10 个引入了原文中没有的内容，被标注者视为“编造”，从而导致评分下降。

这些错误频繁出现，显著拉低了参考摘要的整体质量，其影响甚至比不同机器学习模型之间的质量差异更明显。

结论¶

研究者认为标注者的判断是合理的，并指出将 CNN/DM 数据集中的“亮点”直接作为参考摘要存在潜在问题。所有标注结果可在项目网站查看。

Appendix F Controlling for summary length¶

1. 控制摘要长度的背景与方法¶

在第4.1节中提到，摘要长度是影响摘要质量评估的一个混杂因素。在权衡简洁性与信息覆盖度时，较短或较长的摘要可能各有优势。我们的模型生成的摘要通常比参考摘要更长，这在24-48 token的任务限制下更受标注者偏好。

为了控制长度对偏好评估的影响，我们采用以下方法：

训练一个逻辑回归模型，预测人类偏好的摘要。
模型输入包括两个特征：
- 每个策略（policy）的身份标识；
- 摘要长度的对数比值（log ratio）。
在计算两个策略之间的长度控制偏好值时，将log length ratio设为0，仅保留策略ID作为输入。

2. 实验结果与分析¶

(a) 长度控制后的偏好评估（图10(a)）¶

控制长度后，基于人类反馈模型的相对偏好下降，但仍优于参考摘要。
这说明长度确实是影响偏好的重要因素，但人类反馈模型本身仍具有优势。

(b) TL;DR数据集上不同长度的模型质量（图10(b)）¶

我们的6.7B参数人类反馈模型在所有长度上都优于6.7B的监督基线模型和参考摘要（水平线为0.5）。
表明模型在不同长度下都保持了高质量。

3. CNN/DM数据集上的长度控制实验¶

类似地，使用线性回归模型预测1-7分的Likert评分。
表14展示了不同策略的平均长度与质量评分，以及每增加100字符带来的质量提升。

重点内容：摘要长度与质量的关系¶

多数情况下，增加摘要长度会提升质量。
特别是我们的RL-based模型（如rl(tldr)-1.3b和rl(tldr)-6.7b），在长度增加时质量提升显著（分别为1.28和0.87分/100字符）。
参考摘要（ref）和lead-3等基线模型也表现出长度与质量正相关，但提升幅度较小。

关键结论：¶

控制长度后，人类反馈模型依然优于基线模型，说明其优势不仅来自长度。
在CNN/DM任务中，如果允许生成更长的摘要，人类反馈模型的表现可能进一步提升。

总结：本附录通过控制摘要长度来更公平地评估模型质量，发现虽然长度影响偏好，但人类反馈模型在控制长度后仍表现优异。此外，摘要长度与质量之间存在正相关，尤其在RL-based模型中更为明显。

Appendix G Additional results¶

G.1 价值函数消融实验¶

本节比较了使用独立参数（策略和价值函数）与共享网络结构的效果。实验结果表明，使用独立网络在性能上优于共享网络，但会增加内存需求。此外，独立网络结构允许将价值函数初始化为已训练好的奖励模型，从而更有效地优化。

重点：独立网络结构在性能上更优。
次要：增加内存需求，但可利用奖励模型初始化。

G.2 沿质量维度评估策略¶

本节展示了模型在TL;DR和CNN/DM数据集上沿多个质量维度（如连贯性、覆盖性等）的评估结果。结果显示：

覆盖性与整体评分高度相关；
所有模型在连贯性方面表现良好。
重点：覆盖性是影响整体评分的关键因素。
次要：模型在连贯性方面普遍表现优异。

G.3 最优-N 优化研究¶

本节通过“最优-N”方法评估自动评估指标的有效性。实验发现：

优化奖励模型比ROUGE更有效；
ROUGE在过度优化时性能下降更快；
PPO策略比最优-N策略更远离监督基线（通过KL散度衡量），但两者在相同奖励下质量相近。
重点：奖励模型优化效果优于ROUGE。
次要：PPO策略与最优-N策略在质量上相近，但KL距离更大。

G.4 ROUGE分数¶

本节比较了模型在TL;DR和CNN/DM数据集上的ROUGE分数，并与现有SOTA模型对比。结果显示：

ROUGE分数与人类偏好相关性较差；
在TL;DR上，反馈模型ROUGE分数略低于监督模型；
在CNN/DM上，反馈模型表现优于监督模型，但低于专门优化的SOTA模型。
重点：ROUGE不能很好反映人类偏好。
次要：模型大小和温度对ROUGE有显著影响。

G.5 二元组重叠统计¶

本节通过计算摘要与原文之间的二元组重叠率，衡量模型是否“复制”原文。结果显示：

CNN/DM模型比TL;DR模型更倾向于复制原文；
监督和反馈模型比预训练模型更少复制原文。
重点：CNN/DM模型复制率更高。
次要：模型大小对复制率有一定影响。

G.6 奖励模型验证集¶

本节评估奖励模型在人工构建验证集上的表现。结果显示：

奖励模型能识别语义变化（如角色互换、句子顺序打乱）；
但有时会偏好低质量摘要（如重复标题、添加无关建议）；
与人类编辑偏好有较高一致性。
重点：奖励模型对语义变化敏感。
次要：存在误判低质量摘要的情况。

G.7 不同评估指标的一致性¶

本节分析了不同评估指标（如ROUGE、长度、复制率、奖励模型、人类标签）之间的一致性。结果显示：

奖励模型与人类标签一致性较高；
ROUGE、长度、复制率等传统指标与人类偏好一致性较差；
多个标签员的集成表现优于单一标签员。
重点：奖励模型与人类判断一致性优于传统指标。
次要：ROUGE和长度等指标表现较差。

总结¶

附录G提供了多个补充实验结果，强调了以下几点：

独立价值函数结构优于共享结构；
覆盖性是影响摘要质量的关键因素；
奖励模型比ROUGE等传统指标更能反映人类偏好；
ROUGE在优化过程中表现不稳定；
CNN/DM模型比TL;DR模型更倾向于复制原文；
奖励模型在人工验证集上表现良好，但仍存在误判；
奖励模型与人类判断一致性较高，优于传统指标。

Appendix H Samples¶

H.1 随机样本¶

本节展示了多个模型的非刻意挑选样本及人工评估结果。表25-26展示了TL;DR数据集的样本，表27-28展示了CNN/DM数据集的样本（文章内容被截断以节省篇幅）。更多未筛选的策略样本可在网站查看。

重点内容讲解：¶

表24（TL;DR数据集样本）
展示了一个Reddit帖子的多个摘要策略及其评分。
- 人类撰写的参考摘要（Human written reference）得分最高（总体分6），准确性和覆盖度较好。
- 提取式基线（Title、Lead-2）得分较低，尤其在覆盖度方面表现不佳。
- 基于人类反馈的模型（1.3B、6.7B）表现中等，6.7B模型在覆盖度上略优于1.3B。
- 监督模型和预训练模型得分较低，尤其在准确性和覆盖度方面。
表25（TL;DR数据集样本）
展示了另一个关于恋爱关系的帖子摘要。
- 人类参考摘要得分6，准确度较低但覆盖度高。
- 基于人类反馈的1.3B和6.7B模型表现最佳（得分7），准确度、连贯性和覆盖度均较高。
- 提取式基线和监督模型表现较差。
表26（TL;DR数据集样本）
展示了关于男友沉迷游戏的帖子摘要。
- 人类参考摘要得分7，各项指标均高。
- 所有基于人类反馈的模型（1.3B、6.7B）和监督模型得分均为7，表现良好。
- 预训练模型得分6，略逊于其他模型。
表27（CNN/DM数据集样本）
展示了关于“机器人舞蹈表演”的新闻摘要。
- 人类参考摘要得分3，准确度和覆盖度较低。
- Lead-3提取式基线和11B T5模型得分7，表现最佳。
- 基于人类反馈的模型（1.3B、6.7B）得分5，表现中等。
表28（CNN/DM数据集样本）
展示了关于“婴儿被赶下飞机”的新闻摘要。
- 人类参考摘要得分3，准确度较低。
- 6.7B监督CNN/DM模型得分7，表现最佳。
- 基于人类反馈的6.7B模型得分6，表现良好。
- 预训练模型和T5模型得分中等。

非重点内容精简讲解：¶

所有表格均展示了不同模型在摘要任务中的表现差异，基于人类反馈的模型在TL;DR数据集上表现较好，但在CNN/DM数据集上不如某些监督模型。
提取式基线（如Lead-3）在CNN/DM数据集上表现较好，说明原始文章开头信息已足够生成高质量摘要。

H.2 过度优化样本¶

本节展示了过度优化至rm3策略的样本。这些摘要虽然冗长、质量较低且带有个性化特征，但仍能反映原文的大致内容。

重点内容讲解：¶

表29（过度优化模型样本）
展示了多个过度优化策略生成的摘要，其特点包括：
- 使用非正式、口语化的表达（如“dumbass shitty ass policy”）。
- 重复使用固定句式（如“stubbornly postponees… despite tried reasonable compromise offer”）。
- 保留了原文的核心问题，但表达方式不规范。

非重点内容精简讲解：¶

这些样本反映了模型在过度优化奖励函数时可能出现的“过拟合”现象，即生成内容虽然符合奖励模型偏好，但实际质量较低。
说明在训练过程中需要平衡奖励最大化与生成内容的自然性和可读性。

2009.01325_Learning to summarize from human feedback¶

From Moonlight¶

三句摘要¶

关键词¶

摘要¶

Abstract¶

研究背景¶

研究方法¶

研究成果¶

分析与验证¶

研究意义¶

1 Introduction¶

背景与问题¶

研究目标与任务选择¶

方法概述¶

主要贡献¶

（1）人类反馈训练显著优于强基线¶

（2）人类反馈模型具有更好的跨域泛化能力¶

（3）对策略模型与奖励模型的深入分析¶

（4）公开发布人类反馈数据集¶

长期意义¶

2 Related work¶

与我们工作最直接相关的工作¶

其他使用人类反馈的研究¶

强化学习与自动评价指标¶

模型结构与预训练方法的改进¶

3 Method and experiment details¶

3.1 高层方法论（High-level methodology）¶

3.2 数据集与任务¶

数据集（Datasets）¶

任务（Task）¶

3.3 收集人类反馈（Collecting human feedback）¶

3.4 模型（Models）¶

预训练模型（Pretrained models）¶

监督基线模型（Supervised baselines）¶

奖励模型（Reward models）¶

人类反馈策略（Human feedback policies）¶

4 Results¶

4.1 基于人类反馈的 Reddit 帖子摘要¶

人类反馈训练的策略优于更大规模的监督策略¶

控制摘要长度的影响¶

反馈模型在哪些方面优于基线？¶

4.2 迁移到新闻文章摘要¶

无需进一步训练即可生成高质量新闻摘要¶

摘要长度与质量的关系¶

4.3 理解奖励模型¶

优化奖励模型会发生什么？¶

奖励模型随数据和模型规模的变化¶

奖励模型学到了什么？¶

4.4 摘要自动评估指标分析¶

自动指标评估¶

优化效果¶

5 Discussion¶

1. Limitations（局限性）¶

2. Future directions（未来方向）¶

3. Broader impacts（更广泛影响）¶

4. Acknowledgements（致谢）¶

Appendix A TL;DR dataset details¶

数据集构成¶

数据预处理步骤¶

用于RL训练的数据集构建¶

用于监督基线模型的参考摘要处理¶

数据集局限性说明¶

Appendix B Further model training details¶

B.1 超参数设置¶

采样策略¶

预训练¶

监督学习基线¶

奖励模型¶

PPO强化学习¶

B.2 输入格式¶

输入处理¶

上下文填充策略¶

输入格式示例（见表4）¶

总结重点¶

Appendix C Human data collection details¶

C.1 Process for ensuring high-quality human data¶

C.2 Assessing human feedback quality¶

C.3 Labeler demographics¶

C.4 Labeler website¶