2305.20050_Let’s Verify Step by Step #################################### * 论文: https://arxiv.org/abs/2305.20050 * 探讨了两种训练语言模型以提高推理可靠性的监督方法:结果监督(Outcome Supervision)和过程监督(Process Supervision)。 * 近年来,大语言模型在执行复杂多步推理方面取得了显著进展。然而,即使是最先进的模型仍然经常出现逻辑错误。为了训练出更可靠的模型,我们可以选择结果监督(outcome supervision),即仅对最终结果提供反馈,或者选择过程监督(process supervision),即对每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性以及人工反馈的高成本,仔细比较这两种方法至关重要。 * 尽管近期已有研究开始对此进行比较,但仍有许多问题尚未解决。在我们的研究中,我们发现过程监督在训练模型解决具有挑战性的 MATH 数据集问题时,显著优于结果监督。我们的过程监督模型在 MATH 测试集的代表性子集中,解决了 78% 的问题。 * 此外,我们还表明,主动学习(active learning) 能够显著提高过程监督的效果。为了支持相关研究,我们发布了 PRM800K,这是一个包含 80 万条逐步人工反馈标注的完整数据集,用于训练我们效果最佳的奖励模型。 1. 研究背景 =========== * **大语言模型(LLMs)** 已能处理复杂的多步推理任务,但仍常出现逻辑错误,尤其是在推理链的某个环节出错时,可能导致整个答案错误。 * **幻觉(Hallucination)** 问题突出,模型在不确定时容易捏造事实,这对需要精确推理的场景尤其有害。 2. 监督方法对比 =============== * 结果监督(ORM):只关注最终答案的正确性。这种方法适用于可以自动验证答案的数据集,如MATH数据集。 * 从生成器中对每个问题统一采样固定数量的解,并训练 ORM 来预测每个解是正确的还是不正确的。在实践中,我们通常通过自动检查最终答案来确定正确性 * 过程监督(PRM):对模型推理链中的每个步骤提供反馈,能精确指出错误发生的位置,更易于人类解释和模型对齐。 .. figure:: https://img.zhaoweiguo.com/uPic/2025/02/yjE02X.png Figure 1:A screenshot of the interface used to collect feedback for each step in a solution. .. figure:: https://img.zhaoweiguo.com/uPic/2025/03/taQETt.png Figure 2:Two solutions to the same problem, graded by the PRM. The solution on the left is correct while the solution on the right is incorrect. A green background indicates a high PRM score, and a red background indicates a low score. The PRM correctly identifies the mistake in the incorrect solution. 3. 核心发现 =========== * PRM显著优于ORM:在MATH数据集上,PRM模型解决了78.2%的问题,明显优于ORM的72.4%。 * 主动学习(Active Learning)提升数据效率:使用主动学习策略,可以将过程监督的数据效率提高2.6倍,即在更少的数据下达到更好的效果。 * PRM800K数据集发布:包含80万条逐步反馈标签的数据集,支持相关研究。 总结 ==== * 核心观点: 过程监督能够更精细地捕捉模型推理过程中的错误,从而提高模型在多步推理任务中的准确性和可靠性。 * 研究意义: 该论文不仅为 AI 推理能力的提升提供了新的方向,也为模型的可解释性和可控性打下了基础。