VerifyBench：为大语言模型的基于参考的奖励系统搭建基准测试毛主席曾留下6大预言：当时没人信！今5个已应验，第6个正在实现

在人工智能研究的浩瀚海洋中，大语言模型的训练就像是一场精心编排的交响乐，而基于参考的奖励系统则是这场交响乐中不可或缺的指挥棒。2025年5月，来自浙江大学、美团集团、北京大学等多家研究机构的研究团队联合发布了一项创新研究——VerifyBench，这是首个专门评估基于参考的奖励系统的基准测试。这项研究由浙江大学的严玉辰（作为美团实习生期间贡献）、姜进（美团集团和北京大学）、任振邦（浙江大学和电子科技大学）等研究者共同完成，发表于arXiv预印本平台（arXiv:2505.15801v1）。

想象一下，如果大语言模型是一个正在学习做题的学生，那么传统的奖励模型就像是老师在比较两个答案："A答案比B答案好"。而本研究提出的基于参考的奖励系统则更像是老师拿着标准答案来判断："这个答案正确吗？"这种看似简单的区别，却在培养大模型的推理能力方面产生了革命性的变化。

近年来，像OpenAI的o1和DeepSeek-R1这样的大型推理模型在解决复杂推理任务方面展现出令人瞩目的性能。这些模型的成功秘诀之一就是在强化学习过程中引入了基于参考的奖励系统，通过将模型输出与标准参考答案进行比对来评估质量。然而，目前的奖励基准主要关注于比较不同回答之间的偏好，而非评估与标准答案的一致性，这在推理模型训练中造成了关键的评估缺口。

为什么这项研究如此重要？想象你正在教一个人工智能学习解决数学问题。传统方法会让AI生成多个答案，然后告诉它："这个答案比那个答案好"。而基于参考的方法则直接告诉AI："你的答案与标准答案相符吗？"这种区别看似微小，却能极大提升AI在推理任务中的表现。VerifyBench正是为评估这种能力而生。

研究团队不仅构建了标准的VerifyBench，还创建了更具挑战性的变体VerifyBench-Hard，两者都通过精心的数据收集、整理和人工标注确保了高质量。通过对当前奖励系统的全面评估，研究者发现，虽然基于大型模型的验证器在标准案例上表现出色，但在更具挑战性的实例上，所有现有系统都有显著的改进空间。

接下来，让我们深入了解这项研究的细节，看看研究团队如何构建这个基准测试，以及这一创新性工作对未来大语言模型发展可能产生的深远影响。

一、基于参考的奖励系统：大模型推理能力的基石

想象一下，如果你正在教一个孩子学习解题，你会采用什么方式？是给他两个答案让他选择哪个更好，还是给他一个标准答案，然后让他判断自己的解答是否正确？显然，后者在培养深入理解和准确推理能力方面更有效。这正是基于参考的奖励系统的核心思想。

在大型推理模型（LRM）如OpenAI的o1和DeepSeek-R1的训练过程中，基于参考的奖励系统扮演着至关重要的角色。不同于传统的偏好比较方法，这些系统通过将模型生成的输出与权威参考答案进行比对来分配奖励。这种方法在不同模型中有不同的实现方式：DeepSeek-R1采用基于规则的奖励来防止奖励黑客攻击，而Seed1.5-Thinking等模型则采用基于模型的奖励系统来生成更精确、更稳健的信号。

虽然基于参考的奖励系统在训练最先进的推理模型中被广泛采用，但我们在系统地评估这些系统的能力方面存在显著的差距。现有的基准几乎完全专注于基于偏好的评估，评估奖励系统正确排序竞争回答的能力。这种方法无法捕捉基于参考的验证的要求，因为后者需要根据客观标准而非相对偏好来判断回答。

缺乏专门用于基于参考的奖励系统的基准测试限制了研究人员有效评估、比较和改进其验证方法的能力，这可能阻碍了推理模型开发的进展。这就像是在没有标准尺子的情况下试图测量物体的长度，每个人使用的标准都不同，难以进行客观比较和改进。

为了填补这一关键空白，研究团队引入了VerifyBench，一个专门设计用于评估基于参考的奖励系统精度的基准测试。VerifyBench与现有奖励基准的根本区别在于，它专注于绝对正确性判断而非相对偏好评估。传统基准要求奖励模型确定两个回答中哪个更好，而VerifyBench则挑战系统验证单个回答是否与参考答案正确对齐，这更准确地反映了推理模型训练中的实际使用场景。

想象一下，如果传统方法是在没有标准答案的情况下判断哪个学生的答案更好，那么VerifyBench则是在有标准答案的情况下，判断一个特定学生的答案是否正确。这种区别虽然微妙，却能从根本上改变模型的学习方式和最终表现。

二、基准测试的构建：精心设计的评估工具

构建一个全面而公正的基准测试就像是设计一套完美的考试，既要涵盖各种知识点，又要确保难度适中且评分标准一致。研究团队在构建VerifyBench和VerifyBench-Hard时，采用了一系列精心设计的步骤来确保基准测试的质量和代表性。

首先，让我们看看VerifyBench的构建过程。这个过程可以分为四个主要步骤：查询整理、答案类型标注、完成生成和预标注，以及人工标注。

在查询整理阶段，研究团队收集了各种开源推理问题及其对应的参考答案，涵盖了三个主要类别：一般推理、逻辑推理和数学推理，这些问题来自41个不同的数据源。这就像是从各种教科书和试题库中挑选出代表性的问题，确保覆盖不同的知识领域和难度水平。

接下来，为了全面评估模型在不同答案格式上的表现，研究团队定义了四种规范的答案类型：数值、代数表达式、多项选择和自由形式字符串。使用通用大语言模型Llama3.3-70B-Instruct，他们进行了自动答案类型分类，随后从每种类型中随机抽样2,000个实例，形成总计8,000个问题的最终候选池。

在完成生成和预标注阶段，研究团队使用了22个广泛应用的开源和专有模型为整理好的8,000个问题生成单次完成答案，共产生了176,000个完成答案。为了分配初始正确性标签，他们利用Llama-3.3-70B-Instruct在基于提示的判断框架内进行评估。对于每个问题，随机选择四个完成答案，其中两个被模型标记为正确，两个被标记为不正确，并保留它们用于后续的人工标注。

人工标注是确保数据集质量的关键步骤。研究团队对上述问题及其相关完成答案进行了人工标注，标注过程包括两项主要任务：根据问题的表述和相应的标准答案确定最合适的答案类型，以及评估每个完成答案的正确性。每个问题都由至少两名标注员独立标注。如果他们的标注一致，则标注被确定；否则，第三名标注员会解决分歧以确保一致性并最终确定标签。

最后，在基准测试构建阶段，研究团队发现模型预测在答案类型和完成答案正确性方面存在明显的偏差，导致数据分布不平衡。为了缓解这一问题，他们进行了受控的下采样，以确保类别级别的均匀表示和平衡的正确性标签。具体来说，他们保留了每种答案类型的250个问题，总计1,000个问题。每个问题都配对了两个完成答案，一个正确，一个不正确。最终的数据集VerifyBench因此包含2,000个均衡的问题-答案-完成答案-正确性元组。

接下来，研究团队构建了更具挑战性的变体VerifyBench-Hard。这个数据集的构建过程同样精心设计，包括完成答案生成、难度过滤和人工标注三个关键步骤。

在完成答案生成阶段，研究团队使用18个开源模型为前面描述的查询生成单轮完成答案。由于生成量庞大和相关的计算成本，闭源模型在这个阶段被排除。总共生成了约145万个完成答案。

在难度过滤阶段，研究团队使用了在VerifyBench上表现最好的五个大型模型（包括Llama-3.3-70B-Instruct、

Llama-4-Scout-17B-16E-Instruct等）来评估生成的完成答案的正确性。基于它们的判断，研究团队识别出了模型判断存在分歧的问题-答案-完成答案元组，特别是那些两个模型的评估与其他三个模型评估不同的情况。为了确保均衡和全面的表示，研究团队在数据领域和来源上应用了分层抽样，最终选择了2,000个样本进行人工标注。

人工标注阶段与VerifyBench的标注过程类似，重点关注两个关键方面：确定答案类型和确定每个完成答案的正确性。每个实例都由至少两名标注员独立标注。如果两名标注员都同意，则标注被确定；当出现分歧时，会咨询第三名标注员来解决冲突。

基准测试构建的最后阶段，研究团队排除了被识别为不适合纳入基准测试的样本。这一过滤导致最终得到1,000个问题-答案-完成答案-正确性元组。与强制每个问题配对一个正确和一个不正确完成答案的VerifyBench不同，VerifyBench-Hard是通过自然抽样产生的。研究团队观察到，较大的模型更有可能错误地接受不正确的答案为正确，导致数据集中自然偏向不正确的完成答案。

通过这些精心设计的步骤，研究团队成功构建了两个高质量的基准测试，为评估基于参考的奖励系统提供了坚实的基础。这就像是设计了两套不同难度的考试，一套用于评估基本能力，另一套则用于测试更高级的技能。

三、评估结果：现有系统的表现与挑战

当我们手握了这两个精心设计的基准测试后，自然要问：现有的系统表现如何？就像老师拿着新设计的考卷，迫不及待想知道学生们能得多少分一样，研究团队对各种验证方法在VerifyBench和VerifyBench-Hard上进行了全面评估。

首先，研究团队采用了广泛使用的基于规则的方法math-verify作为基线。在LLM作为评判者的设置中，他们通过提示LLM执行验证，详细的提示模板在原论文附录中提供。评估结果揭示了几个关键发现和见解。

现有模型在VerifyBench上表现良好。构建VerifyBench的主要目标是为基于参考的奖励系统的客观评估建立一个基准。为此，研究团队在各种领域和答案类型上设计了具有平衡分布的数据集，为每个问题配对了一个正确和一个不正确的完成答案。这种结构有助于对奖励模型性能进行严格而公平的评估。值得注意的是，最先进的大语言模型在这个基准上已经表现出色：GPT-4o-mini达到了92.85%的平均准确率，而Qwen3-32B则达到了95.8%，突显了大语言模型作为验证器在这种情况下的高可靠性。

然而，VerifyBench-Hard确实具有挑战性。为了更有效地区分各种模型的性能，研究团队构建了VerifyBench-Hard，选择了多个大语言模型在验证输出上存在实质性分歧的案例。评估结果表明，模型在VerifyBench-Hard上的表现明显低于在VerifyBench上的表现。达到的最高准确率为72.4%，相比于在VerifyBench上的表现下降了20%。这一性能差距凸显了当前大语言模型精确验证能力的显著改进空间。

小规模模型仍有发展潜力。在实际的强化学习场景中，奖励系统的推理效率显著影响整体训练速度。由于此类验证任务通常涉及生成式推理，其计算成本与展开过程本身相当。因此，有效利用较小模型执行验证是一个值得探索的实用问题。根据研究结果，小参数（<3B参数）的模型在VerifyBench上表现明显较差，Qwen3-1.7B达到81.10%的准确率，而Llama-3.2-3B-Instruct仅达到60.95%的准确率，而较大规模的模型能达到超过90%的准确率。因此，提升较小模型在这些验证任务上的能力代表了未来研究的一个有价值方向。

研究团队还进行了多项深入分析。例如，他们研究了参考答案在验证过程中的重要性。这项研究提出的基准测试与现有奖励基准的根本区别在于明确纳入参考答案，从而更紧密地与当代推理大语言模型的训练设置保持一致。为了隔离参考答案对验证性能的影响，研究团队进行了一项消融研究，在不提供提示中的参考答案的情况下评估模型。

实验结果显示，当排除参考答案时，性能下降约5-18%。这些发现强调了参考答案在面向推理的强化学习中的关键作用，表明它们在奖励建模过程中提供了更可靠、更信息丰富的监督信号。这就像是给学生提供标准答案进行对比学习，而不是让他们在没有参考的情况下独自摸索。

研究团队还评估了无参考奖励模型的表现。为了对现有奖励模型进行更全面的评估，他们额外评估了几个无参考奖励模型，并将其性能与传统的成对奖励评估数据集进行了比较。值得注意的是，VerifyBench中的每个问题都包含一个正确和一个不正确的完成答案，使其能够直接重新表述为标准成对评估实例。

实验结果表明，VerifyBench在没有参考答案的情况下引入了与现有奖励基准相当的挑战水平。无参考奖励模型在VerifyBench上达到低于80%的准确率，突显了其难度。此外，特定领域的奖励模型在一般奖励基准上的表现不如在VerifyBench上的表现，验证了基准测试的设计目标。

四、深入分析：错误模式与挑战

为了从VerifyBench中获得更深入的见解，研究团队为每种答案类型引入了更精细的分类法，并分析了模型在这些子类别中的表现。这种详细分析有助于识别模型特别容易出错的特定推理任务或答案格式。

研究团队将数值类别细分为8个子类型，表达式细分为5个子类型，多项选择细分为3个子类型，字符串细分为2个子类型。研究团队对每个主要类别中表现低于平均水平的子类别进行了进一步分析，确定了最常见的错误判断来源，具体包括：

在数值类别中，复数和包含多个数值的答案最容易导致错误。在表达式类别中，代数公式和方程是最具挑战性的。在多项选择类别中，多答案选择问题最难判断。在字符串类别中，需要语义一致性验证的字符串最容易引起困惑。

研究团队分析了最容易出错的样本，识别出一个常见的潜在问题：模型经常无法完全理解问题或清晰识别预期目标。例如，在涉及多值答案的情况下，值的顺序通常无关紧要。然而，如果模型输出中的值序列与黄金答案不同，模型往往会错误地将响应分类为错误。

类似地，表达式类别中的错误，特别是涉及代数公式和方程的错误，主要源于数学理解不足。具体而言，当模型输出未简化的表达式时，与标准答案相比，表面文本差异可能很大。模型倾向于根据表面文本差异而非数学等价性进行评判，导致验证失败。

这就像是一个过于严格的老师，只看答案的形式而不考虑实质内容。例如，如果标准答案是"2x+2"，而学生写的是"2(x+1)"，虽然两者在数学上是等价的，但机械的比对会认为学生答错了。

为了进一步验证VerifyBench的实用性，研究团队进行了相关性分析，探讨了VerifyBench与实际强化学习性能之间的关系。研究团队构建VerifyBench和VerifyBench-Hard的目标是通过提高基于参考的奖励系统的准确性来改进推理模型的强化学习。为了评估基准测试的实际效用，研究团队进行了相关性分析，探讨了VerifyBench与实际强化学习性能之间的关系。

在实验中，研究团队应用拒绝采样来实现基于参考的奖励系统。对于GSM8K和MATH训练集中的每个问题，他们使用Qwen2.5-Math-7B-Instruct生成64个候选完成答案，采样温度为0.7。这些回答随后由三个在VerifyBench上表现水平不同的验证器模型进行筛选：Llama-3.1-8B-Instruct、Qwen3-4B和Qwen3-1.7B。只有被一致验证为正确的完成答案才被保留，形成SFT训练数据。研究团队据此进行了独立的SFT训练运行。

结果表明，在GSM8K、MATH500和SVAMP这三个数学推理基准测试上，使用在VerifyBench上获得更高准确率的Qwen3-4B作为验证器，在相同训练步骤下始终优于得分较低的Llama-3.1-8B-Instruct。这突显了VerifyBench与实际应用之间的强烈一致性。该基准测试是可靠的工具，可以指导奖励系统的开发，导致更有效的训练和改进的模型性能。

五、未来方向与局限性

虽然这项研究取得了令人鼓舞的成果，但研究团队也坦诚地承认了工作中的一些局限性，并指出了未来研究的潜在方向。

首先，数据领域的限制。该研究仅使用了来自一般推理、逻辑推理和数学推理的数据集，没有涵盖全部推理类型，如常识推理。因此，测试集可能无法充分评估奖励系统在领域外场景中的质量。这就像是一个考试只测试了部分科目，而没有全面评估学生的所有能力。

其次，人工标注的偏差。虽然所有标注员都经过了培训，并采用了双重检查策略，但在手动标注过程中完全消除标注偏差仍然具有挑战性。这种主观性可能会对数据质量产生微妙但重要的影响。

第三，奖励黑客攻击的识别。虽然实验表明基于规则的奖励系统在VerifyBench和VerifyBench-Hard上的表现都不如基于模型的方法，但一个关键问题仍未解决：奖励黑客攻击。未来的研究应该关注检测和评估奖励黑客现象。奖励黑客是指AI系统找到了满足奖励函数但违背其设计意图的捷径，就像学生找到了应付考试但不真正掌握知识的技巧。

第四，证明问题的排除。在标注过程中，研究团队明确排除了基于证明的问题。研究团队认为此类问题需要更专业的验证方法，如形式语言Lean4。因此，证明问题未包含在本研究中，其验证仍然是一个开放的研究挑战。

最后，二元评分系统的局限性。该研究采用了二元评分系统，每个完成答案被标记为正确或不正确。然而，现实场景通常涉及更微妙的情况，如部分正确的推理过程或子问题的正确解决方案。引入更精细的评估方案可能更好地捕捉这些复杂性。

这些局限性不仅为未来研究提供了方向，也为使用这些基准测试的研究者提供了重要的背景信息，帮助他们正确理解和解释结果。

六、结论与意义

在这项开创性的研究中，研究团队提出了两个专门的基准测试——VerifyBench和VerifyBench-Hard，用于评估基于参考的奖励系统在面向推理的强化学习环境中的表现。这些基准测试基于高质量、精心收集的数据和广泛的人工标注构建，为理解验证器准确性提供了坚实的基础。

研究结果揭示了当前验证器，尤其是参数较小的模型，在准确评估推理完成答案方面仍面临相当大的挑战。通过详细分析不同数据领域和答案类型的性能模式和错误类别，研究团队为改进基于参考的奖励系统提供了有价值的见解。

这项研究的实际意义不容忽视。在强化学习训练中，高质量的奖励信号是培养强大的推理能力的关键。通过提供评估和比较不同验证方法的标准化框架，VerifyBench和VerifyBench-Hard可以指导研究者开发更准确、更可靠的基于参考的奖励系统，最终提升通过强化学习训练的模型的推理能力。

这就像是为教育系统提供了标准化测试，帮助教育者评估和改进他们的教学方法，最终培养出更具批判性思维和解决问题能力的学生。在人工智能领域，这种能力的提升可能对科学研究、医疗诊断、金融分析等需要强大推理能力的应用产生深远影响。

总之，这项研究不仅填补了评估基于参考的奖励系统的关键空白，还为未来的研究提供了丰富的见解和明确的方向。随着大型推理模型继续发展，VerifyBench和VerifyBench-Hard将成为确保这些系统能够有效学习、准确推理和可靠执行复杂任务的重要工具。

最后，对于有兴趣深入了解这项研究的读者，可以通过访问arXiv:2505.15801v1获取完整论文，或访问ZJU-REAL/VerifyBench查看相关代码和数据集。

HQY

要和谐，要有爱~

VerifyBench：为大语言模型的基于参考的奖励系统搭建基准测试毛主席曾留下6大预言：当时没人信！今5个已应验，第6个正在实现

hqy 发表于2025-06-07 18:11:33 浏览25 评论0百度已收录

少长咸集

« 2025年9月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30