×

强化学习 Scaling Law 遭挑战:数据量非关键,质量与相关性才是核心

hqy hqy 发表于2025-02-27 10:39:07 浏览11 评论0百度已收录

抢沙发发表评论

近日,一项关于强化学习的研究引发了人工智能领域的广泛关注。该研究对传统观念中 “扩大 RL 训练数据规模就能提升模型性能” 的观点提出了有力挑战,指出在提升语言模型推理能力方面,训练样本的质量和相关性远比数量重要。这一发现不仅为强化学习的发展开辟了新的视角,也可能对未来人工智能技术的优化产生深远影响。

DeepSeek-R1 引发的思考

此前,DeepSeek-R1 通过在强化学习训练中的创新应用,在数学、代码、自然语言推理等任务上取得了优异成绩,其测评性能与 OpenAI 开发的 GPT-o1 模型正式版接近,引发了业界对强化学习训练的高度关注。然而,随之而来的是对 RL 训练数据的诸多疑问:这些训练数据的透明度有限,究竟是方法本身的优势,还是数据集质量在其中起到了关键作用?这一系列问题促使研究人员深入探索 RL 训练数据的奥秘。

核心发现:质量优于数量

来自相关团队的最新研究深入探讨了强化学习训练数据有效性的核心问题。通过广泛的实证分析,研究团队得出了令人惊讶的结论:在提升语言模型推理能力时,训练样本的质量和相关性远超数量的重要性。

研究人员以 MATH-FULL 数据集为基础展开实验,该数据集包含 8523 个难度各异的数学问题。经过细致研究发现,不同训练样本对模型学习的贡献存在显著差异。一些样本在训练过程中表现出稳定的性能模式,而另一些样本则呈现出复杂的学习动态,正是这些复杂动态推动了模型性能的显著提升。

进一步的研究结果显示,经过精心挑选的 1389 个 RL 训练样本子集,能够实现与 8523 个样本的完整数据集相当甚至更优的性能。这意味着,在强化学习中,真正起关键作用的往往只是一小部分高质量、高相关性的问题,而非数据规模的简单扩大。

学习影响测量(LIM):优化数据价值的新方法

为了更好地量化和优化强化学习中训练数据的价值,研究团队提出了 “学习影响测量”(LIM)方法。这一方法通过分析学习动态,有效识别出最具价值的训练样本,为解决强化学习训练中数据效率的关键挑战提供了新途径。

LIM 的核心在于对模型对齐的轨迹进行分析,以此评估训练样本对模型学习的贡献价值。研究发现,那些学习模式与模型整体性能轨迹互补的样本,通常对模型优化具有更高的价值。具体而言,LIM 主要分为两个步骤:首先,对模型对齐的轨迹进行深入分析;其次,计算一个归一化对齐分数。通过这一分数,可以量化样本的学习模式与模型整体学习轨迹的对齐程度,分数越高,表明对齐程度越好。

基于对齐分数,LIM 采用了选择性抽样策略。在实验中,研究人员设置特定的质量阈值,筛选出高价值样本,从而形成优化的数据集(LIMR)。例如,当设置阈值 θ=0.6 时,从原始数据集中筛选出了 1,389 个高价值样本。

实验验证:LIMR 表现卓越

为验证 LIMR 方法的有效性,研究团队开展了一系列严谨的实验。在训练环节,采用 OpenRLHF 框架中实现的近端策略优化(PPO)算法,并以 Qwen2.5-Math-7B 为初始策略模型。在评估环节,选择了多个具有挑战性的基准测试,包括 MATH500、AIME2024 和 AMC2023,并借助 vLLM 框架提高评估效率。

实验结果显示,直接在 Qwen-Math-7B 上使用 MATH-FULL 数据集进行强化学习训练,模型性能得到显著提升。对比不同数据选择策略,使用随机抽样的 MATH-RAND 数据集训练,与完整数据集相比,平均准确率下降 8.1%;而采用基于线性进展分析的 MATH-LINEAR 数据集,准确率损失为 2%。与之形成鲜明对比的是,LIMR 数据集尽管规模仅为完整数据集的约 1/6(减少了 80%),但性能却与 MATH-FULL 几乎相当。

在训练过程中的各项指标演变方面,LIMR 和 MATH-FULL 的准确率曲线近乎一致,且均明显优于 MATH-RAND。在序列长度方面,MATH-FULL 的训练曲线不稳定,而 LIMR 的曲线先下降后逐渐上升。训练奖励方面,LIMR 的奖励曲线上升更快,最终接近 1.0,这充分表明模型在训练过程中能够更有效地利用 LIMR 数据集进行学习。

此外,在三个具有挑战性的基准测试上,LIMR 的性能均与 MATH-FULL 相当,且显著优于 MATH-RAND。尤其在 AIME24 和 AMC23 数据集上,LIMR 表现出色,有力证明了其性能提升并非源于对单个数据集的过拟合,而是真实反映了模型数学推理能力的提高。

研究团队还将强化学习与监督微调(SFT)进行对比。在数据稀疏且模型较小的情况下,使用来自特定数据集的少量数据,通过监督微调对 Qwen-2.5-Math-7B 进行训练,并与 LIMR 进行比较。实验结果表明,在相同数量级的数据下,与其他对比数据集相比,LIMR 在 AIME 上的相对提升超过 100%,在 AMC23 和 MATH500 上的准确率提高了 10% 以上。这进一步强调了在数据有限的场景以及小模型应用中,强化学习结合有效的数据选择策略,能够更有效地提升模型的推理能力。

行业影响与未来展望

这项研究成果对人工智能领域具有重要意义。它打破了人们对强化学习中数据规模的固有认知,为研究人员提供了一种全新的、高效且可扩展的 RL 训练解决方案。在实际应用中,该方法有助于优化资源配置,减少不必要的数据收集和处理成本,同时提升模型的性能和效果。