
为什么语言模型推理能力的评估「水分」这么大?
近几年,ChatGPT、Claude等大模型的「数学解题」「逻辑推理」能力突飞猛进,各大实验室争相发布「突破性成果」。但论文一针见血地指出:很多所谓的进步,可能只是评测标准不统一导致的假象!

论文:A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
链接:https://arxiv.org/pdf/2504.07086比如,同一道数学题,模型答案的正确率可能因为以下「玄学因素」剧烈波动:
随机种子:就像抽奖的运气,换一个随机数,正确率能差10%以上温度参数:模型答题是「保守」还是「放飞自我」,结果天差地别硬件配置:用不同的GPU跑同一模型,正确率能差8%提示词格式:加不加「请仔细思考」这句话,可能让结果直接崩盘更夸张的是,许多论文评测时只用30道题的小数据集(如AIME’24)。这种情况下,多答对1题就能让正确率提升3%,导致结果毫无说服力。
实验:连硬件和标点符号都能影响结果?
为了验证这些「玄学因素」,作者做了大量实验:
随机种子实验:用20个不同的随机种子测试模型,发现正确率波动最高达15%温度参数对比:温度调高(模型更「放飞」),正确率可能提升,但波动也更大硬件差异:同一模型在不同GPU集群上跑,正确率差异堪比模型升级提示词格式:用错聊天模板,指令微调模型的性能直接「腰斩」最讽刺的是,某些论文宣称的「RL方法提升10%」,在统一评测标准后,实际改进连统计显著性都没有。
强化学习(RL)进步是假,监督微调(SFT)才是真神?
论文最颠覆的结论是:当前强化学习(RL)对推理能力的提升被严重高估,而监督微调(SFT)才是「低调的实力派」。
RL的尴尬:在蒸馏模型(如DeepSeek-R1)上,RL训练几乎无提升,甚至可能过拟合小数据集(如AIME’24)。换到新数据集(如AIME’25),RL模型的性能直接「跳水」。SFT的稳定:用高质量解题步骤数据做监督微调,模型在多个基准上表现稳定,且能泛化到新任务(如OlympiadBench)。例如,OpenThinker模型在标准化评测中全面碾压RL方法。论文甚至调侃:「RL训练像买彩票,SFT才是存定期」。
如何让评测不再「玄学」?
作者提出一套「防坑指南」,呼吁行业统一标准:
硬件软件标准化:所有实验用同一Docker镜像和云服务器(如Runpod的A100)。多随机种子测试:小数据集至少跑10次取平均,避免「运气好」导致的虚高结果。超参数调优:每个模型单独调温度、top_p等参数,不能「一刀切」。答案匹配优化:用LaTeX解析答案,避免字符串匹配的「格式投机」(如\boxed{2}和2算同一答案)。此外,作者开源了所有代码、提示词和模型输出,号召「阳光评测,拒绝黑箱」。