关于 AI 基准测试及其报告方式的争议,正在逐渐进入公众视野。
本周,一名 OpenAI员工指控 埃隆·马斯克(Elon Musk)旗下的 AI 公司 xAI在公布最新 AI 模型 Grok 3的基准测试结果时存在误导性。对此,xAI 联合创始人 Igor Babushkin坚称公司所发布的数据是准确的。
真相或许介于两者之间。
在 xAI官方博客的文章中,该公司发布了一张图表,展示了 Grok 3在 AIME 2025基准测试中的表现。AIME 2025是一项包含高难度数学题目的测试集,取自近期的一场数学邀请赛。虽然部分专家质疑 AIME 是否适合作为 AI 的基准测试,但该测试及其早期版本仍被广泛用于评估 AI 模型的数学能力。
xAI 的图表显示,Grok 3 Reasoning Beta和 Grok 3 mini Reasoning在 AIME 2025测试中超越了 OpenAI 目前最强的 o3-mini-high 模型。然而,OpenAI 的员工很快在 X(原 Twitter)上指出,xAI 的图表并未包含 o3-mini-high 在 “cons@64” 设置下的 AIME 2025 分数。
什么是 cons@64?
“cons@64” 是 “consensus@64”的缩写,在基准测试中,它允许模型尝试 64 次来解答每一道题目,并选取最常见的答案作为最终答案。可以想象,这种方式通常会显著提高 AI 模型的得分。
由于 xAI的图表省略了 o3-mini-high 在 cons@64 设置下的成绩,可能会给人一种错觉,即 Grok 3 超越了 OpenAI 的模型,而实际上并非如此。
在 AIME 2025的“@1”测试(即模型第一次作答时的得分)中,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的分数均低于 OpenAI 的 o3-mini-high。此外,Grok 3 Reasoning Beta 甚至略低于 OpenAI 的 o1(中等计算配置)。然而,xAI 仍然宣称 Grok 3 是“全球最聪明的 AI”。
xAI 反击:OpenAI 也有类似操作
Igor Babushkin在 X上反驳称,OpenAI 过去也曾发布过类似“误导性”基准测试图表,只不过这些图表主要是 OpenAI 内部模型之间的比较。在这场争论中,一名相对中立的研究人员重新绘制了一张更“准确”的图表,展示了几乎所有模型在 cons@64设置下的真实表现。
基准测试的核心问题:计算成本未知
然而,AI 研究员 Nathan Lambert指出,这场争论中最关键的问题仍然是未知的——每个模型达到最佳分数所需的计算资源(以及成本)是多少?
这一点凸显了 AI 基准测试的局限性:它们很少能真正反映 AI 模型的计算成本、局限性以及实际应用价值。