xAI 是否对 Grok 3 的基准测试撒了谎？

关于人工智能基准的争论——以及人工智能实验室如何报告这些基准——正在进入公众视野。

本周，一名 OpenAI 员工指责埃隆·马斯克的人工智能公司 xAI 发布

了其最新人工智能模型 Grok 3 的误导性基准测试结果。xAI 的联合创始人之一 Igor Babushkin坚称该公司的做法是正确的。

事实则介于两者之间。

在xAI 博客的一篇文章中，该公司发布了一张图表，展示了 Grok 3 在 AIME 2025 上的表现，AIME 2025 是最近一次邀请数学考试中的一组具有挑战性的数学问题。一些专家质疑 AIME 作为 AI 基准的有效性。尽管如此，AIME 2025 和旧版本的测试通常用于探测模型的数学能力。

xAI 的图表显示了 Grok 3 的两个变体，Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning，在 AIME 2025 上击败了 OpenAI 表现最佳的可用模型o3-mini-high。但 OpenAI X 的员工很快指出，xAI 的图表并不包括 o3-mini-high 在“cons@64”的 AIME 2025 得分。

您可能会问，cons@64 是什么？其实，它是“consensus@64”的缩写，它基本上会给模型 64 次尝试来回答基准测试中的每个问题，并将最常生成的答案作为最终答案。您可以想象，cons@64 往往会大大提高模型的基准测试分数，而从图表中省略它可能会让人觉得一个模型优于另一个模型，但实际上并非如此。

Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 在 AIME 2025 中的得分为“@1”（即模型在基准测试中获得的第一个分数），低于 o3-mini-high 的得分。Grok 3 Reasoning Beta 也略微落后于 OpenAI 的o1 模型，后者设置为“中等”计算。然而，xAI 却将Grok 3 宣传为“世界上最聪明的人工智能”。

Babushkin在 X 上辩称，OpenAI 过去也发布过类似的误导性基准图表——尽管这些图表比较的是其自身模型的性能。辩论中较为中立的一方制作了一个更“准确”的图表，显示了几乎所有模型在 cons@64 上的表现：

但正如人工智能研究员 Nathan Lambert在一篇文章中指出的那样，也许最重要的指标仍然是个谜：每个模型获得最佳分数所需的计算（和金钱）成本。这恰恰表明大多数人工智能基准测试很少传达模型的局限性及其优势。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

HQY

要和谐，要有爱~

xAI 是否对 Grok 3 的基准测试撒了谎？

hqy 发表于2025-02-27 04:28:48 浏览13 评论0百度已收录

少长咸集