xAI 夸大了 Grok 3 的基准测试成绩吗？

关于 AI 基准测试及其报告方式的争议，正在逐渐进入公众视野。

本周，一名 OpenAI员工指控 埃隆·马斯克（Elon Musk）旗下的 AI 公司 xAI在公布最新 AI 模型 Grok 3的基准测试结果时存在误导性。对此，xAI 联合创始人 Igor Babushkin坚称公司所发布的数据是准确的。

真相或许介于两者之间。

在 xAI官方博客的文章中，该公司发布了一张图表，展示了 Grok 3在 AIME 2025基准测试中的表现。AIME 2025是一项包含高难度数学题目的测试集，取自近期的一场数学邀请赛。虽然部分专家质疑 AIME 是否适合作为 AI 的基准测试，但该测试及其早期版本仍被广泛用于评估 AI 模型的数学能力。

xAI 的图表显示，Grok 3 Reasoning Beta和 Grok 3 mini Reasoning在 AIME 2025测试中超越了 OpenAI 目前最强的 o3-mini-high 模型。然而，OpenAI 的员工很快在 X（原 Twitter）上指出，xAI 的图表并未包含 o3-mini-high 在 “cons@64” 设置下的 AIME 2025 分数。

什么是 cons@64？

“cons@64” 是 “consensus@64”的缩写，在基准测试中，它允许模型尝试 64 次来解答每一道题目，并选取最常见的答案作为最终答案。可以想象，这种方式通常会显著提高 AI 模型的得分。

由于 xAI的图表省略了 o3-mini-high 在 cons@64 设置下的成绩，可能会给人一种错觉，即 Grok 3 超越了 OpenAI 的模型，而实际上并非如此。

在 AIME 2025的“@1”测试（即模型第一次作答时的得分）中，Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的分数均低于 OpenAI 的 o3-mini-high。此外，Grok 3 Reasoning Beta 甚至略低于 OpenAI 的 o1（中等计算配置）。然而，xAI 仍然宣称 Grok 3 是“全球最聪明的 AI”。

xAI 反击：OpenAI 也有类似操作

Igor Babushkin在 X上反驳称，OpenAI 过去也曾发布过类似“误导性”基准测试图表，只不过这些图表主要是 OpenAI 内部模型之间的比较。在这场争论中，一名相对中立的研究人员重新绘制了一张更“准确”的图表，展示了几乎所有模型在 cons@64设置下的真实表现。

基准测试的核心问题：计算成本未知

然而，AI 研究员 Nathan Lambert指出，这场争论中最关键的问题仍然是未知的——每个模型达到最佳分数所需的计算资源（以及成本）是多少？

这一点凸显了 AI 基准测试的局限性：它们很少能真正反映 AI 模型的计算成本、局限性以及实际应用价值。

返回搜狐，查看更多

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

HQY

要和谐，要有爱~

xAI 夸大了 Grok 3 的基准测试成绩吗？

hqy 发表于2025-02-27 04:58:34 浏览37 评论0百度已收录

少长咸集