×

xAI 夸大了 Grok 3 的基准测试成绩吗?

hqy hqy 发表于2025-02-27 04:58:34 浏览29 评论0百度已收录

抢沙发发表评论

关于 AI 基准测试及其报告方式的争议,正在逐渐进入公众视野。

本周,一名 OpenAI员工指控 埃隆·马斯克(Elon Musk旗下的 AI 公司 xAI在公布最新 AI 模型 Grok 3的基准测试结果时存在误导性。对此,xAI 联合创始人 Igor Babushkin坚称公司所发布的数据是准确的

真相或许介于两者之间。

xAI官方博客的文章中,该公司发布了一张图表,展示了 Grok 3AIME 2025基准测试中的表现。AIME 2025是一项包含高难度数学题目的测试集,取自近期的一场数学邀请赛。虽然部分专家质疑 AIME 是否适合作为 AI 的基准测试,但该测试及其早期版本仍被广泛用于评估 AI 模型的数学能力。

xAI 的图表显示Grok 3 Reasoning BetaGrok 3 mini ReasoningAIME 2025测试中超越了 OpenAI 目前最强的 o3-mini-high 模型。然而,OpenAI 的员工很快在 X(原 Twitter上指出,xAI 的图表并未包含 o3-mini-high 在 “cons@64” 设置下的 AIME 2025 分数

什么是 cons@64?

“cons@64” 是 “consensus@64”的缩写,在基准测试中,它允许模型尝试 64 次来解答每一道题目,并选取最常见的答案作为最终答案。可以想象,这种方式通常会显著提高 AI 模型的得分

由于 xAI的图表省略了 o3-mini-high 在 cons@64 设置下的成绩,可能会给人一种错觉,即 Grok 3 超越了 OpenAI 的模型,而实际上并非如此。

AIME 2025的“@1”测试(即模型第一次作答时的得分)中,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的分数均低于 OpenAI 的 o3-mini-high。此外,Grok 3 Reasoning Beta 甚至略低于 OpenAI 的 o1(中等计算配置)。然而,xAI 仍然宣称 Grok 3 是“全球最聪明的 AI”

xAI 反击:OpenAI 也有类似操作

Igor BabushkinX上反驳称,OpenAI 过去也曾发布过类似“误导性”基准测试图表,只不过这些图表主要是 OpenAI 内部模型之间的比较。在这场争论中,一名相对中立的研究人员重新绘制了一张更“准确”的图表,展示了几乎所有模型在 cons@64设置下的真实表现。

基准测试的核心问题:计算成本未知

然而,AI 研究员 Nathan Lambert指出,这场争论中最关键的问题仍然是未知的——每个模型达到最佳分数所需的计算资源(以及成本)是多少?

这一点凸显了 AI 基准测试的局限性:它们很少能真正反映 AI 模型的计算成本、局限性以及实际应用价值

返回搜狐,查看更多