xAI 在 Grok 3 的基准测试上疑似伪造

在当今人工智能飞速发展的时代，AI 基准测试作为衡量模型能力的关键手段，其重要性不言而喻。通过设计合理的任务、数据集和指标对大模型进行基准测试，不仅能评估当前技术水平，指引学术研究和产品研发方向，还能增进公众对人工智能的正确认知。然而，近期关于 AI 基准测试以及 AI 实验室如何报告这些基准测试的争论，却逐渐进入公众视野，引发了广泛关注。

本周，AI 领域就掀起了一场不小的波澜。一位 OpenAI 员工公开指责埃隆・马斯克旗下的人工智能公司 xAI，称其为最新 AI 模型 Grok 3 发布的基准测试结果具有误导性。Grok 3 作为 xAI 团队研发的第三代大语言模型，采用了 10 万块英伟达 H100 AI 芯片进行训练，主要应用于训练 AI 聊天机器人，自发布以来就备受瞩目。而 OpenAI 这边，o3-mini-high 是其在相关领域表现最佳的可用模型之一，o3-mini 是 OpenAI 于 2024 年 12 月 20 日发布的人工智能 “推理” 精简版模型，比之前推出的 o1 模型功能更强大，在编码评估、数学能力测试等方面都有出色表现。

面对 OpenAI 员工的指责，xAI 的联合创始人之一伊戈尔・巴布什金坚称公司并无不当。那么，这场争议的焦点究竟在哪呢？

原来，xAI 在其博客文章中发布了一张图表，展示了 Grok 3 在 AIME 2025 上的表现。AIME 2025 是近期一场邀请制数学考试中极具挑战性的数学题集合，尽管一些专家对 AIME 作为 AI 基准的有效性存疑，但 AIME 2025 及旧版本测试通常被用于评估模型的数学能力。xAI 的图表显示，Grok 3 的两个变体，即 Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning，在 AIME 2025 上击败了 OpenAI 的 o3 - mini - high。然而，OpenAI 员工在 X 平台上迅速指出，xAI 的图表未包含 o3 - mini - high 的 AIME 2025 分数 “cons@64”。

或许有人会问，cons@64 是什么？它是 “consensus@64” 的缩写，指模型对基准测试中的每个问题进行 64 次尝试回答，并将生成频率最高的答案作为最终答案。可想而知，cons@64 往往能大幅提高模型的基准测试分数，在图表中省略这一数据，可能会让一个模型看似超越了另一个模型，而实际情况并非如此。实际上，Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 在 AIME 2025 中的 “@1” 分数（即模型在基准测试中获得的第一个分数）低于 o3 - mini - high。Grok 3 Reasoning Beta 也略落后于设置为 “中等” 计算的 OpenAI 的 o1 模型。但 xAI 却将 Grok 3 宣传为 “世界上最聪明的 AI”，这难免让人心生质疑。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

HQY

要和谐，要有爱~

xAI 在 Grok 3 的基准测试上疑似伪造

hqy 发表于2025-02-27 04:31:25 浏览13 评论0百度已收录

少长咸集