×

xAI 在 Grok 3 的基准测试上疑似伪造

hqy hqy 发表于2025-02-27 04:31:25 浏览9 评论0百度已收录

抢沙发发表评论

在当今人工智能飞速发展的时代,AI 基准测试作为衡量模型能力的关键手段,其重要性不言而喻。通过设计合理的任务、数据集和指标对大模型进行基准测试,不仅能评估当前技术水平,指引学术研究和产品研发方向,还能增进公众对人工智能的正确认知。然而,近期关于 AI 基准测试以及 AI 实验室如何报告这些基准测试的争论,却逐渐进入公众视野,引发了广泛关注。

本周,AI 领域就掀起了一场不小的波澜。一位 OpenAI 员工公开指责埃隆・马斯克旗下的人工智能公司 xAI,称其为最新 AI 模型 Grok 3 发布的基准测试结果具有误导性。Grok 3 作为 xAI 团队研发的第三代大语言模型,采用了 10 万块英伟达 H100 AI 芯片进行训练,主要应用于训练 AI 聊天机器人,自发布以来就备受瞩目。而 OpenAI 这边,o3-mini-high 是其在相关领域表现最佳的可用模型之一,o3-mini 是 OpenAI 于 2024 年 12 月 20 日发布的人工智能 “推理” 精简版模型,比之前推出的 o1 模型功能更强大,在编码评估、数学能力测试等方面都有出色表现。

面对 OpenAI 员工的指责,xAI 的联合创始人之一伊戈尔・巴布什金坚称公司并无不当。那么,这场争议的焦点究竟在哪呢?

原来,xAI 在其博客文章中发布了一张图表,展示了 Grok 3 在 AIME 2025 上的表现。AIME 2025 是近期一场邀请制数学考试中极具挑战性的数学题集合,尽管一些专家对 AIME 作为 AI 基准的有效性存疑,但 AIME 2025 及旧版本测试通常被用于评估模型的数学能力。xAI 的图表显示,Grok 3 的两个变体,即 Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning,在 AIME 2025 上击败了 OpenAI 的 o3 - mini - high。然而,OpenAI 员工在 X 平台上迅速指出,xAI 的图表未包含 o3 - mini - high 的 AIME 2025 分数 “cons@64”。

或许有人会问,cons@64 是什么?它是 “consensus@64” 的缩写,指模型对基准测试中的每个问题进行 64 次尝试回答,并将生成频率最高的答案作为最终答案。可想而知,cons@64 往往能大幅提高模型的基准测试分数,在图表中省略这一数据,可能会让一个模型看似超越了另一个模型,而实际情况并非如此。实际上,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 在 AIME 2025 中的 “@1” 分数(即模型在基准测试中获得的第一个分数)低于 o3 - mini - high。Grok 3 Reasoning Beta 也略落后于设置为 “中等” 计算的 OpenAI 的 o1 模型。但 xAI 却将 Grok 3 宣传为 “世界上最聪明的 AI”,这难免让人心生质疑。