
近日,一项全新的 AI 基准测试 ——EnigmaEval 横空出世,其难度之高,令所有参与测试的 AI 模型都遭遇了 “滑铁卢”,得分均为零。这一测试的出现,无疑为当前 AI 发展的热潮泼了一盆冷水,也引发了各界对 AI 实际能力的深入思考。

EnigmaEval 由 ScaleAI、MIT 研究者及 Center for AI Safety 联合推出,旨在全面评估 AI 的推理与多模态理解能力。该基准测试共包含 1184 道谜题,这些谜题可不是普通的题目,它们分为普通和困难两类,其中困难谜题有 235 道。每一道谜题都设计得极为巧妙且复杂,通常需要一个人类团队花费几个小时,甚至数天的时间才能解开,涉及逻辑推理、数学、密码学、图像分析等多个领域,需要综合运用跨学科知识。
以其中一道困难谜题为例,它可能将一段加密的文本、一幅蕴含线索的图像以及一系列看似毫无关联的数字相结合,要求解答者通过对不同模态信息的分析、整合,运用逻辑推理和创造性思维,才能找到最终答案。这种复合型的测试方式,将 AI 的推理能力与文档解析能力进行了有效区分,确保评估结果能够真实反映模型的独立推理水平。
在此次测试中,诸多前沿的 AI 模型纷纷 “折戟”。像 OpenAI 的 o1 和 Gemini 2.0 这样备受瞩目的模型,在面对这些高难度谜题时也显得力不从心。数据显示,在普通谜题部分,领先的视觉 - 语言模型最高准确率仅为 7%,而到了困难谜题部分,所有模型的准确率竟直接降至 0%。这一结果令人大跌眼镜,也充分暴露了当前 AI 技术在复杂任务面前的短板。
为何 AI 模型在 EnigmaEval 测试中表现如此糟糕?一方面,尽管现代深度学习模型在自然语言处理和图像生成等特定领域取得了显著进展,但在面对需要多轮推理、知识迁移以及创造性思维的复杂问题时,其灵活性与适应性仍严重不足。例如,当谜题需要模型从一个领域的知识跳跃到另一个领域,并将不同信息进行创造性整合时,AI 往往难以找到有效的解决路径。另一方面,部分模型在 OCR(光学字符识别)和文档处理能力上存在缺陷,这也影响了它们对谜题中多模态信息的准确理解和处理。即使模型在某些方面具备一定的生成能力,但基础的数据处理能力短板却限制了其整体性能的发挥。
不过,EnigmaEval 测试的意义并非仅仅在于揭示 AI 的不足。它为 AI 研究人员提供了一个全新的视角和方向,促使他们深入思考如何提升 AI 的推理能力和多模态理解能力。通过分析模型在测试中的失败案例,研究人员可以有针对性地改进模型架构、优化训练算法,以增强模型在复杂任务中的表现。同时,这一测试也提醒了广大用户和企业,在应用 AI 技术时,要充分认识到其当前的局限性,避免过度依赖。