上周五,加利福尼亚大学圣地亚哥分校的 Hao 人工智能实验室开展了一项别具一格的研究,他们把 AI 应用到经典游戏《超级马力欧兄弟》中,以此对 AI 性能展开测试。测试结果表明,Anthropic 的 Claude 3.7 展现出最为优异的表现,Claude 3.5 紧追其后,然而谷歌的 Gemini 1.5 Pro 以及 OpenAI 的 GPT-4o 表现欠佳。此次实验并非采用 1985 年最初发行的游戏版本,而是借助实验室自主研发的 GamingAgent 框架,在模拟器里进行。GamingAgent 为 AI 提供基础指令和游戏截图,AI 则生成 Python 代码来控制马力欧。研究人员注意到,像 OpenAI 的 o1 这类推理模型,其表现比不上 “非推理” 模型,主要原因在于它们决定行动需要花费数秒时间,可在《超级马力欧兄弟》这款游戏里,时机的把握极为关键。虽说游戏向来都是衡量 AI 性能的重要手段,不过部分专家对将游戏表现与技术进步直接划等号的做法持有怀疑态度。游戏环境相对来说较为简单和抽象,能够为 AI 训练提供海量数据。尽管如此,观看 AI 操控马力欧玩游戏,本身也是一种饶有趣味的体验。