×

Grok-4,马斯克口中地表最强AI

hqy hqy 发表于2025-07-13 09:54:46 浏览3 评论0百度已收录

抢沙发发表评论

撰文 / 涂彦平

编辑 / 黄大路

设计 / 柴文静

失之东隅,收之桑榆。这句话放在马斯克身上再贴切不过了。

灰溜溜从白宫离开,与特朗普撕破脸,被大而美法案背刺,气得建立美国党,想玩政治反被政治玩。换个人都得自闭了,但老马转头就在AI赛道上搞了把大的。

2025年7月10日,马斯克旗下xAI公司发布了AI模型Grok-4。这个被他称为“世界上最聪明的AI”在各个AI基准测试中开启了屠榜模式。

先说说xAI,这家公司2023年7月12日成立,到今天将将两年。

公司创立之初,马斯克曾表示,构建xAI的目标是要专注于回答更深层次的科学问题,期望未来可以用AI去帮助人们解决复杂的科学和数学问题并且理解宇宙。

2025年1月16日,xAI上线推出网页版Grok AI聊天机器人。2月17日,xAI发布Grok-3聊天机器人。然后是刚刚,发布了新一代Grok-4大模型。

目前,Grok-4已经开启订阅。Grok-4系列包含Grok-4和Grok-4 Heavy两个版本,前者月费30美元,后者月费300美元。这是目前最昂贵的AI订阅计划。Grok-3则维持免费开放。

这个被马斯克自己视作地表最强的AI究竟是什么成色,可能还有待进一步验证。

据《连线》(WIRED)杂志报道,OpenAI近日挖来了四位高层工程师,其中包括Meta人工智能研究员Angela Fan,前特斯拉软件工程副总裁 David Lau,xAI和X前基础设施工程主管Uday Ruddarraju,xAI基础设施工程师Mike Dalton。

而更戏剧性的是,xAI首席科学家伊戈尔·巴布什金(Igor Babuschkin)在Grok-4发布几个小时前也宣布辞职了。

01

基准测试屠榜

“如果让Grok-4去考SAT,它每次都能拿到满分,即便它从未见过这些题目。”马斯克表示,Grok-4在各种基准测试中表现出色。

GPQA(研究生水平问答),得分88.9%;

AIME25(美国数学邀请赛),得分100%;

LiveCodeBench(编程基准),得分79.4%;

HMMT25(哈佛-麻省理工数学竞赛),得分96.7%;

USAMO25(美国数学奥林匹克竞赛),得分61.9%。

不过,更重要的是人文学科终极考试(Humanitys Last Exam,简称HLE)。这项考试总共有2500道题,涵盖数学、自然科学、工程以及其他人文学科。

Grok-4 Heavy在HLE中实现了最高44.4%的准确率。马斯克也表示,Grok-4在HLE所有领域都达到了博士级别。

ARC-AGI是评估真正通用人工智能所必需的推理能力的基准测试。Grok-4在ARC-AGI-2测试中,拿到了15.8%的准确率,成为过去三个月里唯一一个突破10%准确率大关的模型。

02

可能在明年发现新物理学

马斯克预计Grok最晚在明年,甚至可能在今年年底,就能发现有用的新技术。

此外,“可能在明年发现新的物理学,并且在两年内,我敢说几乎是肯定的。”在发布会上,马斯克让大家消化一下这句话的份量。

03

显著提高了工具使用能力

从Grok-2到Grok-3,再到Grok-4,每一次都将训练量提升了一个数量级。Grok-4的训练量是Grok-2的100倍、Grok-3的10倍。

从Grok-2到Grok-3,是预训练计算。从Grok-3到Grok-4,在强化学习的推理上投入了大量计算资源。

深度搜索是Grok-3的推理模型,但它没有经过任何特定的工具使用训练。

而Grok-4把工具的使用直接纳入了训练过程。事实证明,这显著提高了模型使用工具的能力。

04

Grok将与擎天柱机器人结合起来

不过,跟特斯拉或SpaceX使用的工具相比,Grok-4目前使用的工具仍然相当初级。

今年下半年,会为Grok-4提供特斯拉一样的工具。届时能带来最大改变的,将是通过人形机器人与现实世界进行互动的能力。

马斯克表示:“我们将Grok与擎天柱(Optimus)机器人结合起来,它就能真正地与现实世界互动,提出假设,然后验证这个假设是否正确。”

05

打破数据瓶颈成新挑战

随着模型越来越聪明,有挑战性的问题会越来越少。

马斯克表示:“我们已经快没有现成的测试题可以用了。即使是那些对人类来说极其困难甚至不可能的书面问题,对于AI来说也正迅速变得轻而易举。”

因此,找到大量有挑战性的强化学习问题,打破数据瓶颈,成为新的挑战。

马斯克认为,现实将是最终的裁判。比如,改进了汽车,汽车能开吗?创造了新药,新药有效吗?“这将是一个围绕现实闭环的强化学习过程。”

06

可以多个智能体协作

Grok-4是单智能体版本。Grok-4 Heavy是多智能体版本。

多智能体就像一个学习小组,一个智能体找到解决方案,会与其他智能体分享,然后给出一个答案。

xAI团队在发布会现场演示了Grok-4 Heavy如何预测今年美国职业棒球大联盟各队赢得世界大赛的赔率。它计算出洛杉矶道奇队获胜的几率是21.6%。

07

Eve现场唱歌剧

Grok的语音模式一直在改善。Eve,一个优美的英式女声,现场为健怡可乐唱了一段歌剧。

现场人机对话测试环节,Grok反应灵敏,且流畅自然。

语音模型推出之后,在过去8周内实现了端到端延迟降低2倍,提供了5种不同的声音,活跃用户增长了10倍。

08

Grok-4是赚钱高手

在售货机基准测试(Vending Bench)这一模拟商业场景中,Grok和其他模型需要做库存管理、与供应商签约、制定定价策略等事情,然后比赛谁赚的钱多。

结果,Grok-4创造的美元价值是排行榜第一名,且是第二名的两倍。

马斯克表示:“很高兴看到我们现在有办法支付所有GPU的费用了。我们只需要100万台自动售货机,每年就能赚47亿美元。”

09

AI电影和AI视频游戏预计明年问世

Grok只用四个小时就做出了一款第一人称射击游戏。

下一步,是让Grok能够玩游戏。当然,前提是它必须有非常好的视频理解能力。

马斯克表示:“预计第一款真正优秀的AI制作的视频游戏将在明年问世,今年可能会有第一部半小时长的可观看的AI电视节目,明年可能会有第一部可观看的AI电影。”

10

最终实现“像素输入,像素输出”

接下来,Grok代码模型、多模态智能体、视频生成模型等将陆续推出。

Grok-4的图像理解能力较弱,下一代预训练模型将带来的最直接的改进,就是模型在图像理解、视觉理解和音频方面的能力将实现阶梯式提升。

在多模态智能体之后,将是视频生成。最终,应该能实现“像素输入,像素输出”。

“我们预计将在未来三到四周内,开始用超过10万个GB200(芯片)来训练一个视频模型。我们相信它在视频生成和视频理解方面将非常壮观。”马斯克。

11

让AI极致地追求真相

So long, and thanks for all the fish.

发布会最后,屏幕上出现了道格拉斯·亚当斯《银河系搭车客指南》第四部的书名(《再会,谢谢所有的鱼》)。

这句话也是小说中高智慧生物海豚在逃离即将毁灭的地球时留给人类的最后信息。

马斯克是真爱科幻小说啊。不过,AI会毁灭地球吗?

他认为,对AI安全最重要的事情,就是让AI极致地追求真相。这也是一个根本原则。

“你可以把AI想象成一个超级天才的孩子,它最终会比你更聪明,但你仍然可以为它注入正确的价值观,鼓励它追求真理、荣誉和良善,就像人们教育孩子时所灌输的那些价值观一样,这个孩子最终会成长得无比强大。”

马斯克认为,计算能力加上正确的工具,AI最终将能够与物理世界互动。人类最终会拥有一个比当前经济体大几千倍甚至几百万倍的经济体。

届时如果文明没有自我毁灭,地球将可能达到卡尔达舍夫Ⅱ型文明等级。

这样的未来让人心潮澎湃,但也心生忐忑。

马斯克表示:“我有时确实会担心,创造出远超我们自身智慧的智能,这似乎有点令人不安,这对人类是好是坏?”

抛出这个问题之后,他又自己作答:“我认为,大概率是好的。但我在某种程度上说服了自己:即使结果不好,我至少也想活着亲眼见证它的发生。”