【CNMO 科技】2 月 18 日,马斯克旗下的人工智能公司 xAI 举办了一场新品发布会。此次发布会的主角是 xAI 公司最新研发的 AI 大模型—— Grok 3。
在正式发布前,马斯克就曾公开放话,Grok 3 是 " 地球上最聪明的人工智能 ",其推理能力将超越包括 ChatGPT 和 DeepSeek 在内的其他领先 AI 模型。当然,嘴炮谁都能打,是骡子是马,还得牵出来溜溜。
惊艳亮相
在发布会上,xAI 公司宣布将推出 Grok 3 的两个版本:功能全面的 Grok-3 和针对低计算场景优化的 Grok-3 mini。其中,Grok-3 可以为用户提供更加智能、高效的体验,其包含了全套功能如 DeepSearch、Think 和 Big Brain 等。而 Grok-3 mini 则通过针对低计算场景的训练,旨在满足更多场景下的应用需求。
据 xAI 公司分享的基准测试结果显示,Grok-3 及其精简版 Grok-3 mini 在编码、数学问题解决以及科学推理等关键任务上的表现均优于 OpenAI 的 GPT-4、Gemini、Claude 和 Deep Seek 等业界知名模型。
在备受瞩目的 Chatbot Arena(LMSYS)排行榜中,早期版本的 Grok-3 凭借出色的表现成功登顶,获得了 1400 分的最高分,力压 Gemini 2.0 Flash Thinking、DeepSeek 等强劲对手。
尽管 xAI 相对于谷歌或 OpenAI 等业界巨头而言仍算是一位新兴势力,但 Grok-3 所取得的这些性能数据无疑是一项令人瞩目的成就。
高效、透明与全面
在 Grok-3 问世后,其强大的功能和卓越的性能引发了广泛讨论。作为一名科技爱好者,我也获得了在有限时间内免费试用这款 AI 聊天机器人的机会。通过亲身体验,我对 Grok-3 有了更深入的了解和认识。
初次接触 Grok-3 时,其简洁而直观的用户界面给我留下了深刻印象。无论是通过移动设备上的 X 应用程序,还是直接在网页上访问 x.com/i/grok 页面,我都能轻松地与 Grok-3 进行交互,这对用户非常友好。
Grok-3 目前提供了两个核心功能:Think 和 DeepSearch。Think 功能为 Grok-3 的交互增添了推理能力,使其能够像 DeepSeek 的 DeepThink、谷歌的 Gemini 2.0 Flash Thinking Experimental 以及 OpenAI 的 o 系列模型一样,为用户提供更加智能和高效的体验。而 DeepSearch 则相当于 xAI 的 Deep Research 工具,它为用户提供了一个强大的知识收集和处理平台,使得用户能够轻松获取所需信息。
在试用 Think 功能时,我感受到了 Grok-3 在推理方面的强大能力。我曾询问 Grok-3 关于微软新量子计算芯片的相关性问题,Grok-3 不仅迅速给出了回答,还展示了其全面的思考过程。它不仅关注到了量子计算芯片的科学应用和潜在好处,还指出了与之相关的风险和挑战。
相比之下,我之前使用过的 Gemini AI 在回答类似问题时显得更为克制和学术化。虽然 Gemini 也提供了详细的分段细分和引用材料,但其答案往往更加抽象和理论化,使得用户难以理解和接受。而 Grok-3 在解释复杂术语时则采取了更加自由主义的方法,使得答案更加易于理解和接受。这种人性化的回答方式无疑会增强用户对 Grok-3 的好感和信任度。
在体验 DeepSearch 功能时,Grok-3 的表现也相当出色。与 Gemini Deep Research 需要等待批准研究方法不同,Grok-3 在我提交问题后立即开始执行任务。它不仅汇总了所有相关的知识库,还通过实时编译的数据进行推理,最终以综合报告的形式呈现给我。这种高效的处理方式让我在短时间内获得了大量有价值的信息。
值得一提的是,Grok-3 在呈现答案时非常透明。我可以看到收集和寻找答案背后的详细思考过程,包括整个过程的阶段范围细分和实时进行的数据处理。这种透明度不仅增强了我对 Grok-3 的信任感,还有助于我更好地理解其决策逻辑和推理过程。这种开放和透明的态度无疑是 Grok-3 在 AI 领域赢得用户信任的重要因素之一。
当然,Grok-3 也存在可以改进的地方。例如,在 DeepSearch 功能中,我无法在代理搜索开始之前编辑研究计划。这在一定程度上限制了我的灵活性,使得我无法根据实际需求对研究计划进行调整和优化。此外,虽然 Grok-3 在回答大多数问题时都表现得非常出色,但在某些特定领域或复杂问题上,其回答可能还不够深入和全面。这些问题虽然存在,但并不影响我对 Grok-3 整体性能和用户体验的认可。
竞争与挑战
尽管 Grok-3 的表现相当出色,但 AI 领域的竞争日益激烈,Grok-3 仍面临着诸多挑战。在当前 AI 代理这一新兴领域中,Deep Research 并非一枝独秀。OpenAI 推出的 Operator 能够通过控制 Web 浏览杂务来代表用户执行复杂网络任务。同时,OpenAI 还与多家企业达成合作,将 Operator 打造成具有广泛影响力的 AI 代理典范。
OpenAI 还推出了 ChatGPT 插件系统,通过与多家平台的集成,进一步增强了聊天机器人的功能。相比之下,Grok-3 在插件系统和合作伙伴拓展方面尚需努力。
与此同时,来自中国的 DeepSeek 也凭借其 DeepThink 思考和推理产品搅动了华尔街。目前,DeepSeek 已经被多家公司所采用,在中国拥有极高的市场影响力。这些竞争对手的存在无疑为 Grok-3 的市场推广带来了更大的挑战和不确定性。