×

OpenAI深夜放出GPT-5狙击谷歌!基准测试碾压前代模型,价格比Claude更便宜

hqy hqy 发表于2025-08-09 11:46:25 浏览5 评论0百度已收录

抢沙发发表评论

整理 | 冬梅

GPT-5震撼发布,就像和博士级专家对话

北京时间8月8日凌晨1点,OpenAI 公司在其举办的线上发布会上宣布正式推出 GPT-5 模型。

与之前发布会的风格略有不同,本次发布会一开始 OpenAI CEO 山姆・奥尔特曼(Sam Altman)就率先出场宣布了OpenAI 已开始向所有 ChatGPT 用户推出其旗舰语言模型的最新迭代版本 ——GPT-5,并表示这是迈向通用人工智能(AGI)的重要一步。

尽管他并未声称该模型已达到通用人工智能水平,但Altman指出,这个最新版本 “显然是一个具备通用智能的模型”。他补充道,GPT-5 仍缺少实现通用人工智能所需的关键特质。通用人工智能在 OpenAI 的章程中被定义为 “一个高度自主的系统,在大多数具有经济价值的工作中表现优于人类”,这一术语的定义相对宽泛。例如,该模型在部署后仍不具备持续学习的能力。

OpenAI 宣称,GPT-5 比前代模型更智能、更快、更实用、更准确,幻觉率(即生成虚假信息的概率)也更低。该公司表示,在开发 GPT-5 的过程中,他们还进行了广泛的安全评估,包括 5000 小时的测试。 

OpenAI 后期培训负责人 Michelle Pokrass 在发布会上表示:“GPT-5 经过训练可以识别何时无法完成任务,避免猜测,并能更清楚地解释局限性,与之前的模型相比,这减少了不受支持的声明。”

Altman用典型的高调表述将 GPT-4 到 GPT-5 的飞跃比作 iPhone 从像素显示到视网膜显示屏的转变。他说:“GPT-5 是第一次真正让人感觉在和任何领域的专家交谈,就像在和博士级别的专家对话一样。”

作为本次发布内容的一部分,OpenAI 推出了两款新的模型版本:轻量型的 GPT-5-mini,以及速度更快、成本更低的 GPT-5-nano(仅通过 API 提供)。

据 OpenAI 介绍,免费用户将可使用 GPT-5 和 GPT-5-mini,而 Plus 订阅用户除了能使用这些模型外,还享有 “显著更高” 的使用限额。

OpenAI 表示,每月 200 美元的 Pro 套餐提供 GPT-5 的无限次访问权限,还包含更强大的 GPT-5-pro 版本,以及能让模型处理查询时间比常规更长的 GPT-5-thinking。Pro 用户仍可访问旧版模型。大多数用户不再需要在不同模型之间手动选择,因为聊天界面现在会根据查询的复杂程度和用户的订阅等级自动匹配最合适的版本。

根据开发者发布博客,使用 API 的开发者调用 GPT-5 时,输入 tokens 费用为 125 美元 / 百万,输出 tokens 费用为 10 美元 / 百万。

博客中还提到:“GPT-5 mini 的定价为输入 tokens 0.25 美元 / 百万,输出 tokens 2 美元 / 百万;GPT-5 nano 的定价为输入 tokens 0.05 美元 / 百万,输出 tokens 0.40 美元 / 百万。” 相比之下,开发者过去常使用 Gemini 2.5 Flash 和 Flash-Lite,因为它们价格低廉,而现在 GPT-5 nano 的价格更低。

从下周开始,Pro 用户将能够把他们的 Gmail、谷歌联系人及谷歌日历连接到 ChatGPT,其他等级用户的接入时间尚未确定。该公司在一封邮件中表示:“ChatGPT 会自动判断何时需要参考这些内容,因此用户在聊天前无需手动选择。”

用户还可以选择聊天界面的颜色,并从四种预设人格中挑选 ——“愤世嫉俗者”“机器人”“倾听者” 和 “书呆子”。根据 OpenAI 的博客公告,该公司计划将这些人格融入高级语音模式中。

OpenAI 的 API 将为用户提供这三款模型,并附带可选控制功能,可在详细回应和直接回应之间切换。

GPT-5 比前代模型能保留更多信息 —— 它拥有 256,000 tokens 的上下文窗口,比该公司之前 o3 模型的 200,000 tokens 有所提升。这意味着它能更好地理解长对话、长文档或代码,而不会丢失上下文信息。

多项测试击败前代模型,在健康领域能力最突出

OpenAI 在博客中称,GPT-5 在多项编程基准测试中超过了前代模型,包括 SWE-Bench Verified(得分 74.9%)、SWE-Lancer(GPT-5-thinking 得分 55%)和 Aider Polyglot(得分 88%)。这些测试旨在评估模型修复漏洞、完成自由职业风格编程任务以及跨多种编程语言工作的能力。

的性能提升不只是表现在基准测试上,后训练负责人 Michelle Pokrass表示:“它是出色的编程合作伙伴,在智能代理类任务中也表现出色。它能有效执行长链条任务和工具调用(这意味着它更清楚何时以及如何使用网页浏览器或外部 API 等功能),遵循详细指令,并对自身行为提供清晰的前期解释。”

他们演示了如何将 GPT-5 用于“氛围编码”,这是指用户根据简单的书面提示使用 AI 生成软件。 

在发布会现场,OpenAI 的后训练负责人 Yann Dubois让 GPT-5“为我的伴侣(一位英语使用者)创建一个美观、高度交互的法语学习网页应用”。

Yann Dubois要求 AI 包含每日进度记录、闪卡和测验等多种活动,并希望应用采用 “极具吸引力的主题”。大约一分钟后,AI 生成的应用程序就呈现出来了。虽然这只是一个预设流程的演示,但结果是一个简洁的网站,完全满足了Yann Dubois的要求。

OpenAI 的一位负责人表示,这些应用程序“存在一些缺陷”,但用户可以根据自己的需要对 AI 生成的软件进行额外的调整,例如更改背景或添加额外的标签。

OpenAI 在博客中还提到,GPT-5 是 “我们目前在健康相关问题上表现最佳的模型”。系统卡片(一份描述产品技术能力和其他研究成果的文档)显示,在三项 OpenAI 健康相关大语言模型基准测试 ——HealthBench、HealthBench Hard 和 HealthBench Consensus 中,GPT-5-thinking “大幅” 超过了前代模型。GPT-5-thinking 在 HealthBench Hard 中得分 25.5%,高于 o3 模型的 31.6%。系统卡片称,这些分数经过了两名或更多医生的验证。

Pokrass表示,该模型的幻觉问题(即 AI 提供虚假信息这一常见问题)也有所减少。

该公司的博客显示,在测试未接入网页浏览功能的 GPT-5 模型时,研究人员发现其幻觉率(他们将其定义为 “包含轻微或重大错误的事实性陈述的百分比”)比 GPT-4o 模型低 26%。与 o3 模型相比,GPT-5-thinking 的幻觉率降低了 65%。

OpenAI 表示,目前 ChatGPT 的周活跃用户近 7 亿,付费企业用户 500 万,使用其 API 的开发者达 400 万。

ChatGPT 负责人尼克・特利说:“这个模型给人的感觉非常好,我认为人们会真切地感受到这一点,尤其是那些平时不关注模型技术的普通用户。”

外界如何评价新模型?

GPT-5问世后,在全球各大社交平台引发热议。一些技术大佬们、硅谷CEO们也都在社交平台发文表达对GPT-5看法。

微软首席执行官萨蒂亚·纳德拉 (Satya Nadella) 在周四的 X 帖子中写道:

“今天,GPT-5 在我们的全平台正式上线,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 以及 Azure AI Foundry。

这是我们的合作伙伴 OpenAI 迄今为止能力最强的模型,在推理、编程和对话方面实现了重大突破,而这一切的训练均在 Azure 平台完成。

很难想象,距离山姆(@sama)来到雷德蒙德,在必应(Bing)上首次向世界展示 GPT-4,才不过两年半的时间(指的是 OpenAI 首席执行官 Altman 于 2023 年 2 月出现在华盛顿微软总部)而从那一刻起,我们取得的进展令人惊叹。

技术进步的步伐正在不断加快,我已经迫不及待地想看到开发者、企业和消费者将如何运用这一最新突破创造更多可能。”

Box CEO Aaron Levie 表示,之前的 AI 模型未能通过公司许多最先进的测试,因为它们难以理解长篇文档中复杂的数学或逻辑。但 Levie 表示,GPT-5 是一项“彻底的突破”。 

在Reddit平台,有网友感叹,模型越来越强大,自己距离失业越来越近。

也有人早就做好了迎接GPT-5的准备了,并且有用户也反馈GPT-4表现并未达到自己的预期,希望GPT-5能真正解决一些问题。

在X上,有用户对比了GPT-5和Claude 价格,发现相比之下GPT-5价格更低。

海量资讯、精准解读,尽在新浪财经APP