×

“最聪明的ChatGPT”来了,这次真的很不一样?

hqy hqy 发表于2025-04-27 09:39:36 浏览8 评论0百度已收录

抢沙发发表评论

北京时间4月16日,OpenAI正式发布了两款全新的人工智能AI推理模型——o3和o4-mini,在回应问题前会“思考更久”的o3和o4-mini,是OpenAI目前发布的最强模型,代表了ChatGPT在能力上的再度升级。无论是好奇探索的普通用户,还是专业研究人员,从现在开始都可以体验/使用这两个新推理模型。

这是OpenAI首次推出具备“代理执行”能力的推理模型,新模型能自主使用并整合ChatGPT中的所有工具,包括联网搜索、用Python分析上传文件和数据、图像推理,甚至图像生成。更重要的是,新模型在训练中被教会如何判断何时、如何使用工具,以在复杂问题下快速(通常在一分钟内)生成细致且高质量的答案,并以合适的格式输出。这种能力大幅提升了新推理模型处理多层次问题的能力,向“能为你独立完成任务”的智能体迈进了一步。

先进的推理能力加上全面的工具使用权限,让这两个新推理模型在学术评测和真实应用中表现出色,重新定义了智能和实用性的标准。

换用更加通俗易懂的话来说,可以是这样:如果说以前的ChatGPT像一个勤奋的“答题机器”,那么现在OpenAI最新发布的o3和o4-mini模型,已经能“主动帮你做事”了。正如OpenAI举出这样一个简单例子,用户提问:“今年夏天加州的用电量会比去年高吗?”过去,ChatGPT可能只给出一些大致预测,现在,则会先从网上找数据,再自己写代码进行预测分析,并制作直观的图表告诉用户答案。这种“主动思考、自动行动”的能力。

1,新模型有哪些变化?

o3:史上最强推理模型,智商再创新高

o3是OpenAI目前最强的推理模型,全面提升了编程、数学、科学、视觉感知等多个领域的能力。o3在多个权威评测中刷新纪录,包括Codeforces、SWE-bench(无需为模型量身打造的代码框架)以及MMMU。该推理模型非常适合处理需要多维度分析、答案不那么直接的问题。

尤其在图像相关任务中表现优异,比如分析图片、图表和图形。外部专家评估显示,o3在处理困难任务时比o1减少了20%的重大错误,特别是在编程、商业/咨询和创意构思领域表现突出。早期测试者称o3是“思维伙伴”,能够提出并严谨评估创新假设,尤其适用于生物、数学和工程等专业领域。

o4-mini:小巧但高效,追求极致性价比

o4-mini是一款更小巧、但优化过的模型,兼顾速度和成本效率,尤其在数学、编程和图像任务中表现不俗。o4-mini是AIME 2024和2025数学测试中目前表现最好的模型。在非STEM(理工科)领域和数据科学上,o4-mini也超越了前代o3-mini。

o4-mini运行速度更快、成本更低,很适合需要大规模、快速响应的任务,比如大批量的数据分析、快速的图像推理等。对于那些预算有限、但希望体验高端智能模型的用户来说,o4-mini是理想选择。

外部专家一致认为,o3和o4-mini在指令理解、回应质量和可验证性方面都较前代有显著提升,尤其是通过结合联网信息与更强的智能能力。同时,相较于前代,这两个新模型的对话也更加自然、有个性,能参考用户的记忆和过往对话内容,让回应更加贴合语境。

强化学习规模化:“让AI多想一会儿”,效果会更好

在o3的开发过程中,OpenAI发现大规模强化学习同样遵循“计算量越大,效果越好”的规律(和GPT预训练类似)。此次OpenAI在训练和推理阶段投入了更大规模的计算资源,并验证了——只要允许模型“多想一会儿”,则表现还会继续提升。更直白地说就是,模型思考越久、投入计算资源越多,推理的准确度和质量也越高——“AI越想越聪明”。

OpenAI还通过强化学习教会模型如何使用工具,甚至如何判断何时使用工具。这样的“目标导向”思维方式,使模型在开放式任务中表现更强,特别是在图像推理和多步骤工作流程中。

此外,这次的模型还能将图像纳入推理链条中,真正实现“看图思考”。例如,用户上传白板照片、教材图示、手绘草图等,即使图像模糊、反转或分辨率低,模型也能理解图上的内容,并自主通过使用工具进行实时操作,如旋转、放大、图像转换等,作为推理的一部分。

这类多模态能力让模型在视觉感知方面取得了前所未有的准确度,解决了许多原本难以处理的问题。

向“智能代理”迈进:自动使用各种工具帮用户完成复杂任务

o3和o4-mini不仅能使用ChatGPT所有内置工具,还支持用户通过API提供的自定义工具(通过 function calling)。这两款新模型被训练为能自主判断问题,并快速决定何时用什么工具来生成结构化、有深度的解答——模型能“自己挑选工具来帮你解决复杂问题”。

比如,用户可以问:“今年夏天加州的用电情况会比去年多吗?”模型可以先搜索加州公用事业公司的数据,然后编写Python脚本进行预测分析,生成图表,再解释影响预测的关键因素。整个过程涉及多个工具的有机衔接。

新模型还可以根据查询结果“见招拆招”:如果初次搜索信息不足,模型会自动换关键词重搜,直到找到有用内容。这种灵活、策略性强的工作流程,使模型能处理需要实时信息、复杂推理、跨模态输出的任务。

AI更聪明也更省钱:全面提升使用体验

o3和o4-mini不仅是OpenAI最聪明的模型,也比前代 o1和o3-mini更高效。例如,在2025年AIME数学竞赛中,o3在相同成本下取得更好表现;o4-mini相较o3-mini也是全面升级。OpenAI预计,在大多数真实应用中,o3和o4-mini都会在“聪明程度”与“性价比”上全面领先。

终端上的智能助手:Codex CLI首次亮相

OpenAI还推出了一个实验项目Codex CLI,一个轻量级的编程助手,可直接在终端运行——不仅支持o3和o4-mini模型的推理能力,未来还将支持GPT-4.1等API模型。

通过终端,用户可以上传截图或草图,结合本地代码,让模型进行多模态推理。这是连接用户与模型的“最小接口”。

Codex CLI是完全开源的,代码托管在github上。

同时,OpenAI还设立了100万美元的资助计划,支持使用Codex CLI和OpenAI模型的项目。每个项目可申请最高2.5万美元的API点数。申请通道现已开放。

2,如何使用?

从今天起,ChatGPT Plus、Pro和Team用户可以在模型选择器中使用o3、o4-mini和o4-mini-high,替代原来的o1、o3-mini和o3-mini-high。ChatGPT Enterprise和Edu用户将在一周后获得访问权限。免费用户可以在提交问题前选择「Think」来体验o4-mini。各套餐的调用频率限制暂不变化。OpenAI也预计,将在接下来的几周内发布支持全部工具的o3-pro。当前,Pro用户仍可访问o1-pro。

开发者今天也可以通过Chat Completions API和 Responses API使用o3 和o4-mini(部分开发者可能需要验证组织账户)。Responses API支持保留推理过程、函数调用上下文、生成摘要等功能,并即将支持内建工具如网页搜索、文件搜索和代码解释器。