北京时间4月16日，OpenAI正式发布了两款全新的人工智能AI推理模型——o3和o4-mini，在回应问题前会“思考更久”的o3和o4-mini，是OpenAI目前发布的最强模型，代表了ChatGPT在能力上的再度升级。无论是好奇探索的普通用户，还是专业研究人员，从现在开始都可以体验/使用这两个新推理模型。

这是OpenAI首次推出具备“代理执行”能力的推理模型，新模型能自主使用并整合ChatGPT中的所有工具，包括联网搜索、用Python分析上传文件和数据、图像推理，甚至图像生成。更重要的是，新模型在训练中被教会如何判断何时、如何使用工具，以在复杂问题下快速（通常在一分钟内）生成细致且高质量的答案，并以合适的格式输出。这种能力大幅提升了新推理模型处理多层次问题的能力，向“能为你独立完成任务”的智能体迈进了一步。

先进的推理能力加上全面的工具使用权限，让这两个新推理模型在学术评测和真实应用中表现出色，重新定义了智能和实用性的标准。

换用更加通俗易懂的话来说，可以是这样：如果说以前的ChatGPT像一个勤奋的“答题机器”，那么现在OpenAI最新发布的o3和o4-mini模型，已经能“主动帮你做事”了。正如OpenAI举出这样一个简单例子，用户提问：“今年夏天加州的用电量会比去年高吗？”过去，ChatGPT可能只给出一些大致预测，现在，则会先从网上找数据，再自己写代码进行预测分析，并制作直观的图表告诉用户答案。这种“主动思考、自动行动”的能力。

1，新模型有哪些变化？

o3：史上最强推理模型，智商再创新高

o3是OpenAI目前最强的推理模型，全面提升了编程、数学、科学、视觉感知等多个领域的能力。o3在多个权威评测中刷新纪录，包括Codeforces、SWE-bench（无需为模型量身打造的代码框架）以及MMMU。该推理模型非常适合处理需要多维度分析、答案不那么直接的问题。

尤其在图像相关任务中表现优异，比如分析图片、图表和图形。外部专家评估显示，o3在处理困难任务时比o1减少了20%的重大错误，特别是在编程、商业/咨询和创意构思领域表现突出。早期测试者称o3是“思维伙伴”，能够提出并严谨评估创新假设，尤其适用于生物、数学和工程等专业领域。

o4-mini：小巧但高效，追求极致性价比

o4-mini是一款更小巧、但优化过的模型，兼顾速度和成本效率，尤其在数学、编程和图像任务中表现不俗。o4-mini是AIME 2024和2025数学测试中目前表现最好的模型。在非STEM（理工科）领域和数据科学上，o4-mini也超越了前代o3-mini。

o4-mini运行速度更快、成本更低，很适合需要大规模、快速响应的任务，比如大批量的数据分析、快速的图像推理等。对于那些预算有限、但希望体验高端智能模型的用户来说，o4-mini是理想选择。

外部专家一致认为，o3和o4-mini在指令理解、回应质量和可验证性方面都较前代有显著提升，尤其是通过结合联网信息与更强的智能能力。同时，相较于前代，这两个新模型的对话也更加自然、有个性，能参考用户的记忆和过往对话内容，让回应更加贴合语境。

强化学习规模化：“让AI多想一会儿”，效果会更好

在o3的开发过程中，OpenAI发现大规模强化学习同样遵循“计算量越大，效果越好”的规律（和GPT预训练类似）。此次OpenAI在训练和推理阶段投入了更大规模的计算资源，并验证了——只要允许模型“多想一会儿”，则表现还会继续提升。更直白地说就是，模型思考越久、投入计算资源越多，推理的准确度和质量也越高——“AI越想越聪明”。

OpenAI还通过强化学习教会模型如何使用工具，甚至如何判断何时使用工具。这样的“目标导向”思维方式，使模型在开放式任务中表现更强，特别是在图像推理和多步骤工作流程中。

此外，这次的模型还能将图像纳入推理链条中，真正实现“看图思考”。例如，用户上传白板照片、教材图示、手绘草图等，即使图像模糊、反转或分辨率低，模型也能理解图上的内容，并自主通过使用工具进行实时操作，如旋转、放大、图像转换等，作为推理的一部分。

这类多模态能力让模型在视觉感知方面取得了前所未有的准确度，解决了许多原本难以处理的问题。

向“智能代理”迈进：自动使用各种工具帮用户完成复杂任务

o3和o4-mini不仅能使用ChatGPT所有内置工具，还支持用户通过API提供的自定义工具（通过 function calling）。这两款新模型被训练为能自主判断问题，并快速决定何时用什么工具来生成结构化、有深度的解答——模型能“自己挑选工具来帮你解决复杂问题”。

比如，用户可以问：“今年夏天加州的用电情况会比去年多吗？”模型可以先搜索加州公用事业公司的数据，然后编写Python脚本进行预测分析，生成图表，再解释影响预测的关键因素。整个过程涉及多个工具的有机衔接。

新模型还可以根据查询结果“见招拆招”：如果初次搜索信息不足，模型会自动换关键词重搜，直到找到有用内容。这种灵活、策略性强的工作流程，使模型能处理需要实时信息、复杂推理、跨模态输出的任务。

AI更聪明也更省钱：全面提升使用体验

o3和o4-mini不仅是OpenAI最聪明的模型，也比前代 o1和o3-mini更高效。例如，在2025年AIME数学竞赛中，o3在相同成本下取得更好表现；o4-mini相较o3-mini也是全面升级。OpenAI预计，在大多数真实应用中，o3和o4-mini都会在“聪明程度”与“性价比”上全面领先。

终端上的智能助手：Codex CLI首次亮相

OpenAI还推出了一个实验项目Codex CLI，一个轻量级的编程助手，可直接在终端运行——不仅支持o3和o4-mini模型的推理能力，未来还将支持GPT-4.1等API模型。

通过终端，用户可以上传截图或草图，结合本地代码，让模型进行多模态推理。这是连接用户与模型的“最小接口”。

Codex CLI是完全开源的，代码托管在github上。

同时，OpenAI还设立了100万美元的资助计划，支持使用Codex CLI和OpenAI模型的项目。每个项目可申请最高2.5万美元的API点数。申请通道现已开放。

2，如何使用？

从今天起，ChatGPT Plus、Pro和Team用户可以在模型选择器中使用o3、o4-mini和o4-mini-high，替代原来的o1、o3-mini和o3-mini-high。ChatGPT Enterprise和Edu用户将在一周后获得访问权限。免费用户可以在提交问题前选择「Think」来体验o4-mini。各套餐的调用频率限制暂不变化。OpenAI也预计，将在接下来的几周内发布支持全部工具的o3-pro。当前，Pro用户仍可访问o1-pro。

开发者今天也可以通过Chat Completions API和 Responses API使用o3 和o4-mini（部分开发者可能需要验证组织账户）。Responses API支持保留推理过程、函数调用上下文、生成摘要等功能，并即将支持内建工具如网页搜索、文件搜索和代码解释器。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

HQY

要和谐，要有爱~

“最聪明的ChatGPT”来了，这次真的很不一样？

hqy 发表于2025-04-27 09:39:36 浏览18 评论0百度已收录

1，新模型有哪些变化？

2，如何使用？

少长咸集