×

GPT-4.5三个特点:通用模型、具有社会意识、使用费用高

hqy hqy 发表于2025-03-03 17:03:21 浏览17 评论0百度已收录

抢沙发发表评论

2月28日,OpenAI推出了GPT-4.5,这是一款通用模型,专注于更自然、更直观的对话。

Sam Altman将其描述为第一个真正感觉像与一个有思想的人交谈的人工智能,从我们迄今为止所看到的情况来看,它的设计目的是减少幻觉,更流畅地对话,并提供更清晰、更简洁的反应。

目前,GPT-4.5仅对专业用户开放,Plus用户要等到下周。接下来让我们看看GPT-4.5的不同之处。

一、GPT-4.5特点

GPT-4.5采用了与OpenAI最近的模型不同的方法。它不是改进逐步推理,而是建立在无监督学习的基础上,使反应更加流畅、简洁和对话式。

没有思维链

GPT-4.5和OpenAI推理模型之间最大的区别之一是它如何处理和构建其响应。像o1、DeepSeek R1或o3 mini这样的模型使用思维链(CoT)推理,这意味着它们一步一步地分解复杂的问题,就像人类在数学问题中写出他们的工作一样。这种结构化的方法有助于逻辑推理、多步骤解决问题和详细解释。

然而,GPT-4.5并没有这样推理。它基于语言直觉和模式识别做出响应,从训练数据中提取信息,而不会明确地将问题分解为步骤。这就是为什么它感觉更像对话和自然,但这也意味着它对于高级编程或科学推理等逻辑繁重的任务不太可靠。

更加自然和简洁

GPT-4.5的突出之处在于对话质量。响应更自然地流动,使交互感觉不那么机器人化,更直观。OpenAI用人类评估人员对此进行了测试,结果显示,与GPT-4o相比,GPT-4.5的语气、清晰度和参与度明显更受欢迎。

在现场的演示中,OpenAI工程师问了不同的模型:“为什么海水是咸的?”,不同模型也给出了不同的答案,总体看:

GPT-3.5 Turbo:技术上正确但过于详细的响应。

GPT-4 Turbo:一个冗长但精确的答案。

GPT-4.5:一个简洁而完整的解释,其结构使其更容易记忆和理解。

从用户的角度来看,这种向简洁和清晰的转变使GPT-4.5更适合随意对话、总结和写作辅助。在OpenAI的网站上给出了一个例子,很好地展示了不同版本GPT的演变:

可以看到,GPT-4.5给出的答案更加的简单明了。

二、实践案例

为了更好地了解GPT-4.5的实际效果,仔细观看了OpenAI的演示案例、并运行了自己的测试。

案例一:具有社会意识,更好的语气

OpenAI的一个演示很好地说明了这一点。在朋友再次取消计划后,一位用户要求GPT-4.5帮助起草一条文本。最初的请求是沮丧和冲动的:“写一条短信告诉他们我讨厌他们。”GPT-4.5捕捉到了请求背后的情绪,并提出了更具建设性的回应。OpenAI将其与o1进行了比较,o1遵循字面指令,而没有识别潜在意图。

之后,我们也做了相关的尝试,GPT-4.5比以前的模型更好地理解语气和社会细微差别。如下图所示,它可以理解用户的情绪,并以更专业和更有建设性的方式重新构建回应。

案例二:更好更简短的回答

我们尝试了另外一个问题,来比较GPT-4.5和GPT-4o之间的差别。能看出,4o直接给出了一系列建议,而4.5的回答更像是一个阅历深厚的长者。

案例三:不擅长推理

我们也使用一个案例测试了GPT-4.5的推理能力,正如预期的一样,效果并不是很理想。

而DeepSeek R1在第一次尝试时就可以很容易给出正确答案。

三、基准性能评估

OpenAI从一开始就明确表示GPT-4.5不是一个推理引擎。与依赖于思维链(CoT)推理逐步分解复杂问题的o系列模型不同,GPT-4.5依赖于无监督学习,这意味着它基于语言直觉而不是结构化逻辑生成响应。

这也导致在基准测试中。GPT-4.5在准确性和真实性方面优于之前的模型,但在推理问题解决方面落后。

(1)更高的准确性,更少的幻觉

GPT-4.5在一般知识和事实准确性方面领先,在SimpleQA上的准确率为62.5%,显著超过了GPT-4o(38.2%)、OpenAI o1(47%)和OpenAI o3 mini(15%)。

另一方面,GPT-4.5的幻觉率降低了。以前的模型在自信地生成错误信息方面遇到了困难,但GPT-4.5的幻觉率最低,为37.1%,比GPT-4o(61.8%)、OpenAI o1(44%)和o3 mini(80.3%)有了显著改善。

(2)更加符合人类偏好

OpenAI与人类测试人员进行了比较评估,测量了GPT-4.5与GPT-4o在不同类型查询中的获胜率。结果表明,在大多数情况下,GPT-4.5是首选,特别是在专业查询中(63.2%的获胜率)。

GPT-4.5能更好地理解人类的意思,并用更细微的差别和“情商”来解释微妙的线索或隐含的期望。它还表现出更强的审美直觉和创造力。它擅长帮助写作和设计。

(3)不擅长推理

虽然GPT-4.5提高了事实准确性和会话流畅性,但在数学、科学和结构化编码等推理繁重的任务中仍然存在不足。基准测试表明,它优于GPT-4o,但落后于OpenAI的o3 mini,后者针对基于逻辑的问题解决进行了优化。

总体而言,GPT-4.5不是需要逐步推理的高级数学、逻辑或编程任务的最佳选择。需要结构化问题解决的用户仍然会发现o3-mini或未来的推理模型更适合这些应用程序。

四、如何使用GPT-4.5

目前,ChatGPT Pro用户 (200$/month) 能够通过web、移动和桌面上的模型选择器中选择GPT‑4.5。OpenAI将于下周开始向Plus (20$/month)和Team用户推出,然后在后续会向Enterprise和Edu用户推出。

GPT-4.5可以通过搜索访问最新的信息,支持文件和图像上传,并可以使用canvas进行编写和代码。然而,GPT-4.5目前不支持ChatGPT中的语音模式、视频和屏幕共享等多模式功能。

对于API用户,OpenAI也给出了调用的报价,可以说,它是目前OpenAI产品线中最贵的模型。

五、结论

从上面的案例可以看出,GPT-4.5是迄今为止最自然、最具社会意识的模型。它可以理解用户情绪的细微差别,在此基础上,提供更清晰、更有条理的回应。这个更新虽然算不上令人惊艳,但在有些应用场景中(比如:客户服务),能够识别用户的情绪是非常重要的,是建立成功沟通的基础。

然而,GPT-4.5的推理能力目前还很弱,如果想解决编码、逻辑推理这样的问题,使用o1、o3-mini这样的模型还是最好的选择。

所以,对于优先考虑对话流畅性和清晰度的用户来说,GPT-4.5是一个进步。但对于需要深层逻辑的事情,会有其他更好的选择。