×

GPT4.5发布, 价格是DeepSeek的1000倍?

hqy hqy 发表于2025-03-04 12:00:23 浏览8 评论0百度已收录

抢沙发发表评论

在三天前 ,OpenAI的GPT4.5专场直播,终于姗姗来迟

ChatGPT 4.5(GPT-4.5)是什么?

GPT-4.5是OpenAI发布的AI模型,与以往的GPT-4和GPT-4o相比,在规模和性能上有了飞跃式的提升。可以在ChatGPT中使用。

特别是,它在“无监督学习的扩展”方面下了很大功夫,AI能够从海量数据中自行学习模式和关系,从而能够提供更高级的知识和创造性的见解。

在初期测试中,已确认与GPT-4.5的对话更加自然,它理解用户意图的能力也有所提高。

此外,由于进化后的“情商(情感智能)”,在实际问题解决、文章创作、编程支持等方面,GPT-4.5发挥出了更高的性能。

ChatGPT 4.5(GPT-4.5)的性能详解

GPT-4.5具体是一款具有哪些特征的模型呢?在这里,我们将结合与GPT-4o等的比较,解说GPT-4.5包括性能方面在内的详细特征。

无监督学习的规模扩展

规模扩展示意图GPT-4.5最大的特点是,将重点放在了无监督学习的规模扩展上。无监督学习:一种让AI从大量数据(文本、图像、音频等)中自行学习模式和关系的方法。优点:由于无需准备教师数据(带有正确答案标签的数据),因此可以利用大量数据。缺点:难以控制学习方向,且难以理解AI的判断依据(黑箱化)。规模扩展:通过增加计算资源(计算机性能)和数据量来提升AI模型的性能。一般来说,计算资源和数据量越多,AI模型的性能就越高(规模扩展法则)。然而,规模扩展是有限度的,仅仅单纯扩大规模,性能也可能会达到瓶颈。在GPT-4.5中,除了通过增加计算资源(计算机性能)和数据量进行“规模扩展”之外,还通过改进模型结构和学习方法,最大限度地发挥无监督学习的效果。

更自然的对话

GPT-4.5在初期测试中显示,相比GPT-4o,它能够进行“更自然的”对话。

这被认为是以下因素导致的:

更广泛的知识基础理解用户意图能力的提升进化后的“情商(心理智能指数)”

高情商(共情力)

GPT-4.5被认为具有理解人类情感和意图、生成共情回应的高能力(情商)。

例如,当用户因考试失利而情绪低落时,GPT-4o会详细地给出具体建议,而GPT-4.5则会首先贴近用户的感受,给予共情的话语,并表现出倾听的态度。

实际上,与GPT-4o比较的结果如下:

情商测试结果(比较GPT-4.5和GPT-4o的回答时,GPT-4.5的胜率)(参考:OpenAI)可以说,GPT-4.5是一款能够根据不同情况选择合适回应(建议、鼓励、闲聊等)、更像人类的AI。

事实性的提升(减少幻觉)

幻觉:指大语言模型(LLM)生成与事实不符信息的现象。GPT-4.5在SimpleQA测试中,记录的幻觉率比GPT-4o和o1模型都要低。幻觉率:比例越低越好。(参考:OpenAI)这被认为是由于通过无监督学习的规模扩展,GPT-4.5获得了更准确的“世界模型”(现实世界知识)。减少幻觉在提高AI的可信度方面是非常重要的因素。

知识库

SimpleQA是用于测量大语言模型(LLM)事实性(知识准确性)的基准测试。测试中会提出一些简单但难度较高的知识问题。

GPT-4.5在SimpleQA测试中,取得了超越其他模型的高正确率。

SimpleQA基准测试(参考:OpenAI)

推理能力(学术基准测试)

GPT-4.5在测量推理能力的学术基准测试中,也取得了优于GPT-4o的成绩。

在科学、数学、多语言、多模态、编程等各个领域的基准测试中,它都发挥出了高性能。

【比较表(GPT-4.5、GPT-4o、OpenAI o1、o3-mini)】从这些结果可以看出,与包括GPT-4o在内的现有模型相比,GPT-4.5在知识准确性、事实性、共情性、推理能力等各个方面都具有卓越的性能。

可控性的提升

GPT-4.5引入了一种新的可扩展技术,该技术利用从较小规模模型获得的数据,对大规模且高性能的模型进行高效训练。

由此,GPT-4.5的可控性(能够控制回应风格和语气等)得到了提升。

ChatGPT 4.5(GPT-4.5)的收费

目前,只有ChatGPT Pro计划的用户或通过API才能使用。

不过,据山姆·奥特曼(Sam Altman)称,下周起ChatGPT Plus的订阅用户也将能够使用。

ChatGPT 4.5(GPT-4.5)的API收费

由于GPT-4.5是一个规模非常大且计算负荷高的模型,与GPT-4o以及专门用于推理的OpenAI o系列模型相比,其API收费设定得较高。

模型输入(正常)输入(使用缓存时)输出gpt-4.5-preview75美元37.5美元150美元

与其他主要模型的比较表如下:

模型输入(正常)输入(使用缓存时)输出GPT-4.575美元37.5美元150美元GPT-4o2.5美元1.25美元10美元OpenAI o115美元7.5美元60美元OpenAI o3-mini1.1美元0.55美元4.4美元

不过,“GPT-4.5是一款侧重于无监督学习的模型”,其设计理念与专门用于推理的o系列模型不同。因此,简单进行费用比较也存在一定难度。

此外,目前GPT-4.5是作为研究预览版提供,API的长期提供尚未确定。OpenAI表示,在今后推进模型开发的过程中,会对是否继续通过API提供进行研究。

ChatGPT 4.5(GPT-4.5)的实际使用方法

ChatGPT 4.5可以通过ChatGPT服务(网站或应用程序)、Azure等云服务提供商,以及API来使用。

在ChatGPT服务中的使用方法

在ChatGPT服务中使用GPT-4.5,与以往一样,通过选择模型即可使用。

此外,除了聊天,GPT-4.5还可以使用以下功能:

搜索功能文件和图像上传画布功能(写作、编程)

API的使用方法(面向开发者)

GPT-4.5可以通过以下API使用:

Chat Completions API可以通过聊天形式的界面与GPT-4.5进行对话。可以集成到各种应用程序(聊天机器人、文章创作工具、翻译工具等)中。Assistants API可以将GPT-4.5用作执行特定任务的助手(代理)。例如,客户服务助手、数据分析助手、编程助手等。Batch API可以批量处理大量文本数据。例如,大量文档的摘要、翻译、分类等。GPT-4.5的API还支持以下功能:函数调用结构化输出流式传输系统消息图像输入(视觉功能)

ChatGPT 4.5(GPT-4.5)的安全性

像GPT-4.5这样的高性能AI模型,在有可能给社会带来巨大利益的同时,也伴随着被滥用或引发意外结果的风险。

这里将解说GPT-4.5在安全性方面的相关举措。

深度学习

GPT-4.5的学习采用了新的监督方法。

传统的有监督微调(SFT):一种使用人类创建的正确答案数据(例如:问题与答案对)来训练模型的方法。基于人类反馈的强化学习(RLHF):一种将人类反馈(例如:哪个回答更好)作为奖励来训练模型的方法。新的监督方法:在GPT-4.5中,除了SFT和RLHF之外,还引入了一种新的可扩展技术,该技术利用从较小规模模型获得的数据,对大规模且高性能的模型进行高效训练。人们期望通过这些技术,GPT-4.5能够生成更符合人类价值观的安全回应。

安全性测试(Preparedness Framework)

GPT-4.5在公开前,接受了基于OpenAI的Preparedness Framework的一系列安全性测试。

Preparedness Framework:OpenAI开发的AI模型安全性评估框架。安全性测试评估内容GPT-4.5是否会生成有害内容(歧视性言论、暴力表达等)是否会生成错误信息(幻觉)是否有可能被恶意利用(欺诈、垃圾邮件等)

应用案例

GPT-4.5凭借其高性能和多样的特征,有可能在各个领域得到应用。这里介绍一些具体的应用场景(应用案例)。

SVG的创建(有模型间的比较)搭载于AI编辑器Cursor游戏开发

com/article/what-is-claud-3-7-sonnet

创作支持

支持创作各种文章,如博客文章、报告、邮件、小说、诗歌、剧本、策划书、演示资料等。

支持文章创作的各个流程,如提出创意、制定结构方案、文章校对、摘要、翻译等。

根据用户的指示(主题、关键词、文体、字数等)生成最合适的文章。

编程支持

支持代码的自动生成、补全、调试、重构等。可以根据自然语言指示生成代码(例如:“用Python编写一个计算1到100之和的函数”)。指出代码错误并提供修正方案。提出提高代码可读性和可维护性的建议。

学习支持(辅导)

可以作为支持个人学习的AI教练来使用。

根据用户的水平和目标,制定学习计划、出题、进行讲解。还提供激励话语和建议,以维持学习动力。可以应用于各种学习领域,如语言学习、编程学习、备考资格考试等。

头脑风暴

可以作为生成新创意的头脑风暴伙伴来使用。

从各种角度对用户的创意提出意见和问题。通过提供相关信息或组合创意,激发新的想法。有可能产生一个人想不到的新颖创意。

缺点-贵

总结

本文对GPT-4.5的概要、性能、特征、应用场景、使用方法、安全性等进行了解说。GPT-4.5是一款通过无监督学习的规模扩展,在知识基础、事实性、情商(共情力)、创造性等方面都有所提升的高性能AI模型。ChatGPT Pro用户现在就可以立即尝试使用。此外,开发者可以通过API将GPT-4.5集成到各种应用程序中。让我们期待GPT-4.5今后的进一步发展,以及它在更广泛领域的应用。