自 ChatGPT 诞生,到现在已经发布的非常多模型,这些模型之间有什么关系,GPT-4o、o1等分别表示什么意思?本文详细介绍了 ChatGPT 的所有大语言模型。
GPT 全称 Generative Pretrained Transformer,中文是:生成式预训练 Transformer 模型。
GPT-1
发布日期:2018 年 6 月
参数量:11700 万(117M)
介绍:GPT-1 是首次利用 Transformer 结构搭建的一个预训练模型,通过先在大型数据集上预训练,再在特定任务的较小数据集上微调,使模型能学习广泛的语言理解能力,并适应具体任务。
P.S.:GPT-1 只能完成一些简单的任务,如文本生成、翻译,且效果并不是很好。
GPT-2
发布日期:2019 年 2 月
参数量:15 亿(1.5B)
介绍:2018 年 10 月, Google 以一个更大的模型(340M) BERT 在多方面超越了 GPT-1,所以为了反超 BERT,OPEN AI 在 GPT-1 的基础上增大了模型参数和训练样本,训练出了 GPT-2。但结果是,作为一个更大的模型,GPT-2 并没有明显超越 BERT,但 OPEN AI 又不想放弃 GPT 模型,所以转变了思想,将 GPT-2 的卖点转向 zero-shot,即 GPT 模型可以在未经微调,没有示例的情况下,仅根据任务的描述生成语句。如今也证明,OPEN AI 是高瞻远瞩的。
P.S.:zero-shot 意味着大语言模型(Large Language Model, LLM)已经有了雏形,但GPT-2 仍然只能完成简单的任务,原因可能是算法、语料等方面仍有不足,GPT-2 的参数量为 1.5B,而同样 1.5B 的 Qwen 模型经由 DeepSeek 蒸馏后已经可以超越 GPT-4
GPT-3
发布日期:2020 年 6 月
参数量:1750 亿(175B)
介绍:GPT-3 在 GPT-2 的基础上将参数量扩大了 100 倍,具有前所未有的通用性。有人使用 GPT-3 撰写了一篇关于独角兽的新闻稿,已经很难分辨真假,这也是为什么 GPT 模型通常使用独角兽表示。GPT-3 开放了 API 接口,供应用程序调用。
InstructGPT
发布日期:2022 年 1 月
参数量:13 亿(1.3B)
介绍:虽然 GPT-3 在许多任务上都展现出了令人惊艳的结果,但是仍存在一些时候 GPT-3 无法遵循用户指令。由于 GPT-3 开放了 API 接口供 300 多个应用程序使用,因此 OPEN AI 收到了调用者的许多反馈,根据这些反馈使用基于人类反馈的进行强化学习(Reinforcement Learning from Human Feedback, RLHF)对 GPT-3 进行微调,得到了 InstructGPT。
GPT-3.5
发布日期:2022 年初
参数量:未知,但微软在一篇论文中提到 GPT-3.5 的参数为 200 亿(20B)。
介绍:OPEN AI 声称在 2022 年初完成了 GPT-3.5 的训练,后来在其基础上使用 RLHF 微调得到了大名鼎鼎的 ChatGPT,于 2022 年 11 月正式发布。不久后,OPEN AI 推出了 GPT-3.5 的增强版 GPT-3.5-turbo,其中“turbo”指涡轮增压,意味着这是 GPT-3.5 的升级优化版本。GPT-3.5 系列进行了多次升级优化,OPEN AI 声称微调后的 GPT-3.5-turbo 在某些任务上超过了基础班的 GPT-4。
P.S.:ChatGPT 是一款划时代的应用,真正意义上开启了大模型时代。
GPT-4
发布日期:2023 年 3 月
参数量:未明确官方数据,约 1.76 万亿(1760B)
介绍:GPT-4 首次加入了多模态能力,可以解析图像和音频。GPT-4 在语言理解与生成、学习与推理能力、多语言能力方面具有大幅度提升。此时,可以在 ChatGPT 中选择 GPT-4 作为对话模型。类似于 GPT-3.5,GPT-4 也有 turbo 版本 GPT-4-turbo.
P.S.:如果说 ChatGPT 开启了大模型时代,那么 GPT-4 可以说开启了多模态大模型时代。不过现在 GPT-4 和 GPT-4-turbo 已经没有了,ChatGPT 中的 GPT-4 系列模型已经全面替换成了 GPT-4o。
GPT-4o
发布日期:2024 年 5 月
参数量:未明确公布
介绍:“o”代表“omni”,即全能。GPT-4o 有强大的多模态处理能力,能同时处理文本、图像和音频输入;响应速度提升,支持更自然的实时对话和多种媒体的结合;整合了 Canvas,支持可视化的工作环境,可实时修改文本或代码。
P.S.: GPT-4o 体现了 OPEN AI 期望将全模态统一在 Transformer 框架下。
GPT-4o Mini
发布日期:2024 年 7 月
参数量:未明确公布
介绍:“Mini”很好理解,就是 GPT-4o 的轻量版,是通过 GPT-4o 知识蒸馏得到的一个参数量较小的模型,更经济实惠(API 价格低于 GPT-3.5),但能力略低于 GPT-4o。
P.S.:Mini 版本的提出就是为了降低成本,但 GPT-4o Mini 的能力高于 GPT-4,这使得其性价比远高于市面上的其他 AI 应用(DeepSeek 发布之前)。
OpenAI o1-Mini
发布日期:2024 年 9 月
参数量:未明确公布
介绍:不同于 GPT-4o 系列,GPT o1 系列竟然先发布了 Mini 版和 Preview 版,同年 12 月才发布了“满血版”。OpenAI o1 相较于之前的模型有很大不同,在于 OpenAI o1 是一个推理模型,具有思考过程,也就是具备推理能力,在多数任务中超过了 GPT-4o。OPEN AI 并没有具体说明“o1”中的“o”是什么意思(一种说法是 “o” 代表 “Orion”猎户座,下一代大模型的代号c),只是在文档中提到:由于推理模型是一个里程碑式的模型,代表了人工智能能力的新水平,鉴于此,将计数器重置为 1,并将这一系列命名为 OpenAI o1。
P.S.:实际上,OpenAI o1 已经不再属于 GPT 系列,因为 OPEN AI 不仅将计数器重置,模型名称中的“GPT-”也被改为了“Open AI”。OPEN AI 大概也希望自己的模型能够与其他企业的 AI 模型区分开,比较 GPT 全称 Generative Pretrained Transformer,本质上与 OPEN AI 并无关系。
OpenAI o1-Preview
发布日期:2024 年 9 月
参数量:未明确公布
介绍:o1 系列的预览版,API 价格与 o1 满血版相同,在 ChatGPT 中正式上架 Open AI o1 前的替代品。最大上下文与 o1-Mini 版相同,最大输出长度小于 o1-Mini 版,均小于 o1 满血版。
OpenAI o1
发布日期:2024 年 12 月
参数量:未明确公布
介绍:满血版的推理模型 Open AI o1,价格昂贵,API 价格为:输出每百万 Token 约 435.79 元,输入每百万 Token 约 108.95 元(缓存命中 54.47 元)。同样作为推理模型,DeepSeek R1 的价格为:输出每百万 Token 16 元,输入每百万 Token 4 元(缓存命中 1 元)。
OpenAI o3-Mini
发布日期:2025年 1 月 31 日
参数量:未明确公布
介绍:o1 的下一代(不知道为什么没有 o2),同样属于推理模型,目前没有满血版,所有用户都可免费使用。OpenAI o3-Mini 是 OPEN AI 的模型中仅次于OpenAI o1 满血版的模型,在科学、数学和编程方面表现出色。OPEN AI 同时还开放了 OpenAI o3-Mini-high,在一些任务上优于OpenAI o1。
P.S.:被 DeepSeek 逼出来的模型。另外,一个模型有这么多版本,都 Mini 版了,还要再来一个 Mini-high 版,足见其在赚钱和留住用户之间很难做出平衡。
GPT-4.5-Preview
发布日期:2025年 2 月 28 日
参数量:未明确公布,OPEN AI 称这是自己最大的模型
介绍:非推理模型,相比于 GPT-4 来说回答更精简。
P.S.:应该没有什么实质性的创新,只是通过堆参数刷分。API 价格暴涨:输出每百万 Token 约 1090 元,输入每百万 Token 约 546 元(缓存命中 273 元)。由于 GPT-4.5 的回答会更精简一些,所以消耗的 tokens 数相对较少,按照 OPEN AI 给出的例子,一次普通的对话大约需要 500 tokens,换算下来约 0.5 元。这只是最简单的一个问答,如果用于编写代码或者文章,所消耗的 tokens 数应该远超于 500,一次对话的花费很有可能达到几十甚至上百元。