Nvidia正在向全球的数据中心以及其称为 AI 工厂的区域推出其 AI芯片,今日该公司宣布其 Blackwell 芯片在 AI 基准测试中表现领先。
Nvidia 与其合作伙伴正加速利用最新的训练和推理进展,推动下一代 AI 应用的训练和部署。
Nvidia 的 Blackwell架构旨在满足这些新型应用对性能日益增长的要求。在最新一轮的 MLPerf Training 基准测试(自 2018 年该基准测试推出以来的第 12 轮)中,Nvidia 的 AI 平台在所有基准测试中均在大规模场景下展现出最高性能,并且在针对大语言模型(LLM)的最苛刻测试 —— Llama 3.1 405B 预训练 —— 中为提交的每一项结果提供了支持。
Nvidia 在 MLPerf 训练基准测试上大力宣传了其优异的性能。
Nvidia 平台是唯一一个在所有 MLPerf Training v5.0 基准测试上均提交结果的平台 —— 这突显了其在包括大语言模型、推荐系统、多模态大语言模型、目标检测以及图神经网络在内的多样化 AI 工作负载中的卓越性能和多功能性。
本轮大规模提交测试使用了两台由 NVidia Blackwell 平台驱动的 AI 超级计算机:Tyche,基于 Nvidia GB200 NVL72 机架级系统构建;以及 Nyx,基于 Nvidia DGX B200 系统。此外,Nvidia 还与 CoreWeave 及 IBM合作,利用总共 2,496 个 Blackwell GPU 和 1,248 个 Nvidia Grace CPU 提交了 GB200 NVL72 的测试结果。
在全新的 Llama 3.1 405B 预训练基准测试中,Blackwell 在相同规模下的性能比上一代架构提高了 2.2 倍。
Nvidia Blackwell 正在驱动 AI 工厂的发展。
在 Llama 2 70B LoRA 微调基准测试中,采用八个 Blackwell GPU 驱动的 Nvidia DGX B200 系统,其性能比前一轮使用相同数量 GPU的提交提升了 2.5 倍。
这些性能的跃升突显了 Blackwell 架构的创新进展,包括高密度液冷机架、每个机架 13.4TB 的一致性内存、第五代 Nvidia NVLink 与 Nvidia NVLink Switch 互连技术以实现规模扩展,以及 Nvidia Quantum-2 InfiniBand 网络技术以实现横向扩展。此外,Nvidia NeMo 框架软件栈的创新进一步提升了新一代多模态大语言模型训练的水平,这对将具备自主决策能力的 AI 应用推向市场至关重要。
这些具备自主决策能力的 AI 应用未来将运行于所谓的 AI 工厂 —— 自主 AI 经济的引擎。这些新应用将生成 Tokens 以及可以应用于几乎每个行业和学术领域的有价值的智能信息。
Nvidia 数据中心平台涵盖了 GPU、CPU、高速互连以及网络,同时还包括众多软件,如 Nvidia CUDA-X 库、NeMo 框架、Nvidia TensorRT-LLM 及 Nvidia Dynamo。这个高度优化的软硬件系统组合使各组织能够更加迅速地训练和部署模型,从而显著缩短实现价值的时间。
Blackwell 在 AI 训练中轻松超越了其前代产品 Hopper。
Nvidia 的合作生态系统在本轮 MLPerf 测试中广泛参与。除了与 CoreWeave 和 IBM 合作提交的测试之外,ASUS、Cisco、Giga Computing、Lambda、Lenovo、Quanta Cloud Technology 和 Supermicro等公司也提交了令人瞩目的测试结果。
首批使用 GB200 进行 MLPerf Training 测试的项目由 MLCommons Association 及其 125 多个成员和附属机构开发。其“训练时间”指标确保训练过程能够产出达到预定精度的模型,而其标准化的基准测试规则则确保了不同测试之间的公平比较。所有结果在发布前均经过同行评审。
—— 关于训练基准测试的基础
Nvidia 的最新 AI 处理器展现出了优秀的扩展性。
Dave Salvator,曾是科技媒体的一员,现在担任 Nvidia 加速计算集团的加速计算产品总监。在一次新闻发布会上,Salvator 指出,Nvidia 首席执行官 Jensen Huang谈及 AI 扩展定律的概念,其中包括预训练阶段,也就是从零开始教授 AI 模型知识。Salvator 表示,这一重型计算过程构成了 AI 的骨干。
之后,Nvidia 进入了后训练扩展阶段。这一阶段相当于模型上学,例如通过微调,将不同的数据集引入已训练到一定程度的预训练模型中,以赋予其针对特定数据集的额外领域知识。
Nvidia 已经从单纯制造芯片转型为构建 AI 基础设施的企业。
最后,还有测试时扩展或推理能力,也有时称为长时间思考。另一说法为自主决策 AI,即具备实际思考、推理和解决问题能力的 AI,通过提出问题,能够得到相对简单的答案。测试时扩展和推理技术实际上可处理更复杂的任务,并提供丰富的分析。
此外,还有生成式 AI,可按需生成内容,该内容可能包括文本摘要、翻译,同时也覆盖视觉内容甚至音频内容。AI 领域中涉及多种扩展模式。在本轮测试中,Nvidia 重点关注了预训练和后训练的测试结果。
Salvator 表示:“这正是 AI 进入我们所说的投资阶段之处。而当你进入推理并部署这些模型,开始生成 Tokens 时,你就开始从 AI 投资中获得回报。”
MLPerf 基准测试现已进行到第 12 轮,其历史可追溯至 2018 年。支撑该测试的联盟拥有超过 125 个成员,并且该基准测试既用于推理也用于训练测试。业界普遍认为这些基准测试十分严谨。
Salvator 补充道:“我相信大家已经注意到,AI 领域的性能宣称有时可能有些不尽如人意,而 MLPerf 则试图将这种混乱局面理顺。每个参与者都需完成相同的工作量,所有人都必须达到相同的收敛标准。一旦提交结果,这些结果便由其他提交者进行审核和验证,大家也可以提问甚至质疑结果。”
训练方面最直观的指标是训练一个达到收敛状态的 AI 模型所花费的时间,也就是达到规定精度所需的时间。Salvator 表示,这是一个“同尺度下”的比较,同时考虑到了不断变化的工作负载。
今年,基准测试中新增了 Llama 3.140 5b 工作负载,用以替代此前测试中的 ChatGPT 170 5b 工作负载。Salvator 指出,在这些测试中,Nvidia 创下了多项记录。Nvidia GB200 NVL72 驱动的 AI 工厂刚刚下线,从 Hopper 到 Blackwell 这一代芯片,Nvidia 在图像生成测试中实现了 2.5 倍的性能提升。
Salvator 说:“我们仍处于 Blackwell 产品生命周期的较早阶段,因此预计随着软件优化的不断完善以及市场上出现更新、计算量更大的工作负载,Blackwell 架构的性能将持续提升。”
他指出,Nvidia 是唯一在所有基准测试中均提交了测试结果的公司。
Salvator 还表示:“我们能取得如此卓越的性能,归功于多种因素。包括我们的第五代 NVLink 和 NVSwitch 技术使性能提升高达 2.66 倍,再加上 Blackwell 架构本身的优异设计,以及我们持续不断的软件优化,使得这一性能成为可能。”
他补充道:“由于 Nvidia 的历史积淀,我们长期以来被称为 GPU 先驱。我们固然生产出色的 GPU,但公司已从单纯的芯片制造商转型为系统解决方案提供商,如我们的 DGX 服务器;再到如今构建整机架和数据中心(例如我们的机架设计已成为参考设计,帮助合作伙伴更快进入市场),乃至构建整个数据中心,最终形成所谓的 AI 工厂。整个过程真是一段极具趣味的历程。”返回搜狐,查看更多