×

首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开「降成本」秘诀

hqy hqy 发表于2025-05-15 23:41:24 浏览1 评论0百度已收录

抢沙发发表评论

V3 的成本下降密码, 是软硬协同设计。

作者丨郑佳美、洪雨欣

编辑丨陈彩娴

就在刚刚,DeepSeek团队发布最新论文《洞察 DeepSeek-V3:规模的挑战和对AI架构硬件的思考》。

论文链接:https://arxiv.org/pdf/2505.09343

在保持性能不变的情况下,论文采用了双重视角——跨越硬件架构和模型设计,通过研究这种协同作用,探索 DeepSeek-V3 如何实现经济高效的大规模训练和推理。

随着 OpenAI o1/o3、DeepSeek-R1、Claude-3.7 Sonnet 等先进模型的出现,大规模架构和上下文推理的进步强调了对更快、更高效推理的需求。因此,计算资源的需求也在逐步扩大。

DeepSeek 的出现证明了有效的软硬件协同设计可以实现大型模型的成本效益训练,为较小的团队提供公平的竞争环境。

基于这一传统,DeepSeek-V3 代表了成本效益训练的新里程碑,仅需 2,048 个 NVIDIA H800 GPU 就实现了最先进的性能。DeepSeek-V3 的实践和见解展示了如何充分利用现有硬件资源,为更广泛的 AI 和 HPC 社区提供宝贵的经验教训。

论文章节的主要内容如下:

1. DeepSeek 模型的设计原则

2. 低精度驱动设计

3. 以互联为驱动的设计

4. 大规模网络驱动设计

5. 面向未来的硬件架构设计

1DeepSeek 模型的设计原则

如下图 所示,DeepSeek-V3 采用 DeepSeek-MoE 和多头潜在注意力 (MLA)架构,通过压缩键值 (KV) 缓存大大减少了内存消耗。此外,DeepSeek-V3 还采用了 FP8 混合精度训练,显著降低了计算成本。

这些创新旨在解决LLM规模中的三个核心挑战——内存效率、成本效益和推理速度。

LLM 通常需要大量的内存资源,内存需求每年增长 1000% 以上。相比之下,高速内存(例如 HBM)容量的增长速度要慢得多,通常每年不到 50%。与使用 BF16 进行权重的模型相比,FP8 将内存消耗显著降低了一半,有效缓解了 AI 内存挑战。

DeepSeek-V3 还采用了多头潜在注意力 (MLA),它使用投影矩阵将所有注意力头的 KV 表示压缩成一个更小的潜在向量,该矩阵与模型联合训练。在推理过程中,只需要缓存潜在向量,与存储所有注意力头的 KV 缓存相比,显著减少了内存消耗。

除了 MLA 之外,DeepSeek 还提出了其他几种方法来减小 KV 缓存的大小:

共享 KV:多头共享一组 KV 配对,从而显著压缩了 KV 存储。

窗口 KV:对于长序列,缓存中只保留 KV 配对的滑动窗口。

量化压缩:KV 配对使用low-bit进行存储,进一步减少了内存使用。

对于稀疏计算,DeepSeek 还开发了 DeepSeek-MoE 架构,MoE 模型的优势在于两个方面:

第一,减少训练的计算要求:MoE 架构的主要优势在于它能够显著降低训练成本。通过选择性地仅激活专家参数的子集,MoE 模型允许参数总数急剧增加,同时保持计算要求适中。

如图表2所示,DeepSeek-V3 的总计算成本约为每个令牌 250 GFLOPS,而 72B 密集模型需要 394 GFLOPS,405B 密集模型需要 2448 GFLOPS。这表明 MoE 模型实现了与密集模型相当甚至更好的性能,同时消耗的计算资源减少了一个数量级。

第二,个人使用和本地部署的优势:由于每个请求只激活了一个参数子集,因此内存和计算需求大大减少。例如,DeepSeek-V2(236B 参数)在推理过程中仅激活 21B 参数。这使得配备 AI SoC 芯片的 PC 能够实现每秒近 20 个令牌 (TPS)。相比之下,具有相似能力的密集模型(70B 参数)在类似硬件上通常只能达到个位数的 TPS。

除此之外,为了最大限度地提高吞吐量,DeepSeek-V3 从一开始就被构建为利用双微批处理重叠,有意将通信延迟与计算重叠。它将 MLA 和 MoE 的计算解耦为两个不同的阶段,当一个微批处理执行 MLA 或 MoE 计算的一部分时,另一个微批处理同时执行相应的调度通信。相反,在第二个微批处理的计算阶段,第一个微批处理经历组合通信步骤。

这种流水线化方法实现了全对全通信与正在进行的计算的无缝重叠,确保 GPU 始终保持充分利用。此外,在生产中,V3 还采用预填充和解码解聚架构,将大批量预填充和延迟敏感的解码请求分配给不同的专家并行组大小,这可以最大限度地提高系统吞吐量。

虽然 MoE 模型表现出良好的可扩展性,但仅通过增加硬件资源来实现高推理速度的成本很高。因此,软件和算法也必须有助于提高推理效率。

DeepSeek-V3 引入了多标记预测 (MTP) 框架,该框架同时增强了模型性能并提高了推理速度。MTP 可以让模型能够以较低的成本生成额外的候选标记并并行验证,缓解了解码步骤中标记顺序生成的瓶颈,在不影响准确性的情况下显着加快了推理速度。

真实世界的实践数据表明,MTP 模块预测第二个后续令牌的接受率为 80% 到 90%,与没有 MTP 模块的场景相比,生成 TPS 提高了 1.8 倍。

此外,通过预测每步多个令牌, MTP 增加了推理批量大小,这对于提高 EP 计算强度和硬件利用率至关重要。

2低精度驱动设计

虽然 GPTQ 和 AWQ 等量化技术已将位宽减少到 8 位、 4 位甚至更低,但是这些技术主要应用于推理期间以节省内存,而不是在训练阶段。在 DeepSeek-V3 之前,没有利用 FP8 进行训练的开源大型模型。

DeepSeek 通过基础设施和算法团队之间的深入合作,为 MoE 模型开发了一个与 FP8 兼容的训练框架,在训练管道中使用 FP8 精度前向和后向过程的计算组件。

虽然 FP8 在加速训练方面具有巨大潜力,但需要解决几个硬件限制才能充分利用其功能:

1. FP8 累积精度: FP8 在 Tensor Core 中使用约束累加精度,这会影响训练大型模型的稳定性

2. 细粒度量化挑战:细粒度量化在传输部分结果时引入了大量的反量化开销,会导致频繁的数据移动,从而降低计算效率并使硬件利用率复杂化

为了解决现有硬件的限制,DeepSeek 对未来的设计有以下建议:

1. 提高累积精度:硬件应改进并调整 Accumulation Register 精度到适当的值(例如 FP32),或支持可配置的 Accumulation Precision

2. 对原生细粒度量化的支持:硬件应该支持原生细粒度量化,使 Tensor Core 能够接收缩放因子并通过组缩放实现矩阵乘法,避免频繁的数据移动以减少去量化开销。

DeepSeek-V3 架构采用低精度压缩进行网络通信。在 EP 并行期间,使用细粒度的 FP8 量化来调度令牌,与 BF16 相比,通信量减少了 50%,显著缩短了通信时间。

他们的建议是,为 FP8 或自定义精度格式定制的压缩和解压缩单元提供本机支持是未来硬件的可行方法。这有助于最大限度地减少带宽需求并简化通信管道,能大幅提升 MoE 训练等带宽密集型任务的效率。

3以互联为驱动的设计

研究团队当前使用的 NVIDIA H800 GPU SXM 架构,基于 Hopper 架构,类似于 H100 GPU。然而,它为了满足监管要求,降低了 FP64 浮点计算性能和 NVLink 带宽。具体来说,H800 SXM 节点中的 NVLink 带宽从 900 GB/s 降低到了 400 GB/s。这个节点内部带宽的显著下降对高性能工作负载带来了挑战。

为了解决这个问题,他们在每个节点都配备了 8 张 400G 的 Infiniband(IB)CX7 网卡,从而增强了向外扩展(scale-out)的能力,以弥补带宽不足。为了应对这些硬件限制,DeepSeek-V3 模型在设计时结合了多项考虑,既贴合了硬件的优势,也规避了其局限。

为适配 H800 架构的硬件限制,DeepSeek-V3 在并行策略上还进行了如下优化:

避免使用张量并行(TP):在训练阶段,TP 因为受限的 NVLink 带宽效率低下而被禁用。但在推理阶段,TP 可以被选择性地启用,用于降低延迟和提升 TPOT(Tensor Parallel Optimized Transformer)性能。

增强的流水线并行(PP):采用 DualPipe 机制,以便将注意力计算和 MoE 计算与通信重叠。这也有助于减少流水线空泡,并在多个 GPU 间平衡内存使用,从而提升整体吞吐量。

加速的专家并行(EP):借助 8 张 400Gbps 的 Infiniband(IB)网卡,系统可以实现超过 40GB/s 的全互联通信。

然而在 H800 架构中,节点内(intra-node)通信与节点间(inter-node)通信的带宽差异约为 4:1。具体来说,NVLink 提供 200GB/s 的带宽(实际可用约 160GB/s),而每张 400Gbps 的 IB 网卡实际带宽约为 50GB/s(考虑小消息和延迟因素后,计算为 40GB/s 的有效带宽)。

为了充分利用更高的节点内带宽,模型架构特别在 TopK 专家选择策略中,与硬件协同设计。

设想一个系统包含 8 个节点(共 64 张 GPU),以及 256 个路由专家(每张 GPU 有 4 个专家)。在 DeepSeek-V3 中,每个 token 会被路由到一个共享专家和 8 个路由专家。如果这 8 个目标专家平均分布在所有节点上,那么 token 在 IB 上的通信成本将是 8t(t 为传输一个 token 所需时间)。

但如果利用 NVLink 的更高带宽,将路由到同一节点的 token 先在节点内通过 NVLink 传输,再由该节点的 GPU 使用 IB 转发到其他节点,这种 NVLink 中继方式可以显著减少 IB 流量。当目标专家分布在 M 个节点时,这种策略可将通信成本降低为 Mt(M < 8)。

为实现这一策略,DeepSeek-V3 引入了节点受限的专家路由策略(Node-Limited Routing)

具体来说,研究人员将 256 个路由专家分成 8 组,每组 32 个专家,并且每组部署在同一个节点上,而在实际部署时,他们使用算法保证每个 token 最多只会被路由到最多 4 个节点。这种做法有效地缓解了 IB 通信的瓶颈,提升了训练期间通信带宽的使用效率。

虽然节点受限路由策略(Node-Limited Routing)在一定程度上降低了通信带宽的需求,但由于节点内(NVLink)和节点间(IB)通信带宽之间存在差异,这也使得通信流水线内核的实现变得更为复杂。

在实际操作中,GPU 的流处理器( SM)既用于处理网络消息(例如填充 QPs 和 WQEs),也用于通过 NVLink 进行数据转发,这会消耗大量计算资源。例如,在训练过程中,H800 GPU 上多达 20 个 SM 被分配给与通信相关的操作,从而减少了用于实际计算的资源。

为最大化在线推理的吞吐量,研究团队在 EP(专家并行)全互联通信中完全采用 NIC RDMA,实现通信与计算资源的分离,避免 SM 资源竞争,从而提升计算效率。这也凸显了 RDMA 的异步通信模型在计算与通信重叠处理方面的优势。

当前,在 EP 通信(特别是 combine 阶段的 reduce 操作与数据类型转换)中,SM 执行的主要任务包括:

数据转发:聚合目标为同一节点中多个 GPU 的 IB 流量,实现 IB 与 NVLink 域之间的数据桥接;

数据传输:在 RDMA 缓冲区(GPU 注册内存区域)与输入/输出缓冲区之间传输数据;

规约操作:执行 EP combine 所需的规约操作;

内存布局管理:对穿越 IB 和 NVLink 域的分块数据进行精细化内存布局管理;

数据类型转换:在 all-to-all 通信前后执行数据类型的转换。

研究团队还给出了一些如何在编程框架层面实现 scale-up 与 scale-out 的融合建议:

统一网络适配器:设计能够同时连接 scale-up 与 scale-out 网络的 NIC(网络接口卡)或 I/O Die。这些适配器应具备基本的交换功能,比如能将来自 scale-out 网络的包转发到 scale-up 网络中的特定 GPU。可以通过一个 LID(本地标识符)或带有策略路由的 IP 地址实现。

专用通信协处理器:引入一个专用协处理器或可编程组件(如 I/O die),用于处理网络流量。这种组件可将报文处理任务从 GPU 的 SM 上卸载,避免性能下降,并具备硬件加速的内存拷贝能力,以提升缓存管理效率。

灵活的转发、广播和规约机制:硬件应支持灵活的转发、EP 分发阶段的广播操作、以及 EP 聚合阶段的规约操作,这些机制需跨越 scale-up 与 scale-out 网络运行。这样可以复现我们当前基于 GPU SM 的实现逻辑,不仅提升了有效带宽,也减少了网络操作的计算复杂度。

硬件同步原语(Hardware Synchronization Primitives):提供更精细粒度的硬件同步指令,用于处理内存一致性问题或乱序报文抵达问题。这将替代基于软件的同步机制(如 RDMA 的完成事件),后者通常会引入额外的延迟并增加编程复杂度。基于 acquire/release 模型的内存语义通信是一个有前景的解决方案。

他们认为,通过实现上述建议,未来的硬件设计将能够显著提升大规模分布式 AI 系统的效率,同时简化软件开发的复杂度。

4大规模网络驱动设计

在 DeepSeek-V3 的训练过程中,研究团队部署了一个“多平面胖树”(Multi-Plane Fat-Tree, MPFT)scale-out 网络。每个节点配备了 8 张 GPU 和 8 张 IB 网卡,每对 GPU-NIC 映射到一个独立的网络平面(plane)。

这是一个八平面、两层的胖树结构网络,其中每对 GPU 和 IB NIC 映射到一个网络平面,并且跨平面的流量必须通过另一个 NIC,并通过 PCIe 或 NVLink 进行节点内转发。

在保留两层网络拓扑在成本和延迟方面优势的同时,由于政策和监管限制,最终实际部署的 GPU 数量仅略高于 2000 张。

此外,每个节点还配有一张 400Gbps 的以太网 RoCE NIC,用于连接分布式存储系统 3FS 所在的独立存储网络平面。在该 scale-out 网络中,我们使用了 64 端口的 400G IB 交换机,从理论上讲,这种拓扑可支持最多 16384 张 GPU。

然而,由于 IB ConnectX-7 的当前技术限制,他们部署的 MPFT 网络尚未完全实现理想架构。

理想情况下,每张 NIC 应该具备多个物理端口,每个连接到不同的网络平面,但对用户而言,它们通过端口绑定暴露为一个统一的逻辑接口。

从用户角度来看,单个 QP(队列对)可以跨所有可用端口无缝收发数据包,类似于“报文喷洒”(packet spraying)。但这也带来了一个问题:同一个 QP 发出的数据包可能通过不同的网络路径传输,导致到达接收端时的顺序被打乱,因此需要 NIC 提供原生的乱序报文排序能力。

研究团队还介绍了多平面胖树网络的优势:

多轨胖树(MRFT)的子集:MPFT 拓扑结构是更广义的 Multi-Rail Fat-Tree(MRFT)架构的一个特定子集。因此,NVIDIA 和 NCCL 为多轨网络开发的现有优化策略可以无缝应用到多平面网络的部署中。此外,NCCL 对 PXN(Port eXtended Network)技术的支持,解决了平面间通信隔离的问题,即便在平面之间没有直接互联的情况下,也能实现高效通信。

成本效益高(Cost Efficiency):多平面网络使用两层胖树(FT2)拓扑即可支持超过 1 万个端点,显著降低了与三层胖树(FT3)架构相比的网络成本。其每个端点的成本甚至比高性价比的 Slim Fly(SF)拓扑还要更低。

流量隔离(Traffic Isolation):每个平面独立运行,确保某一个平面的拥塞不会影响到其他平面。这种隔离机制提高了整体网络的稳定性,并防止级联式性能下降的发生。

低延迟(Latency Reduction):实验表明,两层胖树(Two-Layer Fat Tree)拓扑相较于三层胖树具有更低的延迟。这一点使其特别适合延迟敏感型任务,如基于 MoE 架构的大模型训练与推理。

鲁棒性(Robustness):配备多端口的 NIC 提供多个上行链路,因此即使某个端口发生故障,也不会导致通信中断,系统能够实现快速、透明的故障恢复。

值得注意的是,由于当前 400G NDR InfiniBand 的限制,跨平面通信仍需通过节点内的转发实现,这在推理过程中会引入额外的延迟。如果未来硬件能够实现之前建议的 scale-up 与 scale-out 网络的融合,那么这种延迟将大大减少,从而进一步增强多平面网络的可行性。

为了验证多平面网络设计的有效性,研究人员在实际部署的集群上进行了一系列实验。通过修改集群的网络拓扑,我们比较了多平面两层胖树(MPFT)单平面多轨胖树(MRFT)在性能上的差异。

他们发现在全互联通信任务中,多平面网络的性能几乎与单平面多轨网络持平。这一性能上的一致性归因于 NCCL 的 PXN 机制 [54],它能在多轨拓扑中优化 NVLink 的流量转发,而多平面拓扑同样可以受益于该机制。

而在 16 张 GPU 上进行的 all-to-all 通信测试中,MPFT 与 MRFT 在延迟方面几乎没有差异。

为了进一步评估 MPFT 在实际训练中的表现,他们还测试了训练中常见的专家并行通信(EP)模式。在多平面网络中,每张 GPU 都能达到超过 40GB/s 的高带宽,表明其在训练场景下具有出色且稳定的通信能力。

研究人员还比较了 DeepSeek-V3 模型在 MPFT 与 MRFT 网络中的训练指标:

MFU(Model Flops Utilization)指标是基于 BF16 理论峰值计算的;

Causal MFU 只考虑注意力矩阵下三角部分的 FLOPs;

Non-Causal MFU 则包括整个注意力矩阵的 FLOPs;

表中 1F1B1W 分别代表前向时间、输入反向传播时间、权重反向传播时间。

实验显示,在 2048 张 GPU 上训练 V3 模型时,MPFT 的整体性能几乎与 MRFT 持平,两者间的性能差异完全处于正常波动范围内。

除此之外,团队还对 InfiniBand 还是 RoCE 的问题进行了实验,他们发现 InfiniBand(IB)在延迟方面始终优于 RoCE,因此成为分布式训练和推理等延迟敏感型任务的首选网络方案。

不过,尽管 IB 拥有更低的延迟表现,但它也存在一些实际限制:

成本(Cost):IB 硬件远比 RoCE 成本高,限制了其在更大范围的部署中普及。

可扩展性(Scalability):IB 交换机通常最多支持 64 个端口,而 RoCE 交换机常见为 128 个端口。这使得 IB 在构建超大规模集群时面临扩展性瓶颈。

尽管 RoCE 被认为是 IB 的一个高性价比替代方案,但目前在延迟和可扩展性上的不足,限制了其在大规模 AI 系统中的应用潜力,介于这一点,研究团队也对 RoCE 提出了一些优化意见:

专用低延迟 RoCE 交换机:他们建议以太网设备厂商开发专为 RDMA 工作负载优化的 RoCE 交换机,去除那些不必要的传统以太网功能。

例如,Slingshot 架构就展示了如何通过以太网设计实现接近 IB 的低延迟性能。类似地,Broadcom 的一系列新技术也展现出在 AI 应用场景中的巨大潜力,包括 AI Forwarding Header(AIFH)机制和即将发布的低延迟以太网交换机。这些创新展示了基于以太网的高性能 RDMA 网络是完全可行的。

优化的路由策略:RoCE 默认采用 ECMP(Equal-Cost Multi-Path)路由策略,在跨互联网络时难以高效地分散流量,常常导致 NCCL 集合通信中的严重拥塞和性能下降。

例如,在数据并行(DP)训练中,LLM 的通信流量往往缺乏足够的随机性,导致多个流聚集到同一个链路,引发瓶颈。而自适应路由(Adaptive Routing, AR)可以动态地将数据包“喷洒”到多条路径上,从而显著提升网络性能。虽然手动配置的静态路由表(Static Routing)能在特定目标下避免链路冲突,但它缺乏灵活性。对于大规模 all-to-all 通信,自适应路由无疑在性能和扩展性方面更具优势。

改进的流量隔离与拥塞控制机制:

当前的 RoCE 交换机通常仅支持有限数量的优先队列(priority queues),这对于同时涉及多种通信模式(如 EP 的 all-to-all 与 DP 的 all-reduce)的复杂 AI 工作负载来说远远不够。在这种混合通信场景中,all-to-all 会因突发性的一对多传输引发“入端拥塞(incast congestion)”,严重时会拖慢整条网络路径的性能。

研究团队认为可以使用虚拟输出队列:为每个队列对(QP)分配一个虚拟队列,做到流量级别的隔离,以及使用更高效的拥塞控制机制,如基于 RTT 的拥塞控制(RTTCC),或用户可编程的拥塞控制(PCC)。这些机制可以实现网卡与交换机之间的协同优化,在动态流量条件下保持低延迟与高吞吐。

最后,研究人员表示他们自己是使用 IBGDA 技术来降低网络通信中的延迟。而传统的 GPU 网络通信流程中通常需要通过 CPU 协程作为代理线程,为此他们还贴心的整理出了流程:

GPU 准备好要发送的数据、通知 CPU 代理、CPU 填写控制信息(Work Request, WR),然后通过 doorbell 机制通知网卡启动数据传输。

他们表示这种方式引入了不小的通信开销。而 IBGDA 则通过允许 GPU 直接填写 WR(无需经过 CPU),极大减少了中间环节的延迟,提高了通信效率。

55面向未来的硬件架构设计

研究团队在识别了当前硬件面临的限制,并提出了相应的建议后,将视野扩展至更宏观的层面,提出未来硬件架构设计的前瞻性方向。他们认为当前主要的限制包括:

故障(Interconnect Failures):高性能互联系统(如 InfiniBand 与 NVLink)易受到间歇性断连的影响,这会破坏节点之间的通信。在通信密集型任务(如专家并行 EP)中,即便是短暂的通信中断,也可能造成明显的性能下降,甚至任务失败。

单点硬件故障(Single Hardware Failures):节点宕机、GPU 故障,或 ECC(纠错码)内存错误都可能影响到长时间运行的训练任务,往往需要代价高昂的任务重启。在大规模部署中,这类单点故障的概率随着系统规模的扩大而急剧上升。

静默数据损坏(Silent Data Corruption):某些错误(如多位内存翻转、计算错误等)可能逃逸 ECC 机制的检测,造成模型训练中的数据悄然被破坏。这类错误最为隐蔽,会在长时间训练过程中积累,导致下游计算被污染,严重损害模型质量。当前的缓解措施主要依赖于应用层启发式检测,但这不足以确保系统层面的整体鲁棒性。

他们还认为,为了应对传统 ECC 所无法覆盖的错误类型,硬件需要引入更先进的检测机制。例如:基于校验和(checksum)的验证机制、硬件加速的冗余校验(redundancy checks)。这些方法能为大规模部署提供更高的系统可靠性。

此外,硬件厂商应向最终用户提供全面的诊断工具包,以支持其对系统完整性的验证,并及时识别潜在的静默数据损坏风险。若这些工具作为标准硬件的一部分预装,能够实现持续运行期内的验证流程,从而提升整个系统的透明度与可信度。

尽管加速器(如 GPU)往往成为设计焦点,但CPU 依旧是协调计算任务、管理 I/O 操作、保持系统吞吐量不可或缺的关键组件。但研究团队认为当前架构存在几个严重瓶颈:

PCIe 成为瓶颈:CPU 与 GPU 之间的 PCIe 接口在传输大规模参数、梯度或 KV 缓存时,常成为带宽瓶颈。

为此,研究团队也给出了一些建议,他们认为未来系统应采用CPU-GPU 直连方式(如 NVLink、Infinity Fabric),或将 CPU 与 GPU 一并纳入 scale-up 域中,从根本上消除节点内互联瓶颈。

内存带宽不足:为了支撑高速数据传输,还需匹配足够高的内存带宽。例如,要跑满 160 条 PCIe 5.0 通道,需要每个节点拥有 640 GB/s 的 IO 吞吐,对应约 1 TB/s 的内存带宽,这对传统 DRAM 架构构成巨大挑战。

对 CPU 性能的需求提升

在 Chiplet 架构中,还需更多核心支持按缓存感知方式(cache-aware)划分与隔离负载。

同时,为避免控制侧成为瓶颈,每张 GPU 需要配备足够多的 CPU 核;

对于内核调度、网络处理等低延迟任务,需要基础频率在 4GHz 以上的单核性能;

除此之外,他们还提出了几个关键方向,为满足低延迟、高效率的 AI 工作负载,未来的互联网络不仅要具备低延迟,更应具备“智能感知能力”,指出了一条道路:

共封装光学(Co-Packaged Optics):通过集成硅光技术,可实现可扩展的超高带宽与能效比,这对构建大规模分布式系统至关重要。

无损网络(Lossless Network):虽然基于信用的流量控制(CBFC)机制可以保证无损数据传输,但如果触发方式不当,会导致严重的“队头阻塞”(head-of-line blocking)。因此,必须部署由终端主动驱动的高级拥塞控制(Congestion Control, CC)算法,主动调节注入速率,防止极端拥塞情况的发生。

自适应路由(Adaptive Routing):未来网络应标准化动态路由机制,例如“分包喷洒(packet spraying)”与“拥塞感知转发”。

对于 load/store 的内存语义通信在跨节点通信中具备效率高、编程友好的优势,但当前的实现常受限于内存顺序约束(memory ordering)的问题,研究团队也给出了自己的意见。

他们先是举了个例子:发送方在写入数据后,必须先执行一次内存屏障(memory fence),再更新通知接收方的标志位,才能确保接收方读到的是“已完成写入”的数据。这种强顺序要求带来额外的 RTT 延迟,并可能阻塞当前线程,降低系统的吞吐量。

类似地,在消息语义的 RDMA 场景中也存在乱序同步的问题。例如,在 InfiniBand 或 NVIDIA BlueField-3 上,在 RDMA 写之后再执行基于分包喷洒的 RDMA 原子加操作,也会引发额外的 RTT 延迟。

然后给出了建议:在硬件层面加入对内存语义通信顺序的一致性保障,包括编程接口层面支持 acquire/release 语义,以及在接收端由硬件保证顺序投递(in-order delivery),避免引入软件侧开销。

一种可行的方法是:接收方缓存原子消息,并利用数据包序号确保按序处理。然而,他们认为更优雅也更高效的方式是使用 Region Acquire/Release(RAR)机制

硬件在接收端维护一个 bitmap,用于记录某段 RNR(remote non-registered)内存区域的状态,acquire/release 操作在此地址范围内生效,并且只需极小的 bitmap 开销,即可实现由硬件强制的通信顺序保障,最重要的是,这一机制理想情况下可由 NIC 或 I/O Die 来实现。

最后研究团队强调,RAR 不仅适用于内存语义操作,也同样能扩展到 RDMA 的消息语义原语中,具有广泛的实用性。

除此之外,他们还认为在混合工作负载环境下,未来硬件应该具备动态带宽分配流量优先级控制的能力。例如,在训练与推理任务混合部署的场景中,应当将推理请求从训练任务中隔离,以确保延迟敏感型应用的响应速度。

此外,未来网络还应当:

采用智能路径选择策略,实时监测网络状态,智能分流,缓解通信热点;

支持自愈协议、冗余端口、快速故障切换(failover)机制,保障系统的鲁棒性;

具备高效的拥塞控制机制,比如端侧主导的流控与注入速率调节机制,避免严重拥塞;

支持 lossless 网络协议但避免“队头阻塞”问题,比如通过优化 CBFC(基于信用的流控)与自适应拥塞感知机制配合。

最后,研究团队指出模型规模的指数级增长,已经远远超过了高带宽内存(HBM)技术的进展速度。这种不匹配导致了严重的内存瓶颈,特别是在以注意力机制为核心的架构(例如 Transformer)中,内存带宽限制成为性能提升的最大障碍。

为此他们也提出了两点建议:

DRAM 堆叠加速器(DRAM-Stacked Accelerators):借助先进的三维堆叠(3D stacking)技术,可以将 DRAM 芯片垂直整合在计算逻辑芯片之上。这种设计能够提供极高的内存带宽、超低延迟,同时具备实用的内存容量(尽管受限于堆叠层数)。对于专家混合(MoE)模型中的超高速推理任务,这种架构极具优势,因为它能显著缓解内存吞吐瓶颈。例如,SeDRAM 架构就展示了这种模式的潜力,在内存受限的工作负载下提供了前所未有的性能表现。

晶圆级系统集成(System-on-Wafer, SoW):晶圆级集成技术通过将多个计算单元和存储模块整合在一整块晶圆上,可以最大化计算密度与内存带宽,满足超大规模模型在训练与推理阶段对存储和带宽的极端需求。

他们表示,这些内存中心的架构创新,旨在打破当前内存发展滞后于模型规模扩张的瓶颈,是下一代 AI 系统持续迈向“更大、更快、更稳”的关键路径之一。同时这些方案也在 DeepSeek-V3 训练与推理实践中均取得了实效,为下一代高性能 AI 系统构建了坚实的内存支撑基础。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

//