在人工智能领域,透明度和知识共享是推动进步的关键。
3 月 1 日,DeepSeek 在知乎平台开设了官方账号,并发布一篇技术文章——《DeepSeek-V3/R1 推理系统概览》。该文章首次向公众深度剖析了其模型推理系统的优化细节,重点阐述了如何通过技术创新显著提升系统吞吐量并有效降低延迟。此外,文章还首次披露了其理论成本结构和利润率等关键财务信息,为业界提供了宝贵的参考。
// DeepSeek-V3/R1 推理系统的优化策略 //
DeepSeek-V3/R1 推理系统的优化目标是实现更大的吞吐量和更低的延迟。为了达成这两个目标,DeepSeek 采用了大规模跨节点专家并行(EP)方案。这种方案虽然增加了系统的复杂性,但能有效提升性能。
DeepSeek 文章中详细介绍了如何通过 EP 技术增长批量大小、隐藏传输耗时以及进行负载均衡,从而优化整个推理系统的性能。通过这些技术手段,DeepSeek 能够处理更大规模的数据,同时保持或提高响应速度。
以下是预填充阶段的计算 - 通信重叠示意图:
解码阶段也采用了类似的策略,但更加精细,将 Attention 层进一步细分为两步,使用了五阶段流水线 ( 5-stage pipeline ) ,实现更流畅的通信 - 计算重叠。
// DeepSeek 披露理论成本和利润率 //
DeepSeek 还首次披露了其理论成本和利润率的关键信息。基于 GPU 租赁成本为 2 美金 / 小时的假设,DeepSeek 计算出总成本为 87,072 美金 / 天。如果按照 DeepSeek R1 的定价计算所有 tokens 的收入,理论上一天的总收入可达 562,027 美金,从而得出成本利润率高达 545%。
通过这种透明的方式,DeepSeek 展示了其在成本控制和利润最大化方面的能力,这对于市场参与者来说是一个重要的信号。
// 分析师观点 //
对于 DeepSeek 的技术创新和商业潜力,分析师纷纷发表观点。
中金公司研报认为,DeepSeek 推理降本推动了推理需求的增长,短期内大量用户端部署的需求增长会对推理硬件市场增长构成直接拉动,下游应用生态的想象空间也被进一步打开。
平安证券此前研报认为,DeepSeek 通过算法创新提高了算力利用率,在保证模型性能的同时降低了训练成本,冲击了海外科技公司模型训练的 " 堆算力 " 模式。短期而言,此次算法创新引发了市场对训练算力需求预期边际放缓的担忧;但长期而言,在通用人工智能(AGI)愿景的驱动和 AI 应用的普及下,算力需求长期增长的趋势仍将不变,尤其是推理侧的算力需求空间或进一步拓宽。
总体来看,DeepSeek-V3/R1 推理系统的技术优化和成本利润率分析展示了其在人工智能领域的强大竞争力。通过大规模跨节点专家并行技术,DeepSeek 不仅提升了系统性能,还实现了显著的成本效益。
《》
《》
《》
《》
Wind 金融终端输入命令
WBUY(万得交易快线)
一次开户,基金市场一键链接
线上批量下单,轻松多账户管理
组合资产穿透管理,实时监控底层持仓
专为机构打造
一站式基金投研、交易、管理平台