人工智能专题：DeepSeek研究框架

今天分享的是：人工智能专题：DeepSeek研究框架

报告共计：51页

《DeepSeek研究框架——计算机人工智能系列深度报告》由国海证券刘熹撰写，深入剖析了DeepSeek在AI领域的发展及其影响。DeepSeek成立于2023年7月，由幻方量化创立，专注大模型技术开发。其推出的V3和R1模型表现卓越，V3性能对标世界顶尖闭源模型，R1在数学、代码、自然语言推理等任务上比肩OpenAI o1正式版，且二者均开源，采用MIT协议，吸引大量开发者关注。DeepSeek对全球AI行业影响深远，激发了行业创新，推动全球AI模型迭代和发布加速；提振了国产AI产业信心，打破技术和算力天花板，驱动国产AI估值重塑；还是开源AI的重要里程碑，加速全球AI创新和推理进程。在技术方面，V3采用独特的MoE架构，结合MLA、DeepSeekMoE等创新技术，以及多Token预测、FP8混合精度训练等方法，提升训练效率和推理性能；R1则通过RL替代SFT等创新，结合高质量冷启动数据和多阶段训练，提升推理能力。在应用层面，DeepSeek打开低成本推理模型边界，在代码、教育、医疗等垂直领域有大规模部署潜力，其R1模型蒸馏赋予小模型高性能，推动端侧AI发展。在算力领域，虽然V3训练成本低，但整体训练总成本仍较高，不过其推理价格下降吸引更多用户，推理算力需求占比提升，且推动了国产化进程，促进国产AI芯片硬件性能、软件调用能力提升，带动相关产业链发展。

以下为报告节选内容