今天分享的是:人工智能专题:DeepSeek研究框架
报告共计:51页
《DeepSeek研究框架——计算机人工智能系列深度报告》由国海证券刘熹撰写,深入剖析了DeepSeek在AI领域的发展及其影响。DeepSeek成立于2023年7月,由幻方量化创立,专注大模型技术开发。其推出的V3和R1模型表现卓越,V3性能对标世界顶尖闭源模型,R1在数学、代码、自然语言推理等任务上比肩OpenAI o1正式版,且二者均开源,采用MIT协议,吸引大量开发者关注。DeepSeek对全球AI行业影响深远,激发了行业创新,推动全球AI模型迭代和发布加速;提振了国产AI产业信心,打破技术和算力天花板,驱动国产AI估值重塑;还是开源AI的重要里程碑,加速全球AI创新和推理进程。在技术方面,V3采用独特的MoE架构,结合MLA、DeepSeekMoE等创新技术,以及多Token预测、FP8混合精度训练等方法,提升训练效率和推理性能;R1则通过RL替代SFT等创新,结合高质量冷启动数据和多阶段训练,提升推理能力。在应用层面,DeepSeek打开低成本推理模型边界,在代码、教育、医疗等垂直领域有大规模部署潜力,其R1模型蒸馏赋予小模型高性能,推动端侧AI发展。在算力领域,虽然V3训练成本低,但整体训练总成本仍较高,不过其推理价格下降吸引更多用户,推理算力需求占比提升,且推动了国产化进程,促进国产AI芯片硬件性能、软件调用能力提升,带动相关产业链发展 。
以下为报告节选内容