法国人工智能模型制造商 Mistral 在因其最新闭源模型 Medium3受到部分开源社区批评后,迅速回归开源路线。该公司近日与开源初创公司 All Hands AI(OpenDevin 的创建者)合作,推出了全新的开源语言模型 Devstral。这款拥有2400万参数的轻量级模型,专为代理 AI 软件开发而设计,其性能甚至在特定基准测试中超越了许多参数高达数十亿的竞争对手,包括一些闭源模型。
与传统侧重于代码补全或独立函数生成的 LLM 不同,Devstral 经过优化,能够充当完整的软件工程代理。这意味着它可以理解跨文件的上下文,浏览大型代码库,并解决实际的软件开发问题。更重要的是,Devstral 基于宽松的 Apache2.0许可证发布,允许开发者和组织自由地部署、修改和商业化该模型。
Mistral AI 研究科学家 Baptiste Rozière 强调,他们希望为开发者社区提供一款可以在本地私下运行并根据需求修改的开源工具,Apache2.0协议赋予了用户极大的自由度。
基于 Codestral 的成功迭代
Devstral 是 Mistral 以代码为中心的模型系列 Codestral 的最新进展。Codestral 于2024年5月首次亮相,是一个拥有220亿参数、支持80多种编程语言的专业编码 LLM,并在代码生成和补全任务中表现出色。其快速迭代催生了基于 Mamba 架构的增强版 Codestral-Mamba 以及最新的 Codestral25.01,后者尤其受到 IDE 插件开发者和企业用户的青睐。Codestral 系列的成功为 Devstral 的诞生奠定了坚实的基础,使其能够从简单的代码补全扩展到完整的代理任务执行。
SWE 基准测试中表现惊艳
在 SWE-Bench Verified 基准测试中,Devstral 取得了46.8% 的优异成绩。SWE-Bench Verified 是一个包含500个真实 GitHub 问题的数据集,并经过人工验证以确保其正确性。这一成绩不仅领先于所有此前发布的开源模型,甚至超越了包括 GPT-4.1-mini 在内的多个闭源模型,领先幅度超过20个百分点。
Rozière 自豪地表示,Devstral 是迄今为止在 SWE-bench 验证和代码代理方面表现最佳的开源模型,并且令人惊讶的是,它仅有2400万参数,甚至可以在 MacBook 上本地运行。Mistral AI 开发者关系主管 Sophia Yang 博士也在社交媒体上指出,Devstral 在各种框架下的评估中都优于许多闭源替代方案。
Devstral 的卓越性能得益于对 Mistral Small3.1基础模型进行的强化学习和安全调整技术。Rozière 解释说,他们首先选择了一个强大的基础模型,然后利用专门的技术提升了其在 SWE-bench 上的表现。
不仅仅是代码生成,更是 AI 软件开发代理的基石
Devstral 的目标不仅仅是生成代码,更重要的是能够集成到 OpenHands、SWE-Agent 和 OpenDevin 等代理框架中。这些框架使得 Devstral 能够与测试用例交互、导航源代码文件以及跨项目执行多步骤任务。Rozière 透露,Devstral 将与 OpenDevin 一同发布,后者为代码代理提供了一个脚手架,充当开发者模型的后端。
为了确保模型的可靠性,Mistral 在不同的代码库和内部工作流程中对 Devstral 进行了严格的测试,以避免过度拟合 SWE-bench 基准。他们仅使用来自非 SWE-bench 数据集的数据进行训练,并在不同的框架上验证了模型的性能。
高效部署与商业友好的开源许可
Devstral 紧凑的2400万参数架构使得开发者可以在本地轻松运行,无论是配备单个 RTX4090GPU 的机器,还是拥有32GB 内存的 Mac 电脑。这对于注重隐私保护和需要在边缘设备上部署的应用场景极具吸引力。Rozière 表示,该模型的目标用户包括热衷于本地和私有化操作的开发者和爱好者,他们甚至可以在没有互联网的环境中使用。
除了性能和可移植性之外,Devstral 的 Apache2.0许可证也为商业应用提供了极大的便利。该许可证允许无限制地使用、改编和分发,包括在专有产品中,这大大降低了企业采用的门槛。
Devstral 拥有128,000个 token 的上下文窗口,并使用包含131,000个词汇的铁拳分词器。它支持通过 Hugging Face、Ollama、Kaggle、LM Studio 和 Unsloth 等主流开源平台进行部署,并与 vLLM、Transformers 和 Mistral Inference 等库良好兼容。
API 与本地部署双管齐下
开发者可以通过 Mistral 的 Le Platforme API 访问 Devstral,模型名称为 devstral-small-2505,定价为每百万输入 token0.10美元,每百万输出 token0.30美元。对于希望本地部署的用户,对 OpenHands 等框架的支持可以实现与代码库和代理工作流的即时集成。Rozière 分享了他自己如何使用 Devstral 来完成更新软件包版本或修改标记化脚本等小型开发任务,并对其在代码中精确定位和修改的能力表示赞赏。
尽管 Devstral 目前以研究预览版的形式发布,但 Mistral 和 All Hands AI 已经着手开发功能更强大、规模更大的后续模型。Rozière 认为,小型模型和大型模型之间的差距正在迅速缩小,而 Devstral 等模型的出色表现已经能够与一些规模更大的竞争对手相媲美。
凭借其卓越的性能基准、宽松的开源许可和专为代理设计优化的特性,Devstral 不仅是一款强大的代码生成工具,更将成为构建自主软件工程系统的关键基础模型。