谁说扩散模型只能生成图像和视频?
现在它们能高质量地写代码了,速度还比传统大模型更快!
Inception Labs 推出基于扩散技术的全新商业级大语言模型——Mercury。
Mercury 突破了自回归模型 " 从左到右 " 逐词生成的限制,采用 " 从噪声到结构化输出 " 的方式,能一次性预测所有方向的 token,提高了生成速度。
这样一来,Mercury 还解决了自回归 " 一旦生成难以回头调整 " 的问题。
扩散模型并不是仅考虑前面已经生成的内容,它能在生成过程中进行动态纠错修改,具有更大的灵活性。
尽管采用了扩散技术,Mercury 模型系列仍保留了Transformer架构。
这确保了该模型能直接复用近年来为大语言模型开发的高效训练、推理优化技术(如低阶算子优化、超参数调优工具等)。
实测数据显示,面对相同的编程任务,Mercury 的代码生成速度比传统工具最多快 10 倍,大幅缩短了开发周期。
在 H100 GPU 上实现 1109 tokens/ 秒吞吐量
Mercury 用成熟的 Transformer 作为神经网络基础,结合扩散技术的并行生成能力,既保留了大模型的兼容性,又突破了自回归模型逐词生成的速度限制。
扩散生成流程
Mercury 的核心创新在于 " 扩散式生成 ",流程如下:
训练阶段的正向过程:从真实文本(如代码片段)出发,逐步加入噪声(随机替换、删除 token 等),最终变成完全随机的噪声序列。
推理阶段的反向过程(核心):从随机噪声开始,通过 Transformer 模型迭代优化,逐步去除噪声,最终生成符合真实分布的文本。每次迭代中,模型会并行修改多个 token,而非逐词生成。
这一过程扩展了此前的离散扩散方法,通过优化数据处理和计算逻辑,实现了大规模训练(万亿级 token)。
高效利用硬件
Mercury 主要通过并行化文本生成、动态去噪调度、混合精度量化等技术,极致发挥 GPU 性能,实现对硬件的高效利用,降低训练和推理成本。
并行化文本生成
扩散机制允许模型在单次前向传播中预测多个 token,相较于自回归模型的 " 从左到右 " 逐词生成,显著提升了 GPU 利用率。
在NVIDIA H100 GPU上,Mercury Coder Mini 和 Mercury Coder Small(Mercury Coder 系列编码优化产品)分别实现了1109 tokens/ 秒和737 tokens/ 秒的吞吐量。
在 Copilot Arena 的基准测试中,可将响应时间压缩至其他工具的 1/4,同时硬件资源占用减少 60%。
动态去噪调度算法
Mercury 通过自适应调整去噪步数,在简单任务中减少计算量,在复杂任务中保留足够迭代次数,实现精度与效率的平衡,从而更高效地利用硬件资源,避免不必要的计算开销。
混合精度量化技术
模型在推理时可自动切换至低精度计算模式,内存占用减少 30%,同时通过残差补偿机制维持输出质量。这让 Mercury 能在有限的硬件内存条件下运行,且不明显影响性能。
强大的错误纠正能力
与传统自回归模型 " 从左到右 " 逐词生成,一旦生成难以回头调整不同,Mercury 不受限于仅考虑前面已生成的内容,能够在生成过程中动态修改之前的内容,具有更大的灵活性。
双向注意力机制
Mercury 在去噪过程中引入上下文双向关联,能够更好地理解文本的前后语境,从而更准确地发现和纠正错误。
实时纠错模块
模型在去噪步骤中会同步检测代码逻辑漏洞,通过强化学习动态修正输出。在代码生成任务中,Mercury Coder 可以自动修正逻辑漏洞,还支持函数级参数自动校正,能有效提高代码的准确性和可用性。
多语言语法树嵌入
Mercury 将 Python、Java 等语言的抽象语法树(AST)结构融入扩散过程,有助于减少语法错误。
超快响应速度与当前 CI 能力不匹配
在 LLMs 出现之前,持续集成 / 交付(CI/CD)的速度就已经成为一个主要瓶颈,这导致开发人员在测试时把时间浪费在等待拉取请求(PRs)上。
有时,一个更改操作需要在队列中等待数小时,甚至有时会因为不稳定需要重新开始。
Mercury 模型在编写代码方面实现了超高速响应,但如果每次代码更改都需要数小时进行测试,那么就像这位网友提出的问题一样:
即使大模型能够以比人类快 100 倍的速度写代码,但测试速度跟不上的话,这将没有什么意义。
于是问题来了:
如何缓解超快响应速度与当前 CI 能力不匹配的问题?
一些人认为因为开发人员时间比机器时间昂贵得多,所以可以通过简单地 " 投入更多机器 " 来解决 CI 速度问题。
然而,也有另一些人指出,这对于谷歌等 " 印钞机 " 公司可能可行,但对于普通公司来说,CI 预算是固定的,增加计算资源并不是一件容易的事情。
Inception Labs 团队
Mercury 的开发方Inception Labs的三位联合创始人是来自斯坦福、UCLA 和康奈尔大学的计算机教授。
其中,Stefano Ermon 是扩散模型的共同发明人,他与 Sohl-Dickstein 等学者共同构建了扩散模型的理论基础,并通过后续研究推动了模型的实用化。
另一位创始人 Aditya Grover 曾在 Meta FAIR 担任研究科学家。
攻读博士学位期间,他先后在谷歌 DeepMind、微软研究院和 OpenAI 实习。
Volodymyr Kuleshov 曾在 2018 年获得 Arthur Samuel 最佳论文奖。
该团队包括来自 Google DeepMind、微软、Meta、OpenAI 和 NVIDIA 的资深人士,目前正专注于用扩散技术改进大模型性能。
Inception Labs 还开放了 Mercury 模型的在线体验平台。
感兴趣的朋友可点击下方链接体验~
论文地址:https://arxiv.org/abs/2506.17298
Mercury 在线体验平台:https://chat.inceptionlabs.ai/
参考链接:
https://news.ycombinator.com/item?id=44489690
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见