6 月 11 日,谷歌正式发布公告,推出基于文本扩散机制的全新开放 AI 模型——DiffusionGemma。与当前主流的自回归模型(如 GPT、Gemini)不同,该模型在本地推理速度上实现了 4 倍的提升。
当前主流大模型采用的自回归架构按从左到右顺序逐个生成 Token,虽在云端批处理中效率较高,但在本地推理时易受内存带宽限制,造成计算资源浪费。DiffusionGemma 引入的扩散机制则另辟蹊径,通过从噪声中逐步去噪的方式并行处理所有 Token,并在生成过程中不断优化整体输出质量。这种机制在本地低带宽计算环境下展现出了显著的推理速度优势。
开源与质量: DiffusionGemma 以 Apache 2.0 许可证在 Hugging Face 开源。其能力与 Gemma 4 相当,但推理效率大幅跃升。得益于扩散架构,该模型支持迭代优化,能在生成时主动纠错,输出更稳定一致。其采样速度高达 1479 tokens/秒,初始开销仅 0.84 秒。

性能表现:
代码生成: LiveCodeBench 达 30.9%,BigCodeBench 达 45.4%,HumanEval 达 89.6%,与 Gemini 2.0 Flash-Lite 互有胜负。
数学推理: 表现亮眼,在 AIME 2025 基准中取得 23.3%,超越对比模型的 20.0%,凸显了扩散架构在推理任务上的潜力。
存在短板: 科学推理(GPQA Diamond)和复杂推理(BIG-Bench Extra Hard)得分分别为 40.4% 和 15.0%,明显低于对比模型的 56.5% 和 21.0%。
硬件加速: 英伟达在官方博文中指出,DiffusionGemma 的扩散设计能充分发挥其 GPU Tensor Core 的并行计算能力。在单块 H100 GPU 上生成速度达 1000 tokens/秒;在 DGX Station 上高达 2000 tokens/秒;在 DGX Spark 上则为 150 tokens/秒,整体速度约为同等条件下自回归模型的 4 倍。

微信扫一扫
支付宝扫一扫 