谷歌发布 DiffusionGemma 开源模型:基于文本扩散机制,本地推理速度飙升 4 倍 - 果核剥壳

6 月 11 日,谷歌正式发布公告,推出基于文本扩散机制的全新开放 AI 模型——DiffusionGemma。与当前主流的自回归模型(如 GPT、Gemini)不同,该模型在本地推理速度上实现了 4 倍的提升。

当前主流大模型采用的自回归架构按从左到右顺序逐个生成 Token,虽在云端批处理中效率较高,但在本地推理时易受内存带宽限制,造成计算资源浪费。DiffusionGemma 引入的扩散机制则另辟蹊径,通过从噪声中逐步去噪的方式并行处理所有 Token,并在生成过程中不断优化整体输出质量。这种机制在本地低带宽计算环境下展现出了显著的推理速度优势。

开源与质量: DiffusionGemma 以 Apache 2.0 许可证在 Hugging Face 开源。其能力与 Gemma 4 相当,但推理效率大幅跃升。得益于扩散架构,该模型支持迭代优化,能在生成时主动纠错,输出更稳定一致。其采样速度高达 1479 tokens/秒,初始开销仅 0.84 秒。

谷歌发布 DiffusionGemma 开源模型:基于文本扩散机制,本地推理速度飙升 4 倍

性能表现:

代码生成: LiveCodeBench 达 30.9%,BigCodeBench 达 45.4%,HumanEval 达 89.6%,与 Gemini 2.0 Flash-Lite 互有胜负。

数学推理: 表现亮眼,在 AIME 2025 基准中取得 23.3%,超越对比模型的 20.0%,凸显了扩散架构在推理任务上的潜力。

存在短板: 科学推理(GPQA Diamond)和复杂推理(BIG-Bench Extra Hard)得分分别为 40.4% 和 15.0%,明显低于对比模型的 56.5% 和 21.0%。

硬件加速: 英伟达在官方博文中指出,DiffusionGemma 的扩散设计能充分发挥其 GPU Tensor Core 的并行计算能力。在单块 H100 GPU 上生成速度达 1000 tokens/秒;在 DGX Station 上高达 2000 tokens/秒;在 DGX Spark 上则为 150 tokens/秒,整体速度约为同等条件下自回归模型的 4 倍。

如果您喜欢本站,点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你: 下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件,加群提示为修改者自留,非本站信息,注意鉴别

(0)
上一篇 4小时前
下一篇 4小时前

相关推荐

发表回复

评论问题之前,点击我,能帮你解决大部分问题

您的电子邮箱地址不会被公开。 必填项已用*标注