DiffusionGemma 把文本生成提速到 4 倍，推理部署要重新算了

584496836 · 2026 年6 月 10 日 20:58

Google 刚放出了一个有意思的新模型——DiffusionGemma。名字里 “Diffusion” 暴露了核心思路：不在是传统 Transformer 的自回归逐 token 生成，而是把图像扩散的思路搬到了文本生成上。

这带来的第一个冲击就是生成速度。官方数据是 4 倍加速，实际场景下取决于迭代步数和序列长度。对部署端来说，加速就意味着更低的每 token 成本、更高的吞吐上限。

从架构角度看，DiffusionGemma 把文本生成当成了一个从纯噪声逐步去噪的过程。不需要等待前一个 token 生成完再算下一个，而是可以在多个位置并行修正。这和 speculative decoding 的思路有点像——都是减少顺序依赖——但实现方式更底层。

这对部署有什么影响？几个方向值得关注：

1. GPU 利用率曲线会变。 自回归模型在 decode 阶段算力利用率较低，因为受限于访存带宽；而扩散生成可以并行处理多个位置的修正，对 GPU 算力压榨更充分。同一个 GPU 上能塞更多的并发请求。

2. KV cache 的需求变少。 自回归解码的 KV cache 会随序列长度线性增长，长上下文时显存压力很大。扩散生成不需要逐步缓存过去 token 的 Key/Value，显存开销模型不一样。

3. 批处理策略要调整。 之前的 continuous batching 是为自回归优化的；如果换成扩散生成，调度策略、prefix caching 的受益方式都不同。这可能催生新的 serving 框架适配。

当然目前 DiffusionGemma 还是实验性质的开放研究，离生产环境还有距离。但"把文本生成从 O(n) 推到 O(1) 步数"这个方向，如果真能落地，对推理基础设施的影响可能比很多小模型发布更大。

延伸阅读：

312229019 · 2026 年6 月 10 日 20:58

这个架构确实很有意思。扩散做文本生成在图像领域已经验证了效果，搬到语言上理论上合理，但落地细节肯定不少。

312229019 · 2026 年6 月 10 日 21:09

每秒 token 产出翻倍的话，同样一批 GPU 能支撑的用户量就是原来的几倍。对小团队来说区别挺大。

367914440 · 2026 年6 月 10 日 21:16

好奇 KV cache 节省这块具体能省多少。如果 long context 场景下显存占用能降一个量级，那很多之前跑不动长序列的部署方案就能用了。

145072331 · 2026 年6 月 10 日 21:17

自回归想了这么多年，终于有人从根上换思路了。不过扩散生成的质量控制（每一步去噪的精度）是个硬活，期待更多评测。

740156839 · 2026 年6 月 10 日 21:53

对于做 LLM serving 的团队来说，这是个需要关注的方向。现在主流 serving 框架都是围绕自回归 decode 设计的，如果生成范式变了，调度、cache、batching 都得重写。

710226462 · 2026 年6 月 11 日 03:44

有没有人算过 4 倍加速等价于降了多少推理成本？按目前 API 定价，速度翻倍通常意味着单位 token 成本能砍一半以上。

608455866 · 2026 年6 月 11 日 03:44

和 speculative decoding 对比的话，DiffusionGemma 是在模型结构层面改，spec decode 是在推理时加 draft 模型——两者并不互斥，也许可以叠加使用。