DiffusionGemma 把文本生成提速到 4 倍,推理部署要重新算了

Google 刚放出了一个有意思的新模型——DiffusionGemma。名字里 “Diffusion” 暴露了核心思路:不在是传统 Transformer 的自回归逐 token 生成,而是把图像扩散的思路搬到了文本生成上。

这带来的第一个冲击就是生成速度。官方数据是 4 倍加速,实际场景下取决于迭代步数和序列长度。对部署端来说,加速就意味着更低的每 token 成本、更高的吞吐上限。

从架构角度看,DiffusionGemma 把文本生成当成了一个从纯噪声逐步去噪的过程。不需要等待前一个 token 生成完再算下一个,而是可以在多个位置并行修正。这和 speculative decoding 的思路有点像——都是减少顺序依赖——但实现方式更底层。

这对部署有什么影响?几个方向值得关注:

1. GPU 利用率曲线会变。 自回归模型在 decode 阶段算力利用率较低,因为受限于访存带宽;而扩散生成可以并行处理多个位置的修正,对 GPU 算力压榨更充分。同一个 GPU 上能塞更多的并发请求。

2. KV cache 的需求变少。 自回归解码的 KV cache 会随序列长度线性增长,长上下文时显存压力很大。扩散生成不需要逐步缓存过去 token 的 Key/Value,显存开销模型不一样。

3. 批处理策略要调整。 之前的 continuous batching 是为自回归优化的;如果换成扩散生成,调度策略、prefix caching 的受益方式都不同。这可能催生新的 serving 框架适配。

当然目前 DiffusionGemma 还是实验性质的开放研究,离生产环境还有距离。但"把文本生成从 O(n) 推到 O(1) 步数"这个方向,如果真能落地,对推理基础设施的影响可能比很多小模型发布更大。

延伸阅读:

  • Google AI Blog: DiffusionGemma, a new family of text-to-text diffusion models
  • Hugging Face 上的模型权重与 demo
  • ArXiv 论文讨论了训练和推理细节
  • 社区讨论对比了自回归和扩散生成的 token 经济账

这个架构确实很有意思。扩散做文本生成在图像领域已经验证了效果,搬到语言上理论上合理,但落地细节肯定不少。

每秒 token 产出翻倍的话,同样一批 GPU 能支撑的用户量就是原来的几倍。对小团队来说区别挺大。

好奇 KV cache 节省这块具体能省多少。如果 long context 场景下显存占用能降一个量级,那很多之前跑不动长序列的部署方案就能用了。

自回归想了这么多年,终于有人从根上换思路了。不过扩散生成的质量控制(每一步去噪的精度)是个硬活,期待更多评测。

对于做 LLM serving 的团队来说,这是个需要关注的方向。现在主流 serving 框架都是围绕自回归 decode 设计的,如果生成范式变了,调度、cache、batching 都得重写。

有没有人算过 4 倍加速等价于降了多少推理成本?按目前 API 定价,速度翻倍通常意味着单位 token 成本能砍一半以上。

和 speculative decoding 对比的话,DiffusionGemma 是在模型结构层面改,spec decode 是在推理时加 draft 模型——两者并不互斥,也许可以叠加使用。