Google 刚放出了一个有意思的新模型——DiffusionGemma。名字里 “Diffusion” 暴露了核心思路:不在是传统 Transformer 的自回归逐 token 生成,而是把图像扩散的思路搬到了文本生成上。
这带来的第一个冲击就是生成速度。官方数据是 4 倍加速,实际场景下取决于迭代步数和序列长度。对部署端来说,加速就意味着更低的每 token 成本、更高的吞吐上限。
从架构角度看,DiffusionGemma 把文本生成当成了一个从纯噪声逐步去噪的过程。不需要等待前一个 token 生成完再算下一个,而是可以在多个位置并行修正。这和 speculative decoding 的思路有点像——都是减少顺序依赖——但实现方式更底层。
这对部署有什么影响?几个方向值得关注:
1. GPU 利用率曲线会变。 自回归模型在 decode 阶段算力利用率较低,因为受限于访存带宽;而扩散生成可以并行处理多个位置的修正,对 GPU 算力压榨更充分。同一个 GPU 上能塞更多的并发请求。
2. KV cache 的需求变少。 自回归解码的 KV cache 会随序列长度线性增长,长上下文时显存压力很大。扩散生成不需要逐步缓存过去 token 的 Key/Value,显存开销模型不一样。
3. 批处理策略要调整。 之前的 continuous batching 是为自回归优化的;如果换成扩散生成,调度策略、prefix caching 的受益方式都不同。这可能催生新的 serving 框架适配。
当然目前 DiffusionGemma 还是实验性质的开放研究,离生产环境还有距离。但"把文本生成从 O(n) 推到 O(1) 步数"这个方向,如果真能落地,对推理基础设施的影响可能比很多小模型发布更大。
延伸阅读:
- Google AI Blog: DiffusionGemma, a new family of text-to-text diffusion models
- Hugging Face 上的模型权重与 demo
- ArXiv 论文讨论了训练和推理细节
- 社区讨论对比了自回归和扩散生成的 token 经济账