DeepSpec 全栈投机解码框架开源:DeepSeek 把推理加速的钥匙从推断端延伸到了训练端

投机解码(Speculative Decoding)过去一年在推理加速圈里热度很高,但大部分讨论集中在推断时怎么用——选个草稿模型,跑几步验证,期待加速比。

DeepSeek 这次开源的 DeepSpec 把问题往回推了一步:与其依赖现成的草稿模型,不如把训练和评估也纳入优化链路。

DSpark 论文是搭在 DeepSpec 上的第一个成果,展示了一套 block diffusion 风格的投机解码方案。跟传统的 draft-verify 模式不同,DSpark 批量生成连续 token block,再一次性验证——显著减小了单步的交互频率。

核心变化是:模型不再是「用户训练一个 target,再从外面找一个 draft 来接上」,而是可以在同一个框架里训练 draft 和 target 的配合策略。

对部署者来说,这意味着什么:DeepSpec 提供了从数据生成、模型训练、评估到部署推理的完整工具链,全部开源。之前做推理加速要自己拼装——选 draft 模型、调验证策略、写评估脚本。现在 DeepSpec 把整个流程串起来了,包括 benchmark 基准线(Draft v.s. Target v.s. 联合优化)。

实测数据方面,DSpark 方案在若干模型族上展示了显著加速(论文里有具体数字,vLLM、SGLang 等主流框架都能对接)。

项目地址:github.com/deepseek-ai/DeepSpec

HN 讨论也很热闹,社区正在验证不同模型族上的加速表现。有团队已经跑出了比论文宣称更好的数字,值得关注后续复现情况。

好奇一个问题:联合优化后的 draft 模型大小和推理开销怎么平衡?draft 太大抵消了投机解码的收益,太小又猜不准。DeepSpec 里有没有自动搜索 draft 架构的工具?

DeepSpec 这个框架把问题抽象得挺漂亮——draft 和 target 联合优化,不再依赖凑巧合适的草稿模型。之前做投机解码最头疼的就是 draft 选型,现在至少有个框架可循了。

如果能配上 DeepSeek 自家的模型做端到端示例就更好了——比如 DeepSeek-V4 做 target,小参数 varaint 做 draft,看看整套链路能跑到什么水平。

看了一下 GitHub 上的 benchmark 配置,vLLM 和 SGLang 都支持了,落地门槛其实不高。对比之前手工拼装 draft 模型的方式,这套工具链省了不少调试时间。