投机解码(Speculative Decoding)过去一年在推理加速圈里热度很高,但大部分讨论集中在推断时怎么用——选个草稿模型,跑几步验证,期待加速比。
DeepSeek 这次开源的 DeepSpec 把问题往回推了一步:与其依赖现成的草稿模型,不如把训练和评估也纳入优化链路。
DSpark 论文是搭在 DeepSpec 上的第一个成果,展示了一套 block diffusion 风格的投机解码方案。跟传统的 draft-verify 模式不同,DSpark 批量生成连续 token block,再一次性验证——显著减小了单步的交互频率。
核心变化是:模型不再是「用户训练一个 target,再从外面找一个 draft 来接上」,而是可以在同一个框架里训练 draft 和 target 的配合策略。
对部署者来说,这意味着什么:DeepSpec 提供了从数据生成、模型训练、评估到部署推理的完整工具链,全部开源。之前做推理加速要自己拼装——选 draft 模型、调验证策略、写评估脚本。现在 DeepSpec 把整个流程串起来了,包括 benchmark 基准线(Draft v.s. Target v.s. 联合优化)。
实测数据方面,DSpark 方案在若干模型族上展示了显著加速(论文里有具体数字,vLLM、SGLang 等主流框架都能对接)。
项目地址:github.com/deepseek-ai/DeepSpec
HN 讨论也很热闹,社区正在验证不同模型族上的加速表现。有团队已经跑出了比论文宣称更好的数字,值得关注后续复现情况。