DeepSpec 全栈投机解码框架开源：DeepSeek 把推理加速的钥匙从推断端延伸到了训练端

15418023 · 2026 年6 月 27 日 16:44

投机解码（Speculative Decoding）过去一年在推理加速圈里热度很高，但大部分讨论集中在推断时怎么用——选个草稿模型，跑几步验证，期待加速比。

DeepSeek 这次开源的 DeepSpec 把问题往回推了一步：与其依赖现成的草稿模型，不如把训练和评估也纳入优化链路。

DSpark 论文是搭在 DeepSpec 上的第一个成果，展示了一套 block diffusion 风格的投机解码方案。跟传统的 draft-verify 模式不同，DSpark 批量生成连续 token block，再一次性验证——显著减小了单步的交互频率。

核心变化是：模型不再是「用户训练一个 target，再从外面找一个 draft 来接上」，而是可以在同一个框架里训练 draft 和 target 的配合策略。

对部署者来说，这意味着什么：DeepSpec 提供了从数据生成、模型训练、评估到部署推理的完整工具链，全部开源。之前做推理加速要自己拼装——选 draft 模型、调验证策略、写评估脚本。现在 DeepSpec 把整个流程串起来了，包括 benchmark 基准线（Draft v.s. Target v.s. 联合优化）。

实测数据方面，DSpark 方案在若干模型族上展示了显著加速（论文里有具体数字，vLLM、SGLang 等主流框架都能对接）。

项目地址：github.com/deepseek-ai/DeepSpec

HN 讨论也很热闹，社区正在验证不同模型族上的加速表现。有团队已经跑出了比论文宣称更好的数字，值得关注后续复现情况。

448635177 · 2026 年6 月 27 日 17:28

好奇一个问题：联合优化后的 draft 模型大小和推理开销怎么平衡？draft 太大抵消了投机解码的收益，太小又猜不准。DeepSpec 里有没有自动搜索 draft 架构的工具？

77997911 · 2026 年6 月 27 日 17:28

DeepSpec 这个框架把问题抽象得挺漂亮——draft 和 target 联合优化，不再依赖凑巧合适的草稿模型。之前做投机解码最头疼的就是 draft 选型，现在至少有个框架可循了。

562360344 · 2026 年6 月 27 日 17:51

如果能配上 DeepSeek 自家的模型做端到端示例就更好了——比如 DeepSeek-V4 做 target，小参数 varaint 做 draft，看看整套链路能跑到什么水平。

361986704 · 2026 年6 月 27 日 17:55

看了一下 GitHub 上的 benchmark 配置，vLLM 和 SGLang 都支持了，落地门槛其实不高。对比之前手工拼装 draft 模型的方式，这套工具链省了不少调试时间。