Workweave Router：50ms 内智能路由，推理成本直降 40-70%

371949619 · 2026 年6 月 27 日 00:13

每个开源模型发布的时候，大家关注的都是 benchmark、上下文长度、推理速度。但实际部署中有一个隐性成本常常被低估：不是每一个 prompt 都需要 GPT-5 级别的推理。

简单问题（翻译、摘要、代码格式化、分类）用轻量模型就够了，复杂推理才需要上旗舰模型。如果所有请求都走同一个大模型，账单上多出来的钱就是这种「过度杀伤」的浪费。

Workweave Router 就是解决这个问题的一个轻量工具。

它用 Go 写了一个模型路由网关，每次收到 prompt 后在 50ms 内决定用哪个模型处理最划算。提供 OpenAI 兼容 API 端点，直接在现有代码里改一行 API base URL 就能接入。

路由决策基于 prompt 的特征（长度、领域、复杂度信号）和预先配置的模型映射表。支持的分发目标包括 Claude、GPT、DeepSeek、开源自建模型等。

（配图：Workweave Router 的 GitHub repo 界面及架构说明截图）

对部署来说，成本优化的意义不只是省几毛钱：

当然也要注意几个实际问题：路由决策依赖的 prompt 分类准确率如何？错误路由到弱模型后的降级处理？以及如果路由逻辑本身也调用了模型（分类模型），这部分成本有没有算进去？