Workweave Router:50ms 内智能路由,推理成本直降 40-70%

每个开源模型发布的时候,大家关注的都是 benchmark、上下文长度、推理速度。但实际部署中有一个隐性成本常常被低估:不是每一个 prompt 都需要 GPT-5 级别的推理。

简单问题(翻译、摘要、代码格式化、分类)用轻量模型就够了,复杂推理才需要上旗舰模型。如果所有请求都走同一个大模型,账单上多出来的钱就是这种「过度杀伤」的浪费。

Workweave Router 就是解决这个问题的一个轻量工具。

它用 Go 写了一个模型路由网关,每次收到 prompt 后在 50ms 内决定用哪个模型处理最划算。提供 OpenAI 兼容 API 端点,直接在现有代码里改一行 API base URL 就能接入。

路由决策基于 prompt 的特征(长度、领域、复杂度信号)和预先配置的模型映射表。支持的分发目标包括 Claude、GPT、DeepSeek、开源自建模型等。

(配图:Workweave Router 的 GitHub repo 界面及架构说明截图)

对部署来说,成本优化的意义不只是省几毛钱:

  • API 调用场景下,40-70% 的降幅直接改变了「API 还是自建」的盈亏平衡线
  • Agent 系统里,子任务调用频繁,路由决策的累积效果更明显
  • 50ms 的决策延迟对于批量处理和后台 agent 可以忽略,但对实时聊天可能有感知
  • 路由策略需要持续调整:模型定价变、新模型上线、任务分布变化都需要重新校准

当然也要注意几个实际问题:路由决策依赖的 prompt 分类准确率如何?错误路由到弱模型后的降级处理?以及如果路由逻辑本身也调用了模型(分类模型),这部分成本有没有算进去?

项目地址:github.com/workweave/router
HN 讨论可参考 news.ycombinator.com