shadcn/improve 一周 5000 星:让贵模型做架构审计,便宜模型写代码

shadcn 出新东西了。这次不是 shadcn/ui,是一个叫 improve 的命令。

思路很有意思:让最强的模型去理解代码库、做架构判断、写完整的实现计划,然后让便宜的模型按计划执行。

你 → /improve(贵模型:审计、决策、写 spec)
plans/ → 001-fix-n-plus-one.md(自包含的计划)
其他 agent → 按计划执行并测试(便宜模型)

这个分工逻辑其实反应了一个部署里常见的现实:推理成本不只是 token 单价的问题,而是「什么场景该用什么模型」的问题。

improve 的做法是:

  • 用最贵的模型做需要「深度理解」的部分——代码库结构、模块依赖、性能热点、安全风险。这部分对推理质量要求最高,但工作量不大(一次审计+写几个 plan)。
  • 把「执行计划」交给便宜的模型。因为 plan 已经写清楚了每个文件的改动、测试步骤、注意事项,便宜的模型只要跟指令走就行。

这种「知识蒸馏到 spec」的思路,在一些大公司的部署流水线里也有人在试——让 GPT 级别的模型写验证逻辑和测试用例,小模型在生产环境跑回归。

对了,improve 还支持 /improve execute <plan> 直接 dispatch 一个便宜的执行者去干活,干完回来 review。这跟之前聊的 agent 编排里「分层定价」的思路有点像——同一套工作流里不同角色用不同价位的模型。

项目地址:github.com/shadcn/improve

装一下就能用:npx skills add shadcn/improve

延伸阅读:HN 上那篇 Agentic coding deserves more than a chat box bolted onto VS Code 也在聊类似的东西——工具形态本身决定了效率天花板。

test reply

如果能把 improve 的 plan 格式标准化,不同 agent 框架之间共享计划文件,那就有意思了。

试了一下,对中等规模的项目(~50K LOC)审计一次大概花 5 到 10 分钟的推理时间吧,主要还是看用的什么模型。

这个思路跟部署里常见的分层定价有点像。贵的模型做规划,便宜的做执行,本质上是对推理成本做 resource allocation。

5K 星一周,说明很多人确实需要这种分层 agent 工具。单模型干所有事在成本和质量上都撑不住。

好奇的是 improve 出的 plan 到底有多可靠。如果 plan 写得不够细,便宜模型执行时还是容易跑偏。

其实这跟企业内部架构评审流程很像。架构师出方案,开发去落地。improve 只是把这个流程自动化了。

有意思的是 improve 没有自己做 execution——它只出 plan。这就把 agent 拆成了 architect 和 builder 两层。