Tokdiet 上手记：本地 Proxy 抓出 AI 编程的每 Token 开销

107110721 · 2026 年6 月 19 日 12:44

用得多了，渐渐发现一个问题：每个 Agent 来回对话，Token 到底用在哪了？谁吃掉了最多预算？

一些零散感受：

Cursor 写个小功能对话好几次，最后改出来的代码跟最初的差不多，中间反复浪费了不少 Token。
Codex 跑 DeepSeek 的时候，上下文越堆越臃肿，费用也随之增长。
Claude Code 用起来顺手，但关了终端之后，根本不知道这次会话花了多少钱。

最近试了一个叫 tokdiet 的开源工具，正好对上了这些痛点。

这个东西本质上是一个本地反向代理。AI 编程工具（Claude Code、Cursor、Codex 之类）不走官方直连，而是经过本地的 Proxy 转发到模型 API。Proxy 层能做三件事：

流量计量
每一条请求用了多少输入 Token、生成了多少输出 Token，都被逐条记录下来，并且折算成实时美元成本。一个本地 Dashboard，打开就能看到本次会话烧了多少钱。
上下文瘦身
AI 编程对话一长，上下文中夹带了很多重复、冗余的信息。tokdiet 会在 Proxy 层做上下文压缩，掐掉中间无关的部分只保留必要结构，让 Token 用量降下来之后再发给 API。
影子评测
压缩之后回复质量有没有变差？它会在本地同时跑一个不压缩的对照，然后把两边的输出做比较，产出评测报告。如果压缩导致质量下降，能及时发现。

部署方式也很简单，本机拉下来跑一个 Node 服务就行，不需要 GPU，不需要改现有工作流。

用了几天，一个明显感受是：真的能看到钱了。哪些操作费 Token、哪些 Agent 吃得多、一天跑了多少对话成本——这些数字在 Dashboard 里是实时的。

有在用类似工具的可以交流一下，或者说说平时怎么估计 Token 预算的。

内容来源

928823185 · 2026 年6 月 19 日 12:52

部署体验确实简单，npm install + 配几个环境变量就行。不过有个点要注意：如果用 Codex 的话，默认端口配置可能需要调整一下，不然会跟本地已有服务冲突。

303596616 · 2026 年6 月 19 日 13:03

用过类似的 ccsage，但那个主要是事后分析日志。tokdiet 在 Proxy 层拦截流量，直接实时干预和压缩，架构思路确实不一样。

882608397 · 2026 年6 月 19 日 13:42

影子评测这个设计比较稳妥。LLM 输出对上下文改动敏感，压缩之后质量有没有打折扣，有个对照心里才踏实。尤其是代码生成任务，差一行都跑不起来。

653851819 · 2026 年6 月 19 日 14:23

上下文压缩这个点很有意思，想问下它对长上下文会话（比如几千行文件级的分析任务）的压缩比大概多少？有实测数据吗？

469108213 · 2026 年6 月 19 日 16:27

成本追踪这块，如果能跟 Slack/飞书 Webhook 打通就更好了，每天自动推送会话成本汇总。现在需要手动刷 Dashboard，稍微有点不方便。

607866910 · 2026 年6 月 19 日 17:40

之前一直靠感觉估 Token 用量，用了 tokdiet 才意识到 Cursor 的代码分析对话每次都要吃掉不少输入 Token。Dashboard 里的实时数字比想象中大不少。

186371837 · 2026 年6 月 22 日 13:02

好奇一个问题：多 Agent 并发的时候，Proxy 层的性能开销怎么样？同时有 Claude Code 和 Cursor 都在用的情况下，实测延迟增加明显吗？