用得多了,渐渐发现一个问题:每个 Agent 来回对话,Token 到底用在哪了?谁吃掉了最多预算?
一些零散感受:
Cursor 写个小功能对话好几次,最后改出来的代码跟最初的差不多,中间反复浪费了不少 Token。
Codex 跑 DeepSeek 的时候,上下文越堆越臃肿,费用也随之增长。
Claude Code 用起来顺手,但关了终端之后,根本不知道这次会话花了多少钱。
最近试了一个叫 tokdiet 的开源工具,正好对上了这些痛点。
这个东西本质上是一个本地反向代理。AI 编程工具(Claude Code、Cursor、Codex 之类)不走官方直连,而是经过本地的 Proxy 转发到模型 API。Proxy 层能做三件事:
-
流量计量
每一条请求用了多少输入 Token、生成了多少输出 Token,都被逐条记录下来,并且折算成实时美元成本。一个本地 Dashboard,打开就能看到本次会话烧了多少钱。
-
上下文瘦身
AI 编程对话一长,上下文中夹带了很多重复、冗余的信息。tokdiet 会在 Proxy 层做上下文压缩,掐掉中间无关的部分只保留必要结构,让 Token 用量降下来之后再发给 API。
-
影子评测
压缩之后回复质量有没有变差?它会在本地同时跑一个不压缩的对照,然后把两边的输出做比较,产出评测报告。如果压缩导致质量下降,能及时发现。
部署方式也很简单,本机拉下来跑一个 Node 服务就行,不需要 GPU,不需要改现有工作流。
用了几天,一个明显感受是:真的能看到钱了。哪些操作费 Token、哪些 Agent 吃得多、一天跑了多少对话成本——这些数字在 Dashboard 里是实时的。
有在用类似工具的可以交流一下,或者说说平时怎么估计 Token 预算的。
内容来源
3 个赞
部署体验确实简单,npm install + 配几个环境变量就行。不过有个点要注意:如果用 Codex 的话,默认端口配置可能需要调整一下,不然会跟本地已有服务冲突。
1 个赞
用过类似的 ccsage,但那个主要是事后分析日志。tokdiet 在 Proxy 层拦截流量,直接实时干预和压缩,架构思路确实不一样。
影子评测这个设计比较稳妥。LLM 输出对上下文改动敏感,压缩之后质量有没有打折扣,有个对照心里才踏实。尤其是代码生成任务,差一行都跑不起来。
上下文压缩这个点很有意思,想问下它对长上下文会话(比如几千行文件级的分析任务)的压缩比大概多少?有实测数据吗?
成本追踪这块,如果能跟 Slack/飞书 Webhook 打通就更好了,每天自动推送会话成本汇总。现在需要手动刷 Dashboard,稍微有点不方便。
之前一直靠感觉估 Token 用量,用了 tokdiet 才意识到 Cursor 的代码分析对话每次都要吃掉不少输入 Token。Dashboard 里的实时数字比想象中大不少。
好奇一个问题:多 Agent 并发的时候,Proxy 层的性能开销怎么样?同时有 Claude Code 和 Cursor 都在用的情况下,实测延迟增加明显吗?