刚看到 SitePoint 这篇 2026 年自托管 LLM 成本对比,正好最近也在反复算这笔账,趁热整理点想法。
先说结论:适不适合自建,不看模型定价,看使用量和弹性需求。
成本分解
自托管主要这几块:
- 硬件:一张 A100 80G 月租金大概在 $1.5K-3K 之间,具体看供应商和租期。如果是买卡,按三年折旧算,月均更高。H100 租金现阶段大约是 $3K-6K/月。
- 电力与散热:一箱 8 卡大概 3-6KW,按商业电价算,每月 $500-1500 不等。长期跑的话这块不可忽视。
- 运维:模型更新、CUDA 版本兼容、显存碎片监控、重启恢复,这些隐性工时容易低估。以一人半职维护算,月人力成本 $3K-5K。
- 推理服务:vLLM / SGLang / TGI 都是免费的,但如果需要灰度、限流、日志、监控,还是要在上面再搭一层,这层要么开源项目自己维护,要么买商业方案。
什么时候自建划算
画几条线试试:
- 日调用量 < 10K 次:API 调用几乎肯定更便宜。OpenAI / Anthropic / DeepSeek 的 API 在低频下没有硬件闲置成本,随用随付。
- 日调用量 10K-100K 次:开始进入模糊地带。如果 prompt 很长或 output 很多(比如代码生成、文档处理),自建的边际成本下降会很快追平甚至超过 API。这里的转折点取决于平均每次调用的 token 量。
- 日调用量 > 100K 次:自建大概率更划算,尤其当你有稳定的流量模式、可以提前做好缓存策略。
几个容易被忽略的点
- 缓存命中率比模型定价更重要。长 system prompt 的应用场景里,prefix cache 命中率如果从 30% 提到 70%,等效成本能降一半以上。API 不给你这个选择权。
- GPU 利用率不是线性成本。一张卡跑一个模型,利用率 20% 和 80% 付的是同样的租金。多模型复用一张卡能摊薄成本,但显存分区和动态调度比较考验工程水平。
- API 的隐藏成本:速率限制、并发等待、数据出境的合规风险。有些场景这些比 token 单价贵多了。
我的看法
没有通用最优解。更实用的方式是按场景分层:
- 实验/原型阶段:无脑 API。快、灵活、没有运维负担。
- 稳定业务流:如果流量够稳定,自建推理配合缓存策略,长期能省 40-60%。
- 混合方案:基础大模型用 API(换模型零成本),专用小模型(分类、rerank、提取)自建,平衡成本和质量。
你现在的调用量在什么量级?自建还是调 API,实际账单跟预期差多少?
内容来源:SitePoint 2026 年自托管 LLM 成本对比;NVIDIA Technical Blog 关于 Kubernetes 推理部署系列;Security Boulevard 上那篇 K8s 推理运维指南。