自建推理 vs API 调用:2026 年自托管 LLM 的真实账单

刚看到 SitePoint 这篇 2026 年自托管 LLM 成本对比,正好最近也在反复算这笔账,趁热整理点想法。

先说结论:适不适合自建,不看模型定价,看使用量和弹性需求。

成本分解

自托管主要这几块:

  • 硬件:一张 A100 80G 月租金大概在 $1.5K-3K 之间,具体看供应商和租期。如果是买卡,按三年折旧算,月均更高。H100 租金现阶段大约是 $3K-6K/月。
  • 电力与散热:一箱 8 卡大概 3-6KW,按商业电价算,每月 $500-1500 不等。长期跑的话这块不可忽视。
  • 运维:模型更新、CUDA 版本兼容、显存碎片监控、重启恢复,这些隐性工时容易低估。以一人半职维护算,月人力成本 $3K-5K。
  • 推理服务:vLLM / SGLang / TGI 都是免费的,但如果需要灰度、限流、日志、监控,还是要在上面再搭一层,这层要么开源项目自己维护,要么买商业方案。

什么时候自建划算

画几条线试试:

  • 日调用量 < 10K 次:API 调用几乎肯定更便宜。OpenAI / Anthropic / DeepSeek 的 API 在低频下没有硬件闲置成本,随用随付。
  • 日调用量 10K-100K 次:开始进入模糊地带。如果 prompt 很长或 output 很多(比如代码生成、文档处理),自建的边际成本下降会很快追平甚至超过 API。这里的转折点取决于平均每次调用的 token 量。
  • 日调用量 > 100K 次:自建大概率更划算,尤其当你有稳定的流量模式、可以提前做好缓存策略。

几个容易被忽略的点

  1. 缓存命中率比模型定价更重要。长 system prompt 的应用场景里,prefix cache 命中率如果从 30% 提到 70%,等效成本能降一半以上。API 不给你这个选择权。
  2. GPU 利用率不是线性成本。一张卡跑一个模型,利用率 20% 和 80% 付的是同样的租金。多模型复用一张卡能摊薄成本,但显存分区和动态调度比较考验工程水平。
  3. API 的隐藏成本:速率限制、并发等待、数据出境的合规风险。有些场景这些比 token 单价贵多了。

我的看法

没有通用最优解。更实用的方式是按场景分层:

  • 实验/原型阶段:无脑 API。快、灵活、没有运维负担。
  • 稳定业务流:如果流量够稳定,自建推理配合缓存策略,长期能省 40-60%。
  • 混合方案:基础大模型用 API(换模型零成本),专用小模型(分类、rerank、提取)自建,平衡成本和质量。

你现在的调用量在什么量级?自建还是调 API,实际账单跟预期差多少?

内容来源:SitePoint 2026 年自托管 LLM 成本对比;NVIDIA Technical Blog 关于 Kubernetes 推理部署系列;Security Boulevard 上那篇 K8s 推理运维指南。

2 个赞

还有个角度:多卡并行和 continuous batching 的工程成本。不是买了卡就完事的。

1 个赞

我算过一笔账:日均 5 万次调用、平均每轮 4K token 输入 + 1K 输出,用 API 月费约 $2K-3K,自建一张 A100 就够了。

现在有些推理网关支持自动路由:简单 query 走 API,复杂任务走自建。这个平衡点值得仔细设。

还有一点:自建虽然 token 单价低,但故障恢复、模型更新这些隐性成本很容易被忽略。

按 token 算的话,长 context 场景自建优势更明显。API 按 token 收费,cache 不 hit 的时候每轮都很贵。