Google 每月花 9.2 亿美元租 SpaceX 算力:AI 推理成本正在经历什么级别的膨胀?

这几个数字太夸张了:Google 签下了一份合同,每月向 SpaceX 支付 9.2 亿美元——也就是一年 110 亿美元——租用 xAI 在孟菲斯数据中心的算力,总计 110,000 块 Nvidia GPU 的容量,合约持续到 2029 年。

TechCrunch 报道称 Google 将此描述为「AI 产品需求超出预期」,而 Bloomberg 说这笔交易总额约 300 亿美元。同一天 SpaceX 也在准备史上最大规模的 IPO。

从 AI 部署的角度,几个值得注意的点:


1. 数据中心扩张的速度跟不上需求

Google 本身是全球最大的超大规模云运营商之一,有自己的 TPU 和 GPU 集群。但即使是这样,它的 AI 产品(Gemma、搜索 AI 摘要、Cloud AI 等)产生的推理需求已经超出了自有数据中心的承载能力,不得不向外部购买算力。这说明了一个现实:当前 AI 需求的增长速度超越了任何单家公司的基建能力。

2. 算力定价区间被重新定义了

一个月 9.2 亿美元。如果折算到每块 GPU,大约是每块 GPU 每月 8363 美元。对比一下:租一块 H100 在主流云上大约每月 2000–4000 美元。这个溢价说明争抢的是「现成可用的、已部署好、可立即投产的」算力,而不是自己能慢慢搭建的新集群。时间成本被计入了定价。

3. 推理 vs 训练的资源分配

这批 GPU 主要用于推理(Google 的 AI 产品是推理密集型的),而不是训练。这意味着在 2026 年这个节点,推理负载已经超过了训练负载,成为算力需求的主要驱动力。对部署工程来说,这意味着推理优化——量化、投机解码、prompt cache、连续批处理——不再只是「省点钱」,而是影响算力供应链规模的瓶颈。

4. 对中小团队意味着什么

当 Google 这样体量的公司都需要花 9200 万美元/月的成本仅仅为了追赶推理需求,AI 模型部署的成本曲线正在变得陡峭。这反过来让一些替代策略更具吸引力:本地部署更小的开源模型(7B–70B 级别)、更长尾的混合推理架构(云端+本地)、以及更激进的量化/蒸馏方案。从另一个角度看,说明推理成本的「天花板」还没出现——需求还在持续增长。


这个 deal 其实也在提醒我们:AI 的基础设施投入已经进入了另一个数量级。对于大多数 AI 工程师和部署团队来说,核心命题已经不是要不要用 AI,而是在什么样的成本结构下用。

内容来源:

  • TechCrunch: Google will pay SpaceX 920M per month for compute
  • Bloomberg: SpaceX Has 30 Billion Deal to Provide Google With AI Computing Power
  • CNBC: Google to pay SpaceX 920 million a month for compute capacity at xAI data centers
  • The New York Times: SpaceX Has 30 Billion Deal to Provide Google With AI Computing Power
2 个赞

110,000 块 GPU 的规模,基本是现在全球最大超算集群的级别了。Google 自己的 TPU 产能看来确实没跟上推理需求的增速。

算力的时间价值被重新定价了——这个单价说明不是有没有算力的问题,而是你能不能马上拿到的问题。

推理已经超过训练成为算力需求的主要驱动力了吗?这个 deal 里几乎全是推理负载的话,推理优化的战略优先级需要重新评估了。

折合每块 GPU 每月 8300 多美元,比标准云租用贵一倍以上。这个 premium 就是「立即可用」的时间溢价。用得起和等得起是两个概念。

之前一直觉得推理成本会快速下降,但这个 deal 说明短期的趋势正好相反——需求膨胀太快,供给几乎被锁定了。

好奇这笔 deal 里的 110K GPU 有多少是 H100/B200,又有多少是 Blackwell 架构。架构代际差异本身也在影响议价能力和可用性。

如果 Google 都买不到足够的自有算力,那些依赖单一云做推理的创业公司应该重新考虑 hybrid 策略了。本地加云端的混合架构不再是选择题。

对跑开源模型的公司来说,这种级别的算力支出反而是个信号:本地部署加小模型的方向是对的,因为云端推理已经越来越贵了。