中国开源模型正在追赶 OpenAI 和 Anthropic:成本低五到六倍,部署侧的选项在变多

这周 Reuters、New York Times 和多家科技媒体同时报道了一个趋势:中国 AI 模型正在快速缩小与 OpenAI、Anthropic 等美国前沿模型的差距,而 API 成本只有后者的几分之一。

拿 Zhipu 的 GLM-5.2 来说,它在编程基准测试上已经接近 Claude Opus 4.8 的水平,但定价只有约五分之一。这不是孤例——DeepSeek V4 Flash、Qwen 3、MiniMax M3 等模型都在持续拉近与前沿模型的距离,而价格普遍低 5-6 倍。

这对部署侧意味着什么?

第一,模型选择的范围在变宽。以前部署场景的默认选项是美国闭源模型,现在中国开源/开放权重模型已经可以成为 serious contender。对于批量推理、低成本服务、合规约束下的部署,考虑范围应该扩展。

第二,成本结构在变动。当一个 scores 接近 GPT-5.x 或 Claude 的模型,token 成本只有 1/5 甚至 1/6 时,做 multi-model routing 的经济账就更清晰了。可以用低成本模型处理大部分流量,只在关键场景 fall back 到更贵的模型。

第三,自建推理的经济性提升了。许多中国模型是开源或开放权重的,可以在自己的推理集群上跑。结合 vLLM、SGLang 等 serving 框架,self-hosted 方案的成本曲线正在变得更友好。

这并不是说中国模型在所有场景都能替代美国前沿模型——在复杂推理、长文理解、安全性等维度仍然有差距。但这个差距在持续缩小,而且在价格优势的放大下,部署决策的天平正在倾斜。

值得持续跟踪的几个点:

  • 中国模型在 coding agent 场景的真实表现(不只是 benchmark,还有实际开发体验)
  • 出口管制对模型可用性的影响——某些中国模型在特定地区可能更容易获得
  • 开源生态的差距——虽然模型权重开放,但在工具链、文档、社区支持方面还有距离

总之,部署侧的"中国模型选项"正在从备选变成不得不考虑的变量。

这个话题的视角很有意思。从部署角度看,关键是看这些模型在真实场景下的表现跟 benchmark 有多大差距。