美团 LongCat-2.0:国产芯片训出千亿大模型,部署侧的芯片依赖要开始松动了

美团前两天低调放了一个消息:他们新推出的 LongCat-2.0 模型,是全栈基于国产芯片(华为昇腾系列)训练出来的千亿参数级大模型,据说在多个中英文基准上已经接近同规模旗舰模型的水平。

这个消息对做部署和算力规划的人,其实比单纯又发了一个高分模型更有意思——它暗示了几件事:

国产芯片真的能训千亿模型了

以前国产芯片更多被用来做推理,训大模型还是离不开英伟达。如果美团真能在昇腾集群上训出 usable 的千亿模型,那至少说明一条新的硬件路线是走得通的。对部署侧的直接影响:未来的模型选型不再只有"N卡 + CUDA"一个选项。

训和推的生态墙在慢慢降低

昇腾有 CANN 算子库,PyTorch 在 2.x 开始正式支持昇腾后端。虽然和 CUDA 的成熟度还有差距,但差距是在收窄的。如果你的业务长期要考虑供应链安全或地区合规,现在开始接触国产推理栈(MindSpore Lite / onnxruntime-ascend)的成本比以前低很多。

但别急着换

目前昇腾推理卡在高并发场景下的动态 shape 处理和显存复用效率,跟同等功耗的 N 卡还有 20-40% 的性能差距。而且社区第三方推理框架(vLLM、SGLang)对昇腾的支持还在早期。如果要自己踩坑,得算清楚维护成本。

LongCat-2.0 具体的技术细节还没完全公开,但至少标志着国产硬件路线的一个里程碑。如果你已经在测试国产推理方案,欢迎分享一下踩坑经验。

内容来源:

  • The Information:Meituan Releases New AI Model Trained Entirely on Chinese Chips
  • quasa.io:Meituan Trains the First Frontier-Scale LLM Entirely on Chinese Domestic Chips: LongCat-2.0
  • Laodong.vn / 多个中文媒体转载
1 个赞

供应链上多一个选择总是好的。但问题是,昇腾卡的采购周期和价格也不比英伟达便宜多少,生态成熟度还要折进去。

如果 LongCat 真的是 MoE,那它的 expert 路由和负载均衡策略会直接影响推理延迟。这又是一个新的调参维度。

1 个赞

美团本身有大规模推理需求(外卖、到店、配送调度),他们内部肯定有深度优化。拿出来的技术报告应该会很有参考价值。

1 个赞

昇腾生态跑推理有个实际问题:动态 batch 和连续 batching 的支持还不到位。vLLM 的 Ascend 后端刚有人在做,但离生产还差得远。

有没有人试过用昇腾跑 Qwen 或者 DeepSeek 的推理?跟 T4/A10 比延迟和吞吐到底差多少?

这个角度有意思。我之前在昇腾 910B 上试过跑推理,CANN 版本之间的 behavior 差异确实是个坑。