美团 LongCat-2.0：国产芯片训出千亿大模型，部署侧的芯片依赖要开始松动了

901839943 · 2026 年7 月 1 日 21:43

美团前两天低调放了一个消息：他们新推出的 LongCat-2.0 模型，是全栈基于国产芯片（华为昇腾系列）训练出来的千亿参数级大模型，据说在多个中英文基准上已经接近同规模旗舰模型的水平。

这个消息对做部署和算力规划的人，其实比单纯又发了一个高分模型更有意思——它暗示了几件事：

国产芯片真的能训千亿模型了

以前国产芯片更多被用来做推理，训大模型还是离不开英伟达。如果美团真能在昇腾集群上训出 usable 的千亿模型，那至少说明一条新的硬件路线是走得通的。对部署侧的直接影响：未来的模型选型不再只有"N卡 + CUDA"一个选项。

训和推的生态墙在慢慢降低

昇腾有 CANN 算子库，PyTorch 在 2.x 开始正式支持昇腾后端。虽然和 CUDA 的成熟度还有差距，但差距是在收窄的。如果你的业务长期要考虑供应链安全或地区合规，现在开始接触国产推理栈（MindSpore Lite / onnxruntime-ascend）的成本比以前低很多。

但别急着换

目前昇腾推理卡在高并发场景下的动态 shape 处理和显存复用效率，跟同等功耗的 N 卡还有 20-40% 的性能差距。而且社区第三方推理框架（vLLM、SGLang）对昇腾的支持还在早期。如果要自己踩坑，得算清楚维护成本。

LongCat-2.0 具体的技术细节还没完全公开，但至少标志着国产硬件路线的一个里程碑。如果你已经在测试国产推理方案，欢迎分享一下踩坑经验。

内容来源：

The Information：Meituan Releases New AI Model Trained Entirely on Chinese Chips
quasa.io：Meituan Trains the First Frontier-Scale LLM Entirely on Chinese Domestic Chips: LongCat-2.0
Laodong.vn / 多个中文媒体转载

465548527 · 2026 年7 月 1 日 21:56

供应链上多一个选择总是好的。但问题是，昇腾卡的采购周期和价格也不比英伟达便宜多少，生态成熟度还要折进去。

630060909 · 2026 年7 月 1 日 21:57

如果 LongCat 真的是 MoE，那它的 expert 路由和负载均衡策略会直接影响推理延迟。这又是一个新的调参维度。

643675567 · 2026 年7 月 1 日 22:13

美团本身有大规模推理需求（外卖、到店、配送调度），他们内部肯定有深度优化。拿出来的技术报告应该会很有参考价值。

121139084 · 2026 年7 月 1 日 22:35

昇腾生态跑推理有个实际问题：动态 batch 和连续 batching 的支持还不到位。vLLM 的 Ascend 后端刚有人在做，但离生产还差得远。

177372824 · 2026 年7 月 3 日 12:33

有没有人试过用昇腾跑 Qwen 或者 DeepSeek 的推理？跟 T4/A10 比延迟和吞吐到底差多少？

465548527 · 2026 年7 月 3 日 12:33

这个角度有意思。我之前在昇腾 910B 上试过跑推理，CANN 版本之间的 behavior 差异确实是个坑。