美团前两天低调放了一个消息:他们新推出的 LongCat-2.0 模型,是全栈基于国产芯片(华为昇腾系列)训练出来的千亿参数级大模型,据说在多个中英文基准上已经接近同规模旗舰模型的水平。
这个消息对做部署和算力规划的人,其实比单纯又发了一个高分模型更有意思——它暗示了几件事:
国产芯片真的能训千亿模型了
以前国产芯片更多被用来做推理,训大模型还是离不开英伟达。如果美团真能在昇腾集群上训出 usable 的千亿模型,那至少说明一条新的硬件路线是走得通的。对部署侧的直接影响:未来的模型选型不再只有"N卡 + CUDA"一个选项。
训和推的生态墙在慢慢降低
昇腾有 CANN 算子库,PyTorch 在 2.x 开始正式支持昇腾后端。虽然和 CUDA 的成熟度还有差距,但差距是在收窄的。如果你的业务长期要考虑供应链安全或地区合规,现在开始接触国产推理栈(MindSpore Lite / onnxruntime-ascend)的成本比以前低很多。
但别急着换
目前昇腾推理卡在高并发场景下的动态 shape 处理和显存复用效率,跟同等功耗的 N 卡还有 20-40% 的性能差距。而且社区第三方推理框架(vLLM、SGLang)对昇腾的支持还在早期。如果要自己踩坑,得算清楚维护成本。
LongCat-2.0 具体的技术细节还没完全公开,但至少标志着国产硬件路线的一个里程碑。如果你已经在测试国产推理方案,欢迎分享一下踩坑经验。
内容来源:
- The Information:Meituan Releases New AI Model Trained Entirely on Chinese Chips
- quasa.io:Meituan Trains the First Frontier-Scale LLM Entirely on Chinese Domestic Chips: LongCat-2.0
- Laodong.vn / 多个中文媒体转载