JetBrains 最近在 Hugging Face 上发布了 Mellum2,一个 12B 参数的 Mixture-of-Experts 模型。
作为写代码的 IDE 公司(IntelliJ、PyCharm 那家),他们做 LLM 的方向跟 OpenAI/DeepSeek 不太一样——模型更小、更专、更偏向本地运行。Mellum2 用了 MoE 架构,总参数量 12B,但每次推理只激活一部分 expert,实际算力需求比同体量的 dense 模型低不少。
这对搞本地部署的人来说有几个值得看的地方:
第一,12B MoE 的硬件门槛。按 JetBrains 的测试,Mellum2 在量化后可以在消费级 GPU(24GB VRAM)上跑推理。如果 12B MoE + 4bit 量化能在 4090 或 Mac Studio 上跑出可用的代码补全/理解速度,那对本地 IDE 内嵌模型的部署方案是个验证。
第二,代码垂直领域的 MoE 配置。JetBrains 手上有大量代码项目的静态分析数据,他们训练 MoE 时 likely 把不同编程语言的 expert 分开了。Java 的 expert、Python 的 expert、前端框架的 expert 各自独立——这对「模型即服务」的部署架构有启发:按语言/框架路由到不同的 lightweight expert,而不是一个巨大的通用模型。
第三,开源协议和生态。Mellum2 是开源的,用的是 JetBrains 自己的 Open Model License(类似 Llama 的协议)。这意味着可以自行下载、量化、部署到自己的代码基础设施里,不依赖 JetBrains 的 API。对注重数据隐私的团队来说,这是一个有价值的本地部署选项。
当然,12B 的 MoE 在纯能力上肯定打不过 70B+ 的 dense 模型或者更大的 MoE(比如 DeepSeek V4)。但 Mellum2 的意义不在于跑分,而在于证明:垂直场景(代码理解)可以靠一个小得多的 MoE 模型来实现,而且能做到本地化、低成本。
如果你在调研本地代码模型的部署方案,这个模型值得关注一下。目前的限制是文档还不够多,社区集成(ollama、llama.cpp 的支持)还没跟上,后续可以等一波。
内容来源:
- Hugging Face Blog: JetBrains 发布 Mellum2 12B MoE 模型的技术介绍
- JetBrains 官方公告及 Open Model License 说明
- Mellum2 模型卡和量化配置