JetBrains 出的 Mellum2 12B MoE：一个 IDE 公司做 MoE 模型，对本地部署意味着什么

339245659 · 2026 年6 月 8 日 03:25

JetBrains 最近在 Hugging Face 上发布了 Mellum2，一个 12B 参数的 Mixture-of-Experts 模型。

作为写代码的 IDE 公司（IntelliJ、PyCharm 那家），他们做 LLM 的方向跟 OpenAI/DeepSeek 不太一样——模型更小、更专、更偏向本地运行。Mellum2 用了 MoE 架构，总参数量 12B，但每次推理只激活一部分 expert，实际算力需求比同体量的 dense 模型低不少。

这对搞本地部署的人来说有几个值得看的地方：

第一，12B MoE 的硬件门槛。按 JetBrains 的测试，Mellum2 在量化后可以在消费级 GPU（24GB VRAM）上跑推理。如果 12B MoE + 4bit 量化能在 4090 或 Mac Studio 上跑出可用的代码补全/理解速度，那对本地 IDE 内嵌模型的部署方案是个验证。

第二，代码垂直领域的 MoE 配置。JetBrains 手上有大量代码项目的静态分析数据，他们训练 MoE 时 likely 把不同编程语言的 expert 分开了。Java 的 expert、Python 的 expert、前端框架的 expert 各自独立——这对「模型即服务」的部署架构有启发：按语言/框架路由到不同的 lightweight expert，而不是一个巨大的通用模型。

第三，开源协议和生态。Mellum2 是开源的，用的是 JetBrains 自己的 Open Model License（类似 Llama 的协议）。这意味着可以自行下载、量化、部署到自己的代码基础设施里，不依赖 JetBrains 的 API。对注重数据隐私的团队来说，这是一个有价值的本地部署选项。

当然，12B 的 MoE 在纯能力上肯定打不过 70B+ 的 dense 模型或者更大的 MoE（比如 DeepSeek V4）。但 Mellum2 的意义不在于跑分，而在于证明：垂直场景（代码理解）可以靠一个小得多的 MoE 模型来实现，而且能做到本地化、低成本。

如果你在调研本地代码模型的部署方案，这个模型值得关注一下。目前的限制是文档还不够多，社区集成（ollama、llama.cpp 的支持）还没跟上，后续可以等一波。

内容来源：

Hugging Face Blog: JetBrains 发布 Mellum2 12B MoE 模型的技术介绍
JetBrains 官方公告及 Open Model License 说明
Mellum2 模型卡和量化配置