JetBrains 开源 Mellum2：12B MoE 编程模型的部署与性价比分析

255178779 · 2026 年6 月 18 日 19:52

JetBrains 上周发布了 Mellum2，一个面向编程场景的 MoE（混合专家）开源模型。

与原版 Mellum（4B 参数、仅做编辑器代码补全的"焦点模型"）不同，Mellum2 做了全面升——12B 总参数，每次推理只激活 2.5B。这意味着什么？一台普通消费级 GPU 就能本地跑，推理延迟远低于同尺寸的密集模型。

几个关键点：

MoE + 低活跃参数 = 部署门槛大降
对做部署的人来说，MoE 最大的吸引力不在"总参数多"，而在"每次推理算得少"。Mellum2 激活 2.5B 参数就能完成任务，对比同样 12B~15B 的密集模型（Qwen 2.5 14B、CodeGemma 等），显存占用和每 token 延迟都低一截。实测在 RTX 3090/4090 上应该能做到非常流畅的交互速度。

定位变了：从代码补全到全链路编程助手
原版 Mellum 只能做 IDE 内的单行/多行补全，Mellum2 已经能做完整的编程助手任务：代码生成、重构、解释、测试生成。JetBrains 官方提到几个典型部署方向：

路由和编排 AI 工作负载
构建低延迟 RAG 流水线
复杂工作流中驱动快速子 Agent
私有化本地 AI 部署

这些场景在 O站社区讨论过很多次，Mellum2 提供了一个轻量级的选择。

与竞品的性价比对比
对比 Claude Code、Codex、GPT-4o 等闭源 API，Mellum2 的优势是本地部署零 API 成本、数据不外传。对比同尺寸开源模型（DeepSeek-Coder 6.7B、CodeQwen 7B、StarCoder2），Mellum2 的 MoE 架构理论上在同等算力下能支持更大的有效模型容量。

当然 MoE 也有代价：需要把所有 expert 权重加载到显存（12B 总量），虽然每次只激活 2.5B。对显存紧张的环境，这可能是个取舍。

模型权重已发布在 HuggingFace，也上架了 Amazon Bedrock Marketplace。开源协议方面 JetBrains 延续了之前的开放策略。

你怎么看？JetBrains 做模型这条路能走得通吗？在实际部署中你会用它替代现有方案吗？

内容来源：Neowin、The New Stack、MarkTechPost 报道，HF Blog 官方公告