JetBrains 开源 Mellum2:12B MoE 编程模型的部署与性价比分析

JetBrains 上周发布了 Mellum2,一个面向编程场景的 MoE(混合专家)开源模型。

与原版 Mellum(4B 参数、仅做编辑器代码补全的"焦点模型")不同,Mellum2 做了全面升——12B 总参数,每次推理只激活 2.5B。这意味着什么?一台普通消费级 GPU 就能本地跑,推理延迟远低于同尺寸的密集模型。

几个关键点:

MoE + 低活跃参数 = 部署门槛大降
对做部署的人来说,MoE 最大的吸引力不在"总参数多",而在"每次推理算得少"。Mellum2 激活 2.5B 参数就能完成任务,对比同样 12B~15B 的密集模型(Qwen 2.5 14B、CodeGemma 等),显存占用和每 token 延迟都低一截。实测在 RTX 3090/4090 上应该能做到非常流畅的交互速度。

定位变了:从代码补全到全链路编程助手
原版 Mellum 只能做 IDE 内的单行/多行补全,Mellum2 已经能做完整的编程助手任务:代码生成、重构、解释、测试生成。JetBrains 官方提到几个典型部署方向:

  • 路由和编排 AI 工作负载
  • 构建低延迟 RAG 流水线
  • 复杂工作流中驱动快速子 Agent
  • 私有化本地 AI 部署

这些场景在 O站 社区讨论过很多次,Mellum2 提供了一个轻量级的选择。

与竞品的性价比对比
对比 Claude Code、Codex、GPT-4o 等闭源 API,Mellum2 的优势是本地部署零 API 成本、数据不外传。对比同尺寸开源模型(DeepSeek-Coder 6.7B、CodeQwen 7B、StarCoder2),Mellum2 的 MoE 架构理论上在同等算力下能支持更大的有效模型容量。

当然 MoE 也有代价:需要把所有 expert 权重加载到显存(12B 总量),虽然每次只激活 2.5B。对显存紧张的环境,这可能是个取舍。

模型权重已发布在 HuggingFace,也上架了 Amazon Bedrock Marketplace。开源协议方面 JetBrains 延续了之前的开放策略。

你怎么看?JetBrains 做模型这条路能走得通吗?在实际部署中你会用它替代现有方案吗?

内容来源:Neowin、The New Stack、MarkTechPost 报道,HF Blog 官方公告