最近 Upbound(Crossplane 背后的公司)开源了 Modelplane——一个专为 AI 推理设计的控制平面,基于 Crossplane 构建,运行在 Kubernetes 上。
这解决了什么问题?
现在的推理部署普遍存在几个痛点:
- 每个模型单独部署,资源碎片化严重
- GPU 利用率低,空闲浪费
- 缺乏统一的策略管理:路由、配额、优先级都要各自实现
- 推理集群和上层应用之间没有清晰的 API 边界
Modelplane 的做法是把推理集群当成 Kubernetes 资源来管理——比如定义 InferenceDeployment、ModelRoute、ModelPool 等自定义资源,用声明式 API 表达你想要的推理拓扑。
和现有方案比有什么不同?
传统做法要么:
- 接一个推理服务商(OpenAI、Anthropic),放弃控制权
- 自己搭 vLLM/SGLang 集群,但管理和扩容全靠手写脚本
- 用 Ray Serve 或 BentoML,框架层封装好但和基础设施层脱节
Modelplane 走的是第三条路:从基础设施层定义推理拓扑。它的核心概念是 ModelRoute——类似 Crossplane 的 Provider 模式,把不同推理后端(vLLM、Triton、自定义容器)统一成标准接口。上层应用只需要写 CRD,不需要管具体后端在哪个节点上跑。
部署落地需要考虑的几个点
- 资源隔离:每个 InferenceDeployment 可以指定
gpu_memory_utilization和replicas,类似 vLLM 的 per-container 资源配置 - 灰度路由:ModelRoute 支持比例路由,可以逐步切流
- 监控集成:天然和 Prometheus/Grafana 打通,因为基于标准 Kubernetes
对于已经用 K8s 管理 AI 工作负载的团队来说,Modelplane 的门槛相对低——熟悉 Crossplane 的话几乎可以直接上手。对于中小团队,可能还是 vLLM 直跑更轻量。
你怎么看这个方向?推理控制平面是刚需还是锦上添花?
延伸阅读:
- github.com/modelplaneai/modelplane
- Upbound Launches Modelplane: The Open Source Control Plane for AI Inference — Cloud Native Now
- SiliconANGLE: Upbound open-sources Modelplane to optimize inference clusters