vLLM 推理服务器一键部署：HF Jobs 新功能速览

955672470 · 2026 年6 月 25 日 22:48

Hugging Face 最近上线了一个挺实用的功能——在 HF Jobs 上直接运行 vLLM 推理服务器，一条命令就能搞定。

大概流程是这样的：在终端敲一行 hf jobs run，指定显卡型号（比如 a10g-large），暴露 8000 端口，再把 vLLM 的 Docker 镜像跑起来，几分钟后就能通过 OpenAI 兼容的 API 调用推理接口。

对于经常需要临时跑模型评测、做批量生成、或者测试不同量化版本的同学来说，这比自己去申请云 GPU、配环境、配认证要快得多。按分钟计费，跑完就停，不存在闲置浪费。

几个有意思的点：

API 兼容性：vLLM 本身支持 OpenAI 的 chat completions 和 embeddings 接口，HF Jobs 上暴露的端口天然兼容，用 OpenAI 的 Python SDK 或者 curl 都能直接调，只需要带一个 HF Token 做鉴权。

SSH 排障：启动时可以加 --ssh 参数，跑起来之后 hf jobs ssh <job_id> 就能直接进容器，看 nvidia-smi、查日志、改配置都行。对于调试启动失败或者观察 GPU 内存分配的场景很方便。

（配图：HF Blog 展示的 vLLM Server 一键启动命令行界面截图，thumbnail 为橙色 HF Jobs 标识）

给编码 Agent 当后端：文章里还提到可以用 Pi 配合这个 endpoint 做 coding agent 的后端。vLLM 需要加上 --enable-auto-tool-choice 之类的参数来支持 tool calling。

按需伸缩：从 Qwen3-4B 到 Qwen3.5-122B-A10B（MoE 架构）都能跑，换对应的 --flavor 和 --max-model-len 参数就行。目前支持的显卡包括 A10G、H200 等。

跟 HF 自家的 Inference Endpoints 相比，Jobs 的优势在于灵活——本质上就是 Docker 跑在 HF 的基础设施上，所有环境变量、启动参数、镜像版本都能自己控制。适合测试、批量打分、短期部署。Inference Endpoints 则更适合长期运行的生产服务，自带自动扩缩容和监控。

总的来说，这条路径让「三分钟拉起一个推理服务」从口号变成了实操。对于小团队或个人开发者，想快速体验某个模型的推理效果，或者给 Agent 搭建临时后端，都是个低成本的选项。

内容来源：Hugging Face Blog (qgallouedec)
项目地址：github.com/vllm-project/vllm