Hugging Face 最近上线了一个挺实用的功能——在 HF Jobs 上直接运行 vLLM 推理服务器,一条命令就能搞定。
大概流程是这样的:在终端敲一行 hf jobs run,指定显卡型号(比如 a10g-large),暴露 8000 端口,再把 vLLM 的 Docker 镜像跑起来,几分钟后就能通过 OpenAI 兼容的 API 调用推理接口。
对于经常需要临时跑模型评测、做批量生成、或者测试不同量化版本的同学来说,这比自己去申请云 GPU、配环境、配认证要快得多。按分钟计费,跑完就停,不存在闲置浪费。
几个有意思的点:
API 兼容性:vLLM 本身支持 OpenAI 的 chat completions 和 embeddings 接口,HF Jobs 上暴露的端口天然兼容,用 OpenAI 的 Python SDK 或者 curl 都能直接调,只需要带一个 HF Token 做鉴权。
SSH 排障:启动时可以加 --ssh 参数,跑起来之后 hf jobs ssh <job_id> 就能直接进容器,看 nvidia-smi、查日志、改配置都行。对于调试启动失败或者观察 GPU 内存分配的场景很方便。
(配图:HF Blog 展示的 vLLM Server 一键启动命令行界面截图,thumbnail 为橙色 HF Jobs 标识)
给编码 Agent 当后端:文章里还提到可以用 Pi 配合这个 endpoint 做 coding agent 的后端。vLLM 需要加上 --enable-auto-tool-choice 之类的参数来支持 tool calling。
按需伸缩:从 Qwen3-4B 到 Qwen3.5-122B-A10B(MoE 架构)都能跑,换对应的 --flavor 和 --max-model-len 参数就行。目前支持的显卡包括 A10G、H200 等。
跟 HF 自家的 Inference Endpoints 相比,Jobs 的优势在于灵活——本质上就是 Docker 跑在 HF 的基础设施上,所有环境变量、启动参数、镜像版本都能自己控制。适合测试、批量打分、短期部署。Inference Endpoints 则更适合长期运行的生产服务,自带自动扩缩容和监控。
总的来说,这条路径让「三分钟拉起一个推理服务」从口号变成了实操。对于小团队或个人开发者,想快速体验某个模型的推理效果,或者给 Agent 搭建临时后端,都是个低成本的选项。
内容来源:Hugging Face Blog (qgallouedec)
项目地址:github.com/vllm-project/vllm