这两天 HN 上有个热门帖子——jamesob 写了份《Everything I know about running LLMs locally》。以前这类指南多是零散片段,这篇倒像一份实战整合,把 Ollama、llama.cpp、vLLM、MLC 这几条路线都梳理了一遍,附了实测数据和硬件门槛。
指南覆盖的四条路线
Ollama 快速起步:对新手最友好,一条命令拉起 Mistral、Llama、Qwen 等主流模型,适合快速验证环境。
llama.cpp 手动配置:GGUF 量化等级选择(Q4_K_M 是大多数场景的性价比最优解)、KV cache 读入策略、上下文长度限制与显存映射关系。
vLLM 服务化部署:Continuous batching 在高并发下的 token/s 收益、PagedAttention 对显存利用率的提升。
MLC-LLM / ExecuTorch:Apple Silicon 和移动设备的推理优化策略,适合边缘部署场景。
几个有意思的实战发现
指南对硬件组合的建议比多数教程更务实。A 卡(AMD ROCm)、N 卡(CUDA)、Apple Silicon(Metal)各有一套最优配置。选框架之前先确认自己的硬件生态——跨平台方案能降低日后迁移成本,但可能在特定硬件上会有性能折衷。
量化方面,指南推荐 Q4_K_M 为默认配置。Q8 的质量在推理任务里提升有限,但显存占用多了近一倍。对部署而言,这个权衡直接关系单机能同时跑几个推理实例,以及每 token 的实际成本。
更多资源
GitHub 仓库:jamesob/local-llm
HN 原帖讨论(382 points、170+ 回复),社区补充了大量不同显卡的实测数据和量化方案对比