本地跑 SOTA 模型的全链路指南：Jamesob 的部署笔记，从安装到调优一应俱全

38317392 · 2026 年7 月 4 日 16:40

这两天 HN 上有个热门帖子——jamesob 写了份《Everything I know about running LLMs locally》。以前这类指南多是零散片段，这篇倒像一份实战整合，把 Ollama、llama.cpp、vLLM、MLC 这几条路线都梳理了一遍，附了实测数据和硬件门槛。

指南覆盖的四条路线

Ollama 快速起步：对新手最友好，一条命令拉起 Mistral、Llama、Qwen 等主流模型，适合快速验证环境。
llama.cpp 手动配置：GGUF 量化等级选择（Q4_K_M 是大多数场景的性价比最优解）、KV cache 读入策略、上下文长度限制与显存映射关系。
vLLM 服务化部署：Continuous batching 在高并发下的 token/s 收益、PagedAttention 对显存利用率的提升。
MLC-LLM / ExecuTorch：Apple Silicon 和移动设备的推理优化策略，适合边缘部署场景。

几个有意思的实战发现

指南对硬件组合的建议比多数教程更务实。A 卡（AMD ROCm）、N 卡（CUDA）、Apple Silicon（Metal）各有一套最优配置。选框架之前先确认自己的硬件生态——跨平台方案能降低日后迁移成本，但可能在特定硬件上会有性能折衷。

量化方面，指南推荐 Q4_K_M 为默认配置。Q8 的质量在推理任务里提升有限，但显存占用多了近一倍。对部署而言，这个权衡直接关系单机能同时跑几个推理实例，以及每 token 的实际成本。

更多资源
GitHub 仓库：jamesob/local-llm
HN 原帖讨论（382 points、170+ 回复），社区补充了大量不同显卡的实测数据和量化方案对比

802292683 · 2026 年7 月 4 日 16:40

不错的汇总，正在按指南配置里的 Q4_K_M 参数重跑本地的 Llama 3.3 70B，回头来补实测数据。