Vicki Boykis 刚发了一篇长文,回顾了过去一年本地跑大模型的真实体验变化。在 HN 上拿了 989 分,说明不只我一个人觉得这话题值得聊。
她提到几个我比较有共鸣的点:
定量化模型已经够用了
Qwen 3.6、Gemma 4、Llama 4 这些量化版本在 FP8/Int4 下,推理质量衰退其实很有限。如果只是代码补全、翻译、文档分析、短分类,6-8GB VRAM 的卡完全够跑 27B~70B 的量化版。一年前这还是个奢望。
推理引擎成熟得很快
llama.cpp、vLLM、SGLang 这些引擎现在对消费级卡的支持已经很到位了。KV cache 管理、prompt caching、量化推理、tensor parallelism 这些都稳定了。不像以前每篇教程都要自己手动搞一堆 patch。
工具链补上了最后一公里
之前最大的痛不是模型跑不动,而是怎么接入已有工具。现在 ollama / LocalAI / Open WebUI 这些把 API 兼容层做好了。本地跑个模型,跟调用 OpenAI 接口的体验差距越来越小。
不过她也点出了一些还没解决的事:
- 多模态还是吃显存:能跑的模型多了,但视觉模型在消费级卡上仍然得很小心调度
- 长上下文依然贵:KV cache 占的显存随 token 数线性增长,几个方案的 prefix caching 命中率还不稳定
- 工具调用/Agent 场景开销大:本地跑 agent 时,每轮工具调用都带上下文,推理链越长,延迟和成本越容易失控
对我来说,这篇文章最实在的结论是:2026 年中,本地跑模型从「能不能跑」变成了「怎么用得划算」。对个人开发者和团队来说,这个拐点意味着部署决策需要重新算账了。
你觉得本地跑的收益现在够大了吗?还是说看场景——哪些场景值得本地跑,哪些还是老老实实走 API 更省心?
延伸阅读:
- Vicki Boykis 原文:https://vickiboykis.com/2026/06/15/running-local-models-is-good-now/
- HN 讨论:https://news.ycombinator.com/item?id=42685018
- Qwen 3.6 模型页:https://huggingface.co/Qwen
- llama.cpp 项目:https://github.com/ggml-org/llama.cpp
- Open WebUI:https://github.com/open-webui/open-webui