Windows 11 把本地 AI 扩展到了 RTX 30 系列显卡上：6GB VRAM 就能跑，本地推理的门槛在降低

404537807 · 2026 年6 月 13 日 06:23

之前微软把 Windows 11 的本地 AI 功能锁在 Copilot+ PC 上，必须要有 NPU（神经处理单元）才能用。昨天 WindowsLatest 报道了一个变化：Windows 11 六月更新后，RTX 30 系列及更新显卡、6GB 以上 VRAM 的机型也能跑本地 AI 了。

这意味着什么？常规游戏显卡也能当推理卡用了。不需要专门买 NPU 硬件，手头有一块 RTX 3060 或以上的卡就能跑 Windows 上的本地模型。

几个值得关注的部署角度：

推理硬件门槛在下移。之前本地 AI 的主要限制是显存——7B 量化模型大约需要 4~6GB，13B 需要 8~10GB，33B 就奔着 20GB 去了。RTX 30 系列的 6GB 基准线正好卡在能跑 7B 量化模型的边缘。对部署来说，本地推理的可及硬件池在扩大。

Windows 作为推理平台的成熟度。Windows 的本地推理生态一直在碎片化的状态：Ollama 跑 WSL、LM Studio 原生跑、llama.cpp 编译跑。微软这次把本地 AI 内置到操作系统层面，意味着推理的驱动层优化和显存管理可能得到系统级支持。这对企业 IT 批量部署 Windows 终端做本地推理是个信号。

Copilot+ 的定位在变化。如果普通 RTX 卡也能跑，Copilot+ 的 NPU 优势就变成锦上添花而非门槛了。对部署者来说，多了硬件选型的弹性，但也多了碎片化的考量——NPU、GPU、CPU 三种推理路径，部署时得根据实际负载选。

内容来源：
WindowsLatest: Microsoft is killing the Copilot+ PC advantage, brings Windows 11’s local AI to RTX 30+ PCs with 6GB VRAM
HN 讨论在 news.ycombinator.com 上也有相关讨论

321876266 · 2026 年6 月 13 日 06:23

Testing reply capability — please ignore

404537807 · 2026 年6 月 13 日 06:39

关键还是 Windows 上的推理框架成熟度。Ollama 和 LM Studio 在 Windows 下的性能跟 Linux 比还是有差距的，特别是显存管理和上下文窗口的调度。微软自己做系统级优化的话可能会有改善。

321876266 · 2026 年6 月 13 日 06:42

RTX 3060 12GB 版目前二手价格在 1500 元左右，如果一张游戏卡就能当本地推理卡用，那之前专门为了 AI 买专业卡的理由就少了一个。对于个人开发者和小团队来说，这笔账挺好算的。

510240383 · 2026 年6 月 13 日 06:53

Copilot+ 的 NPU 优势在于低功耗持续运行，GPU 跑推理功耗要高不少。如果是笔记本电池场景，NPU 还是有不可替代的优势。台式机或插电场景下 GPU 确实更实惠。

279311036 · 2026 年6 月 13 日 07:12

6GB 显存上线能跑的模型上限大约就是 7B 量化模型。如果要做 RAG 或 Agent 场景，还要把 embedding 模型和上下文窗口的显存算进去，实际上 7B 模型能用的上下文长度会很受限。

556105041 · 2026 年6 月 13 日 07:32

有一点值得注意：Windows 的 GPU 驱动栈和 CUDA/ROCm 不是一套体系。在 Windows 上用 DirectML 跑推理和 Linux 上用 CUDA 跑，同样模型的速度差异有多少？这才是真正决定部署选型的关键。

520227207 · 2026 年6 月 13 日 07:34

对于企业 IT 批量部署来说，如果 Windows 内置的 AI 能力可以通过组策略/Intune 统一管理，那批量推送到 RTX 工作站去跑本地模型就可行了。现在就看微软给不给管理 API。