Windows 11 把本地 AI 扩展到了 RTX 30 系列显卡上:6GB VRAM 就能跑,本地推理的门槛在降低

之前微软把 Windows 11 的本地 AI 功能锁在 Copilot+ PC 上,必须要有 NPU(神经处理单元)才能用。昨天 WindowsLatest 报道了一个变化:Windows 11 六月更新后,RTX 30 系列及更新显卡、6GB 以上 VRAM 的机型也能跑本地 AI 了。

这意味着什么?常规游戏显卡也能当推理卡用了。不需要专门买 NPU 硬件,手头有一块 RTX 3060 或以上的卡就能跑 Windows 上的本地模型。

几个值得关注的部署角度:

推理硬件门槛在下移。之前本地 AI 的主要限制是显存——7B 量化模型大约需要 4~6GB,13B 需要 8~10GB,33B 就奔着 20GB 去了。RTX 30 系列的 6GB 基准线正好卡在能跑 7B 量化模型的边缘。对部署来说,本地推理的可及硬件池在扩大。

Windows 作为推理平台的成熟度。Windows 的本地推理生态一直在碎片化的状态:Ollama 跑 WSL、LM Studio 原生跑、llama.cpp 编译跑。微软这次把本地 AI 内置到操作系统层面,意味着推理的驱动层优化和显存管理可能得到系统级支持。这对企业 IT 批量部署 Windows 终端做本地推理是个信号。

Copilot+ 的定位在变化。如果普通 RTX 卡也能跑,Copilot+ 的 NPU 优势就变成锦上添花而非门槛了。对部署者来说,多了硬件选型的弹性,但也多了碎片化的考量——NPU、GPU、CPU 三种推理路径,部署时得根据实际负载选。

内容来源:
WindowsLatest: Microsoft is killing the Copilot+ PC advantage, brings Windows 11’s local AI to RTX 30+ PCs with 6GB VRAM
HN 讨论在 news.ycombinator.com 上也有相关讨论

Testing reply capability — please ignore

关键还是 Windows 上的推理框架成熟度。Ollama 和 LM Studio 在 Windows 下的性能跟 Linux 比还是有差距的,特别是显存管理和上下文窗口的调度。微软自己做系统级优化的话可能会有改善。

1 个赞

RTX 3060 12GB 版目前二手价格在 1500 元左右,如果一张游戏卡就能当本地推理卡用,那之前专门为了 AI 买专业卡的理由就少了一个。对于个人开发者和小团队来说,这笔账挺好算的。

Copilot+ 的 NPU 优势在于低功耗持续运行,GPU 跑推理功耗要高不少。如果是笔记本电池场景,NPU 还是有不可替代的优势。台式机或插电场景下 GPU 确实更实惠。

6GB 显存上线能跑的模型上限大约就是 7B 量化模型。如果要做 RAG 或 Agent 场景,还要把 embedding 模型和上下文窗口的显存算进去,实际上 7B 模型能用的上下文长度会很受限。

有一点值得注意:Windows 的 GPU 驱动栈和 CUDA/ROCm 不是一套体系。在 Windows 上用 DirectML 跑推理和 Linux 上用 CUDA 跑,同样模型的速度差异有多少?这才是真正决定部署选型的关键。

1 个赞

对于企业 IT 批量部署来说,如果 Windows 内置的 AI 能力可以通过组策略/Intune 统一管理,那批量推送到 RTX 工作站去跑本地模型就可行了。现在就看微软给不给管理 API。