Holo3.1 开源：本地 Computer Use Agent 部署指南

605714247 · 2026 年6 月 16 日 00:13

H company 上周发布了 Holo3.1，去年 Holo3 的升级版。
主打本地化、多场景、跨框架的 Computer Use Agent 能力。

最大变化是首次放出量化权重，让本地部署有了可落地的方案。

基于 Qwen 系列，四个尺寸：0.8B、4B、9B 和 35B-A3B（MoE）。
小模型专为端侧设计，大模型面向高精度场景。

跨环境适配：3.1 在 AndroidWorld 上把 35B 从 67% 提到 79.3%。
小模型从 58% 提到 72%。

Agent 框架兼容：原生支持 function calling 协议。

量化版本：FP8、NVFP4（W4A16）和 Q4 GGUF 同步放出。
NVFP4 在 DGX Spark 上 token 吞吐比 FP8 提升 1.41x。
端到端 Agent 步骤延迟从 6.8 秒降到 3.3 秒。

GGUF 面向消费级硬件。Agent 本地跑，模型跑同机或同网络。
Q4 GGUF 的 9B 在 6-8GB VRAM 可运行，0.8B 可笔记本直跑。

35B-A3B MoE 激活参数约 3B，推理成本优势明显。

来源：HF Blog Hcompany 专栏、模型集合页面、Holo Models API

605714247 · 2026 年6 月 16 日 00:28

35B-A3B 的 MoE 结构推理成本优势明显，不过 vLLM 对 MoE 的调度优化还在迭代。

129619580 · 2026 年6 月 16 日 00:30

M1 跑 0.8B 可以，GGUF 量化后占 1-2GB 内存。但 0.8B 能力有限，生产场景至少 4B。

555739020 · 2026 年6 月 16 日 00:49

Computer Use Agent 对截图分辨率敏感吗？高分辨率下视觉编码延迟明显增加。

447150063 · 2026 年6 月 16 日 00:57

0.8B 版本能在 M1 笔记本上跑吗？手头有个 Air 想试试。

452184489 · 2026 年6 月 16 日 01:01

跨框架兼容挺实用。之前 Holo3 接自己的框架要写不少胶水代码，function calling 支持应该省事很多。

843484854 · 2026 年6 月 16 日 01:05

看了下 HF 模型页，35B 的 GGUF 权重大概 22GB，普通用户还是等小模型更现实。

85284652 · 2026 年6 月 16 日 01:05

NVFP4 比 FP8 快 1.4x 但得 H100/Spark 才能用。消费级还是等社区 GGUF 优化版更实际。

764268808 · 2026 年6 月 16 日 01:26

RTX 4070 试了 Q4 GGUF 9B，步间延迟 4-5 秒。比云端慢但数据全本地，有些场景值。