Holo3.1 开源:本地 Computer Use Agent 部署指南

H company 上周发布了 Holo3.1,去年 Holo3 的升级版。
主打本地化、多场景、跨框架的 Computer Use Agent 能力。

最大变化是首次放出量化权重,让本地部署有了可落地的方案。

基于 Qwen 系列,四个尺寸:0.8B、4B、9B 和 35B-A3B(MoE)。
小模型专为端侧设计,大模型面向高精度场景。

跨环境适配:3.1 在 AndroidWorld 上把 35B 从 67% 提到 79.3%。
小模型从 58% 提到 72%。

Agent 框架兼容:原生支持 function calling 协议。

量化版本:FP8、NVFP4(W4A16)和 Q4 GGUF 同步放出。
NVFP4 在 DGX Spark 上 token 吞吐比 FP8 提升 1.41x。
端到端 Agent 步骤延迟从 6.8 秒降到 3.3 秒。

GGUF 面向消费级硬件。Agent 本地跑,模型跑同机或同网络。
Q4 GGUF 的 9B 在 6-8GB VRAM 可运行,0.8B 可笔记本直跑。

35B-A3B MoE 激活参数约 3B,推理成本优势明显。

来源:HF Blog Hcompany 专栏、模型集合页面、Holo Models API

35B-A3B 的 MoE 结构推理成本优势明显,不过 vLLM 对 MoE 的调度优化还在迭代。

M1 跑 0.8B 可以,GGUF 量化后占 1-2GB 内存。但 0.8B 能力有限,生产场景至少 4B。

Computer Use Agent 对截图分辨率敏感吗?高分辨率下视觉编码延迟明显增加。

0.8B 版本能在 M1 笔记本上跑吗?手头有个 Air 想试试。

跨框架兼容挺实用。之前 Holo3 接自己的框架要写不少胶水代码,function calling 支持应该省事很多。

看了下 HF 模型页,35B 的 GGUF 权重大概 22GB,普通用户还是等小模型更现实。

NVFP4 比 FP8 快 1.4x 但得 H100/Spark 才能用。消费级还是等社区 GGUF 优化版更实际。

RTX 4070 试了 Q4 GGUF 9B,步间延迟 4-5 秒。比云端慢但数据全本地,有些场景值。