H company 上周发布了 Holo3.1,去年 Holo3 的升级版。
主打本地化、多场景、跨框架的 Computer Use Agent 能力。
最大变化是首次放出量化权重,让本地部署有了可落地的方案。
基于 Qwen 系列,四个尺寸:0.8B、4B、9B 和 35B-A3B(MoE)。
小模型专为端侧设计,大模型面向高精度场景。
跨环境适配:3.1 在 AndroidWorld 上把 35B 从 67% 提到 79.3%。
小模型从 58% 提到 72%。
Agent 框架兼容:原生支持 function calling 协议。
量化版本:FP8、NVFP4(W4A16)和 Q4 GGUF 同步放出。
NVFP4 在 DGX Spark 上 token 吞吐比 FP8 提升 1.41x。
端到端 Agent 步骤延迟从 6.8 秒降到 3.3 秒。
GGUF 面向消费级硬件。Agent 本地跑,模型跑同机或同网络。
Q4 GGUF 的 9B 在 6-8GB VRAM 可运行,0.8B 可笔记本直跑。
35B-A3B MoE 激活参数约 3B,推理成本优势明显。
来源:HF Blog Hcompany 专栏、模型集合页面、Holo Models API