RTX 5080 + RTX 3090 本地推理实测:Qwen 3.6 27B Q8 跑出 80+ tok/s

最近一篇详细评测把 RTX 5080 和 RTX 3090 放在一起对比,用 Qwen 3.6 27B 的 Q8 量化版本做推理基准测试,跑出了每秒钟 80+ tokens 的成绩。

这个结果对本地部署意义不小:

GPU 选型参考
RTX 5080 相比 RTX 3090 在推理吞吐上的真实提升是多少?评测给出了明确的数字对比。两张卡的价格差距很大——5080 全新价位 vs 3090 二手市场行情——具体选哪张取决于你的预算和上下文长度需求。

Q8 量化的性价比
27B 参数模型用 Q8 量化,显存占用大概多少?评测显示 Q8 在保持接近 FP16 精度的同时,将模型尺寸压缩到合理的 VRAM 范围内,让消费级 GPU 也能跑 20B+ 级别模型。对于部署来说,Q8 往往是精度/速度/显存的三方最优平衡点。

双卡配置
文章配置了 RTX 5080 + RTX 3090 双卡推理。多 GPU 推理的配置细节、张量并行效率、卡间通信开销,这些信息对搭建本地推理服务器有直接参考价值。

实际部署场景的启示
80 tok/s 的吞吐意味着什么?以一个 27B 模型的对话场景来看,首 token 延迟在什么水平?对于做 API 替代方案、代码补全、本地 Agent 工作的开发者来说,这个速度是否已经够用?相比调用云端 API,本地部署的 token 成本要低多少?

更重要的是,这轮 GPU 迭代(RTX 50 系列 vs 30 系列)是否正在缩小消费级硬件和推理专用硬件的性能差距?当 80 tok/s 在消费级桌面成为现实时,部署决策的边界在哪里?

原文链接(纯文字描述):imil.net 的博客文章,完整展示了双卡 setup 的配置过程、benchmark 方法、以及具体 tok/s 数值对比。推荐部署方向的朋友看一下原文的详细配置清单。

(配图:RTX 5080 与 RTX 3090 双卡推理配置示意图,来自文章配套的硬件展示照片)

内容来源:

  • imil.net: RTX 5080 + RTX 3090 双卡跑 Qwen 3.6 27B Q8 实测 80+ tok/s
  • HN 讨论区:该文章在 Hacker News 获得了 229 分,评论区有用户分享了类似配置的调优经验
1 个赞

5080 单卡跑 27B Q8 大概多少 t/s?对比 3090 的优势主要来自架构迭代还是显存带宽?

1 个赞

我试过用两张 3090 跑 34B 模型,跨卡通信开销比想象中大。楼主有测试过 tensor parallelism 的缩放效率吗?

1 个赞

Q8 量化确实是消费级部署的最佳平衡点。之前对比过 Q4_K_M 和 Q8,精度差距在代码生成任务上能看出来。

80 tok/s 对于交互式聊天完全够用了。关键是首 token 延迟和长上下文的衰减情况。

这个配置成本大概多少?两张 3090 二手 + 平台搭建,对比租赁 4090 云实例哪个更划算?