O站 - 实用技术分享与软硬件互助社区

话题	回复	浏览量	活动
欢迎来到 O站！:wave: 新手问题解答	14	2087	2025 年3 月 22 日
Windows 11 把本地 AI 扩展到了 RTX 30 系列显卡上：6GB VRAM 就能跑，本地推理的门槛在降低 AI部署与算力	7	1	2026 年6 月 13 日
AI Agent 一天烧掉运营商 6500 美元 AWS 账单：自主 Agent 缺少预算管控的真实案例 AI部署与算力	9	1	2026 年6 月 12 日
MiMo Code 开源发布：用最强模型做架构审计，弱模型做执行 AI部署与算力	8	7	2026 年6 月 12 日
Fedora 基础设施遭遇 AI Agent 供应链攻击——部署流水线的信任模型需要重估 AI部署与算力	8	5	2026 年6 月 12 日
LightSeek 发布开源推理引擎 TokenSpeed，目标对标 TensorRT-LLM 性能 AI部署与算力	7	5	2026 年6 月 12 日
Claude Desktop 每次启动拉起 1.8 GB Hyper-V 虚拟机，本地推理的固定开销该重新评估了 AI部署与算力	7	4	2026 年6 月 11 日
MiMo V2.5 Pro UltraSpeed：1T 模型跑到 1000 tok/s，推理速度的天花板在哪？ AI部署与算力	6	16	2026 年6 月 11 日
Kan 上 fpga：2700 倍加速的推理路径值得关注吗？ AI部署与算力	6	1	2026 年6 月 11 日
DiffusionGemma 把文本生成提速到 4 倍，推理部署要重新算了 AI部署与算力	7	15	2026 年6 月 11 日
Claude Fable 5 发布：前沿模型的推理部署选项需要重新评估 AI部署与算力	6	4	2026 年6 月 9 日
Windows 11 最新版（24H2）发布了！新增AI视频超分辨率、声音克隆、Sudo提权等实用功能！附详细的免费升级教程系统与网络折腾	1	494	2026 年6 月 9 日
DeepSeek V4 Pro 精度反超 GPT-5.5 Pro：推理部署的模型选型逻辑要重写了 AI部署与算力	6	38	2026 年6 月 9 日
Nemotron 扩散语言模型：推理速度这件事，可能要从架构层重新想了 AI部署与算力	8	21	2026 年6 月 8 日
Netflix 员工做了个 AI 费用削减工具，还开源了——推理支出能打几折？ AI部署与算力	8	16	2026 年6 月 8 日
测试 - 连续批处理的异步化：推理服务吞吐瓶颈 AI部署与算力	8	18	2026 年6 月 8 日
DeepSeek V4 预览版发布，推理部署的格局开始微妙了 AI部署与算力	0	9	2026 年6 月 8 日
OpenAI 前沿模型和 Codex 上架 AWS Bedrock，企业部署的格局变了 AI部署与算力	0	2	2026 年6 月 8 日
OpenAI 前沿模型和 Codex 上架 AWS Bedrock，企业部署的格局变了 AI部署与算力	6	9	2026 年6 月 8 日
把 DeepSeek-V4-Flash 跑上 AMD MI300X：部署视角的实操笔记 AI部署与算力	6	27	2026 年6 月 8 日
Google TurboQuant：LLM 推理内存砍掉 6 倍，部署成本曲线要变了 AI部署与算力	7	24	2026 年6 月 8 日
Uber 内部研究：AI 工具每月 1500 美元是条成本暗线——部署选型的分水岭在哪？ AI部署与算力	7	7	2026 年6 月 8 日
KVarN：华为开源 vLLM KV-Cache 量化后端，推理上下文扩展 3-5x AI部署与算力	7	14	2026 年6 月 8 日
Qwen3.6-35B-A3B 无审查越狱性版本！附带 K_P 量化! 最低只需6G显存 AI部署与算力	8	4430	2026 年6 月 8 日
Claude 辅助的代码更容易出 Bug？rsync 项目的一份统计复盘 AI部署与算力	0	1	2026 年6 月 8 日
Claude 辅助的代码更容易出 Bug？rsync 项目的一份统计复盘 AI部署与算力	5	6	2026 年6 月 8 日
Google 推出 Gemma 4 QAT 量化感知训练模型：本地设备跑大模型的门槛又降了一截 AI部署与算力	0	5	2026 年6 月 8 日
Google 每月花 9.2 亿美元租 SpaceX 算力：AI 推理成本正在经历什么级别的膨胀？ AI部署与算力	8	13	2026 年6 月 8 日
Speculative KV Coding：用小模型无损压缩大模型 KV Cache，推理显存砍半 AI部署与算力	6	12	2026 年6 月 8 日
JetBrains 出的 Mellum2 12B MoE：一个 IDE 公司做 MoE 模型，对本地部署意味着什么 AI部署与算力	0	3	2026 年6 月 8 日