O站 - 实用技术分享与软硬件互助社区

话题	回复	浏览量	活动
欢迎来到 O站！:wave: 新手问题解答	14	2211	2025 年3 月 22 日
Google 发布三款新模型：Gemini 3.6 Flash、3.5 Flash-Lite 与 3.5 Flash Cyber——从推理定价看部署选择 AI部署与算力	1	1	2026 年7 月 22 日
Agent Swarm 里的模型经济学：规划用 Opus、执行用 Mini，成本降 10 倍质量不变 AI部署与算力	6	3	2026 年7 月 21 日
开源权重全面追赶，中国 ai 开源策略如何改写推理部署成本 AI部署与算力	7	3	2026 年7 月 21 日
Hugging Face 被自主 AI Agent 攻破：模型供应链安全成为部署第一关 AI部署与算力	5	2	2026 年7 月 20 日
Kimi K3 上线 48 小时挤爆算力：Moonshot 暂停订阅，推理集群扛不住了 AI部署与算力	7	2	2026 年7 月 20 日
xAI 开源 Grok Build：全屏 TUI、跨平台的 AI 编码 Agent 工具链 AI部署与算力	7	6	2026 年7 月 19 日
Qwen 3.8 官宣：2.4 万亿参数开源权重，开源旗舰阵营扩军到 4 家 AI部署与算力	7	18	2026 年7 月 19 日
General Compute 获 4 亿美元贷款，推理芯片首次成为可抵押资产——部署的资本结构正在变化 AI部署与算力	6	4	2026 年7 月 18 日
模型路由没那么简单：IBM Research 拆解生产级路由的成本、质量与延迟权衡 AI部署与算力	1	5	2026 年7 月 18 日
月之暗面发布 Kimi K3：首个开放 3T 级模型，编程与推理能力对标闭源旗舰 AI部署与算力	1	10	2026 年7 月 17 日
无 GPU 也能跑 26B 模型：一台 13 年前的 Xeon 服务器跑 Gemma 4 的实测笔记 AI部署与算力	8	23	2026 年7 月 16 日
Meta 市值破 $670，AI 基建成本只有华尔街模型预估的一半——部署成本的下行空间还有多大 AI部署与算力	7	15	2026 年7 月 16 日
Claude Code 比 OpenCode 多消耗 4.7 倍 Token——AI 编码 Agent 的隐藏推理成本实测 AI部署与算力	1	11	2026 年7 月 16 日
BitNet 1.58-bit 来了：Tether QVAC 框架把千亿参数模型压缩到手机上，边缘推理不再需要云 API AI部署与算力	7	21	2026 年7 月 16 日
Inkling 开放权重模型发布：975B MoE、1M 上下文——从部署角度看又一个选项 AI部署与算力	1	11	2026 年7 月 16 日
Bonsai 27B：27B 参数模型首次跑在手机上——三元量化把推理成本推到了零 AI部署与算力	7	23	2026 年7 月 15 日
Tether 的 BitNet LoRA 框架让 13B 参数模型在手机上跑推理——边缘部署的成本结构变了 AI部署与算力	1	10	2026 年7 月 14 日
Apple SpeechAnalyzer 首次实测：on-device 语音识别用不到 Whisper 1/3 的算力实现更低错误率 AI部署与算力	1	10	2026 年7 月 14 日
AMD ZenDNN 6.0 发布：FP16 推理与 MoE 优化，AMD 的推理部署栈正在追赶 NVIDIA AI部署与算力	1	13	2026 年7 月 13 日
Glm-5.2 能跑在什么硬件上？一份实测参考 AI部署与算力	7	89	2026 年7 月 13 日
生产级 AI Agent 迁移到 GPT-5.6 实录：速度快 2.2 倍、成本降 27% AI部署与算力	7	22	2026 年7 月 13 日
Mesh LLM：把散落在办公室的 GPU 拼成一台推理服务器——不需要云、不依赖中心 AI部署与算力	7	29	2026 年7 月 12 日
MiniMax 融资 20 亿美元打造 2.7 万亿参数模型：开源 AI 赛道的军备竞赛升级 AI部署与算力	7	29	2026 年7 月 11 日
Colibri：纯 C 把 744B GLM-5.2 跑在 25GB 内存的旧电脑上 AI部署与算力	1	27	2026 年7 月 11 日
OpenAI 联手 Broadcom 发布自研推理芯片 Jalapeño：推理成本直降 50%，部署逻辑要重写了 AI部署与算力	1	13	2026 年7 月 11 日
Colibri：纯 C 零依赖，25GB 内存跑 744B 的 GLM-5.2 AI部署与算力	7	58	2026 年7 月 10 日
OpenAI 纯靠软件把推理成本砍了一半——GPU 单价降到百元级别 AI部署与算力	7	26	2026 年7 月 10 日
AI 推理成本 vs 工程师薪资：API 调用成本已经反超人力工资了 AI部署与算力	7	34	2026 年7 月 10 日
GPT-5.6 Sol Ultra 接入 Codex CLI：前沿模型直接变成你终端的编码 Agent AI部署与算力	7	37	2026 年7 月 10 日