|
欢迎来到 O站!:wave:
|
|
14
|
2077
|
2025 年3 月 22 日
|
|
Speculative KV Coding:用小模型无损压缩大模型 KV Cache,推理显存砍半
|
|
5
|
3
|
2026 年6 月 7 日
|
|
Pinterest 用开源模型替换昂贵 AI API:推理成本优化的三个关键决策
|
|
0
|
0
|
2026 年6 月 7 日
|
|
Google 每月花 9.2 亿美元租 SpaceX 算力:AI 推理成本正在经历什么级别的膨胀?
|
|
6
|
2
|
2026 年6 月 6 日
|
|
Google 推出 Gemma 4 QAT 量化感知训练模型:本地设备跑大模型的门槛又降了一截
|
|
6
|
17
|
2026 年6 月 6 日
|
|
Claude 辅助的代码更容易出 Bug?rsync 项目的一份统计复盘
|
|
2
|
2
|
2026 年6 月 6 日
|
|
Arcee AI 打造 400B 开源模型击败 Llama——小团队的超大模型训练与部署要过几道坎
|
|
5
|
5
|
2026 年6 月 5 日
|
|
Anthropic 开源了 AI 代码漏洞自主发现框架—— Agent 安全审计离生产还有多远?
|
|
0
|
6
|
2026 年6 月 5 日
|
|
Ai 学会了自己改自己——递归自我改进对部署链意味着什么
|
|
5
|
3
|
2026 年6 月 5 日
|
|
KVarN:华为开源 vLLM KV-Cache 量化后端,推理上下文扩展 3-5x
|
|
6
|
4
|
2026 年6 月 4 日
|
|
Gemma 4 12B 无编码器多模态模型,本地部署推理成本怎么看
|
|
8
|
37
|
2026 年6 月 4 日
|
|
Uber 内部研究:AI 工具每月 1500 美元是条成本暗线——部署选型的分水岭在哪?
|
|
5
|
7
|
2026 年6 月 4 日
|
|
Google TurboQuant:LLM 推理内存砍掉 6 倍,部署成本曲线要变了
|
|
3
|
13
|
2026 年6 月 3 日
|
|
把 DeepSeek-V4-Flash 跑上 AMD MI300X:部署视角的实操笔记
|
|
4
|
18
|
2026 年6 月 3 日
|
|
本地运行计算机操作Agent:Holo3.1——本地部署GUI自动化模型的可行性与算力门槛
|
|
8
|
25
|
2026 年6 月 2 日
|
|
OpenAI 前沿模型和 Codex 上架 AWS Bedrock,企业部署的格局变了
|
|
4
|
6
|
2026 年6 月 2 日
|
|
Netflix 员工做了个 AI 费用削减工具,还开源了——推理支出能打几折?
|
|
6
|
5
|
2026 年6 月 2 日
|
|
一台10年前的Xeon就够跑Gemma 4了——多路推理也许是部署降本的另一条路
|
|
6
|
42
|
2026 年6 月 1 日
|
|
测试 - 连续批处理的异步化:推理服务吞吐瓶颈
|
|
7
|
6
|
2026 年6 月 1 日
|
|
连续批处理的异步化:推理服务吞吐瓶颈不一定在模型上
|
|
0
|
4
|
2026 年6 月 1 日
|
|
从调度和缓存看 LLM 推理上生产:别只盯模型榜单
|
|
0
|
7
|
2026 年6 月 1 日
|
|
DeepSeek V4 预览版发布,推理部署的格局开始微妙了
|
|
8
|
21
|
2026 年5 月 31 日
|
|
Nemotron 扩散语言模型:推理速度这件事,可能要从架构层重新想了
|
|
6
|
7
|
2026 年5 月 31 日
|
|
前沿模型在真实企业IT任务中正确率不到50%——AI Agent 离「能干活」还有多远?
|
|
6
|
13
|
2026 年5 月 31 日
|
|
Claude Opus 4.8 上线:更偏 agent 任务,价格没变,部署侧更值得看什么?
|
|
0
|
35
|
2026 年5 月 29 日
|
|
vLLM 本地部署实战:先把 OpenAI 兼容接口跑起来,再谈优化
|
|
0
|
41
|
2026 年5 月 29 日
|
|
vLLM Eagle 3.1:推理加速这件事,开始从“模型快”变成“系统配合”
|
|
5
|
26
|
2026 年5 月 27 日
|
|
本地小模型重新变香?ai 成本不一定只靠追前沿模型解决
|
|
7
|
83
|
2026 年5 月 27 日
|
|
从 Using AI to write better code more slo 看 AI 编程工具的真实落地成本
|
|
0
|
6
|
2026 年5 月 27 日
|
|
Stack Overflow's forum is dead thanks to AI:一个偏部署视角的观察
|
|
6
|
7
|
2026 年5 月 27 日
|