|
欢迎来到 O站!:wave:
|
|
14
|
2083
|
2025 年3 月 22 日
|
|
Claude Fable 5 发布:前沿模型的推理部署选项需要重新评估
|
|
6
|
1
|
2026 年6 月 9 日
|
|
Windows 11 最新版 (24H2)发布了!新增AI视频超分辨率、声音克隆、Sudo提权等实用功能!附详细的免费升级教程
|
|
1
|
486
|
2026 年6 月 9 日
|
|
MiMo V2.5 Pro UltraSpeed:1T 模型跑到 1000 tok/s,推理速度的天花板在哪?
|
|
5
|
4
|
2026 年6 月 9 日
|
|
DeepSeek V4 Pro 精度反超 GPT-5.5 Pro:推理部署的模型选型逻辑要重写了
|
|
6
|
17
|
2026 年6 月 9 日
|
|
Nemotron 扩散语言模型:推理速度这件事,可能要从架构层重新想了
|
|
8
|
16
|
2026 年6 月 8 日
|
|
Netflix 员工做了个 AI 费用削减工具,还开源了——推理支出能打几折?
|
|
8
|
7
|
2026 年6 月 8 日
|
|
测试 - 连续批处理的异步化:推理服务吞吐瓶颈
|
|
8
|
13
|
2026 年6 月 8 日
|
|
DeepSeek V4 预览版发布,推理部署的格局开始微妙了
|
|
0
|
4
|
2026 年6 月 8 日
|
|
OpenAI 前沿模型和 Codex 上架 AWS Bedrock,企业部署的格局变了
|
|
0
|
2
|
2026 年6 月 8 日
|
|
OpenAI 前沿模型和 Codex 上架 AWS Bedrock,企业部署的格局变了
|
|
6
|
8
|
2026 年6 月 8 日
|
|
把 DeepSeek-V4-Flash 跑上 AMD MI300X:部署视角的实操笔记
|
|
6
|
22
|
2026 年6 月 8 日
|
|
Google TurboQuant:LLM 推理内存砍掉 6 倍,部署成本曲线要变了
|
|
7
|
20
|
2026 年6 月 8 日
|
|
Uber 内部研究:AI 工具每月 1500 美元是条成本暗线——部署选型的分水岭在哪?
|
|
7
|
7
|
2026 年6 月 8 日
|
|
KVarN:华为开源 vLLM KV-Cache 量化后端,推理上下文扩展 3-5x
|
|
7
|
10
|
2026 年6 月 8 日
|
|
Qwen3.6-35B-A3B 无审查越狱性版本!附带 K_P 量化! 最低只需6G显存
|
|
8
|
3846
|
2026 年6 月 8 日
|
|
Claude 辅助的代码更容易出 Bug?rsync 项目的一份统计复盘
|
|
0
|
0
|
2026 年6 月 8 日
|
|
Claude 辅助的代码更容易出 Bug?rsync 项目的一份统计复盘
|
|
5
|
3
|
2026 年6 月 8 日
|
|
Google 推出 Gemma 4 QAT 量化感知训练模型:本地设备跑大模型的门槛又降了一截
|
|
0
|
3
|
2026 年6 月 8 日
|
|
Google 每月花 9.2 亿美元租 SpaceX 算力:AI 推理成本正在经历什么级别的膨胀?
|
|
8
|
8
|
2026 年6 月 8 日
|
|
Speculative KV Coding:用小模型无损压缩大模型 KV Cache,推理显存砍半
|
|
6
|
8
|
2026 年6 月 8 日
|
|
JetBrains 出的 Mellum2 12B MoE:一个 IDE 公司做 MoE 模型,对本地部署意味着什么
|
|
0
|
3
|
2026 年6 月 8 日
|
|
Pinterest 用开源模型替换昂贵 AI API:推理成本优化的三个关键决策
|
|
0
|
4
|
2026 年6 月 7 日
|
|
Google 推出 Gemma 4 QAT 量化感知训练模型:本地设备跑大模型的门槛又降了一截
|
|
6
|
27
|
2026 年6 月 6 日
|
|
Arcee AI 打造 400B 开源模型击败 Llama——小团队的超大模型训练与部署要过几道坎
|
|
5
|
7
|
2026 年6 月 5 日
|
|
Anthropic 开源了 AI 代码漏洞自主发现框架—— Agent 安全审计离生产还有多远?
|
|
0
|
9
|
2026 年6 月 5 日
|
|
Ai 学会了自己改自己——递归自我改进对部署链意味着什么
|
|
5
|
6
|
2026 年6 月 5 日
|
|
Gemma 4 12B 无编码器多模态模型,本地部署推理成本怎么看
|
|
8
|
49
|
2026 年6 月 4 日
|
|
本地运行计算机操作Agent:Holo3.1——本地部署GUI自动化模型的可行性与算力门槛
|
|
8
|
33
|
2026 年6 月 2 日
|
|
一台10年前的Xeon就够跑Gemma 4了——多路推理也许是部署降本的另一条路
|
|
6
|
51
|
2026 年6 月 1 日
|