|
欢迎来到 O站!:wave:
|
|
14
|
2087
|
2025 年3 月 22 日
|
|
Windows 11 把本地 AI 扩展到了 RTX 30 系列显卡上:6GB VRAM 就能跑,本地推理的门槛在降低
|
|
7
|
1
|
2026 年6 月 13 日
|
|
AI Agent 一天烧掉运营商 6500 美元 AWS 账单:自主 Agent 缺少预算管控的真实案例
|
|
9
|
1
|
2026 年6 月 12 日
|
|
MiMo Code 开源发布:用最强模型做架构审计,弱模型做执行
|
|
8
|
7
|
2026 年6 月 12 日
|
|
Fedora 基础设施遭遇 AI Agent 供应链攻击——部署流水线的信任模型需要重估
|
|
8
|
5
|
2026 年6 月 12 日
|
|
LightSeek 发布开源推理引擎 TokenSpeed,目标对标 TensorRT-LLM 性能
|
|
7
|
5
|
2026 年6 月 12 日
|
|
Claude Desktop 每次启动拉起 1.8 GB Hyper-V 虚拟机,本地推理的固定开销该重新评估了
|
|
7
|
4
|
2026 年6 月 11 日
|
|
MiMo V2.5 Pro UltraSpeed:1T 模型跑到 1000 tok/s,推理速度的天花板在哪?
|
|
6
|
16
|
2026 年6 月 11 日
|
|
Kan 上 fpga:2700 倍加速的推理路径值得关注吗?
|
|
6
|
1
|
2026 年6 月 11 日
|
|
DiffusionGemma 把文本生成提速到 4 倍,推理部署要重新算了
|
|
7
|
15
|
2026 年6 月 11 日
|
|
Claude Fable 5 发布:前沿模型的推理部署选项需要重新评估
|
|
6
|
4
|
2026 年6 月 9 日
|
|
Windows 11 最新版 (24H2)发布了!新增AI视频超分辨率、声音克隆、Sudo提权等实用功能!附详细的免费升级教程
|
|
1
|
494
|
2026 年6 月 9 日
|
|
DeepSeek V4 Pro 精度反超 GPT-5.5 Pro:推理部署的模型选型逻辑要重写了
|
|
6
|
38
|
2026 年6 月 9 日
|
|
Nemotron 扩散语言模型:推理速度这件事,可能要从架构层重新想了
|
|
8
|
21
|
2026 年6 月 8 日
|
|
Netflix 员工做了个 AI 费用削减工具,还开源了——推理支出能打几折?
|
|
8
|
16
|
2026 年6 月 8 日
|
|
测试 - 连续批处理的异步化:推理服务吞吐瓶颈
|
|
8
|
18
|
2026 年6 月 8 日
|
|
DeepSeek V4 预览版发布,推理部署的格局开始微妙了
|
|
0
|
9
|
2026 年6 月 8 日
|
|
OpenAI 前沿模型和 Codex 上架 AWS Bedrock,企业部署的格局变了
|
|
0
|
2
|
2026 年6 月 8 日
|
|
OpenAI 前沿模型和 Codex 上架 AWS Bedrock,企业部署的格局变了
|
|
6
|
9
|
2026 年6 月 8 日
|
|
把 DeepSeek-V4-Flash 跑上 AMD MI300X:部署视角的实操笔记
|
|
6
|
27
|
2026 年6 月 8 日
|
|
Google TurboQuant:LLM 推理内存砍掉 6 倍,部署成本曲线要变了
|
|
7
|
24
|
2026 年6 月 8 日
|
|
Uber 内部研究:AI 工具每月 1500 美元是条成本暗线——部署选型的分水岭在哪?
|
|
7
|
7
|
2026 年6 月 8 日
|
|
KVarN:华为开源 vLLM KV-Cache 量化后端,推理上下文扩展 3-5x
|
|
7
|
14
|
2026 年6 月 8 日
|
|
Qwen3.6-35B-A3B 无审查越狱性版本!附带 K_P 量化! 最低只需6G显存
|
|
8
|
4430
|
2026 年6 月 8 日
|
|
Claude 辅助的代码更容易出 Bug?rsync 项目的一份统计复盘
|
|
0
|
1
|
2026 年6 月 8 日
|
|
Claude 辅助的代码更容易出 Bug?rsync 项目的一份统计复盘
|
|
5
|
6
|
2026 年6 月 8 日
|
|
Google 推出 Gemma 4 QAT 量化感知训练模型:本地设备跑大模型的门槛又降了一截
|
|
0
|
5
|
2026 年6 月 8 日
|
|
Google 每月花 9.2 亿美元租 SpaceX 算力:AI 推理成本正在经历什么级别的膨胀?
|
|
8
|
13
|
2026 年6 月 8 日
|
|
Speculative KV Coding:用小模型无损压缩大模型 KV Cache,推理显存砍半
|
|
6
|
12
|
2026 年6 月 8 日
|
|
JetBrains 出的 Mellum2 12B MoE:一个 IDE 公司做 MoE 模型,对本地部署意味着什么
|
|
0
|
3
|
2026 年6 月 8 日
|