|
欢迎来到 O站!:wave:
|
|
14
|
2118
|
2025 年3 月 22 日
|
|
Baseten 融资 15 亿美元搭建推理云,AI 部署的成本结构正被改写
|
|
5
|
1
|
2026 年6 月 25 日
|
|
OpenAI 自研推理芯片 Jalapeño 发布:对 LLM 部署成本格局意味着什么
|
|
5
|
1
|
2026 年6 月 24 日
|
|
Windows Copilot 被逆向成了 OpenAI 兼容 API:免费用上 GPT-4/5 的可行性与风险
|
|
5
|
7
|
2026 年6 月 24 日
|
|
DFlash 让 Blackwell 推理提速 15x:块扩散投机解码到底怎么用
|
|
4
|
1
|
2026 年6 月 24 日
|
|
VibeThinker-3B 登上推理前线:3B 小模型怎么做到对标 DeepSeek V3.2 和 GLM-5
|
|
4
|
9
|
2026 年6 月 23 日
|
|
Glm-5.2 能跑在什么硬件上?一份实测参考
|
|
3
|
8
|
2026 年6 月 23 日
|
|
自建推理 vs API 调用:2026 年自托管 LLM 的真实账单
|
|
5
|
6
|
2026 年6 月 23 日
|
|
Apertus 完全开源基础模型:从权限到推理成本,主权 AI 到底意味着什么
|
|
5
|
3
|
2026 年6 月 22 日
|
|
Tokdiet 上手记:本地 Proxy 抓出 AI 编程的每 Token 开销
|
|
7
|
8
|
2026 年6 月 22 日
|
|
DeepSeek-V4 预览版实测:1.6T MoE 在华为昇腾上的部署成本与推理表现
|
|
7
|
16
|
2026 年6 月 22 日
|
|
Gpt-5.5 幻觉率是 glm-5.2 的 3 倍——模型部署的隐性质量成本
|
|
6
|
9
|
2026 年6 月 22 日
|
|
Cloudflare 推出临时 Agent 账号:AI 代码写完就能部署,不再需要注册流程
|
|
6
|
10
|
2026 年6 月 22 日
|
|
LiteLLM 三条漏洞链几乎覆盖 AI 网关全部权限层 — CVSS 9.9,建议立即升级
|
|
7
|
3
|
2026 年6 月 22 日
|
|
Sakana Fugu 实测:多模型编排如何用更少算力追平顶尖闭源模型
|
|
7
|
9
|
2026 年6 月 22 日
|
|
GLM-5.2 开源:百万 Token 上下文的部署门槛和思考成本怎么算?
|
|
8
|
26
|
2026 年6 月 22 日
|
|
一块 DGX Spark 同时跑俩 Qwen3 模型:vLLM 的内存分配数学
|
|
8
|
5
|
2026 年6 月 21 日
|
|
Foreman 上手记:给 AI 编程 Agent 套一层 CI 门控流水线
|
|
6
|
2
|
2026 年6 月 21 日
|
|
Batchwork:统一批处理 API 让 LLM 推理成本直降 50%
|
|
0
|
6
|
2026 年6 月 20 日
|
|
LiteLLM 网关权限绕过高危漏洞——AI 推理代理层的安全防线要重新审视
|
|
5
|
7
|
2026 年6 月 19 日
|
|
JetBrains 开源 Mellum2:12B MoE 编程模型的部署与性价比分析
|
|
0
|
7
|
2026 年6 月 18 日
|
|
Omnigent 开源实测:一个编排框架统一调度 Claude Code、Codex、Cursor 等编程 Agent
|
|
5
|
17
|
2026 年6 月 18 日
|
|
SpaceX 600 亿美元收购 Cursor:AI 编程的部署价值
|
|
7
|
10
|
2026 年6 月 18 日
|
|
从零写了个推理引擎:tessera 用 Triton/CUDA 手搓 Continuous Batching 和 Speculative Decoding
|
|
6
|
8
|
2026 年6 月 18 日
|
|
shadcn/improve 一周 5000 星:让贵模型做架构审计,便宜模型写代码
|
|
8
|
9
|
2026 年6 月 17 日
|
|
Ponytail 一周 27K 星:让 AI Agent 学着当个「懒资深工程师」
|
|
6
|
21
|
2026 年6 月 17 日
|
|
本地跑大模型终于不折腾了:Vicki Boykis 那篇 989 分 HN 帖,总结了哪些真正重要的变化
|
|
7
|
37
|
2026 年6 月 17 日
|
|
SpaceX 600 亿美元收购 Cursor:AI 编程工具的部署价值凭什么这么高
|
|
0
|
4
|
2026 年6 月 16 日
|
|
Cohere 开源 North Mini Code:30B MoE 编程模型只激活 3B 参数,本地推理部署门槛大降
|
|
8
|
16
|
2026 年6 月 16 日
|
|
Holo3.1 开源:本地 Computer Use Agent 部署指南
|
|
8
|
24
|
2026 年6 月 16 日
|