钱究竟花到了哪里
大多数人对 AI 代理的成本估计都是错的。要么看到第一张账单就慌,要么以为比实际便宜。真相很无聊:在 Office Claws,你只为两样东西付费。一个运行代理的 droplet,以及代理发送给模型提供商的 tokens。
基础设施是可预测的部分。Self-Hosted 方案下,DigitalOcean 的基础 droplet 每个代理大约 $4/月。Managed 方案把它打包进 $14.99/月并含支持。无论哪种,第一天就能算清楚。
Tokens 是让人吃惊的那部分。一周清闲,一个代理可能也就一两美元。一周重度写代码加上长上下文窗口,同一个代理能吃掉 $30 甚至更多。上限取决于你怎么工作,而不是你有几个代理。
真正关键的三个杠杆
我们见过的几乎所有成本抱怨,归根到底都属于以下三种:
- 模型选择 —— 用 Claude Sonnet 4.6 或 GPT-4o 做便宜模型就能搞定的任务
- 上下文膨胀 —— 聊天历史越积越长,每条新消息都为每条旧消息付费
- droplet 过大 —— 为 4 GB 内存付钱,其实 1 GB 就够
其余都是杂音。调其他东西之前,先把这三项调好。
杠杆一:让模型与任务匹配
前沿模型的定价对应的是前沿工作。如果你的 Researcher 代理大多数时间在浏览文档和总结,换一个便宜一些的模型能拿到 90% 的质量,花 10% 的价钱。把贵的模型留给 Builder —— 一个糟糕的补丁浪费的时间,比省下来的 token 花费要多得多。
一个合理的起点:
| 角色 | 模型档次 | 为什么 |
|---|---|---|
| Researcher | 中档(GPT-4o-mini、Claude Haiku) | 总结不是能力瓶颈 |
| Builder | 高档(Claude Sonnet 4.6、GPT-4o) | 补丁质量比 token 单价更重要 |
| Reviewer | 高档 | 你指望它抓住你漏掉的东西 |
| Scribe | 中档 | 写发布说明不需要博士学位 |
不必一次定死。Office Claws 里每个代理都能单独换提供商,用一周时间在真实工作上 A/B 测试。
杠杆二:别让上下文膨胀
代理处理的每条消息,都在为整段对话的全部历史付费。50 轮的聊天不是 50 次便宜的请求 —— 而是一次请求加上 49 次请求,每次都把整段历史再发一遍。算术是无情的。
两个有用的习惯:
- 话题一变就开新会话。 刚才还在调 CSS,现在想写数据库迁移 —— 那就是新的代理会话。CSS 的历史记录什么也贡献不了,却在每一轮上花钱
- 贴摘要,不贴全文。 把工作交给另一个代理时,复制那三行关键的东西,别把整条线程贴过去
在 Office Claws 里,每张桌子都是一个有独立上下文的代理。这个边界是免费的,值得用
杠杆三:把 droplet 大小选对
Self-Hosted 方案下,droplet 的大小由你自己选。我们发货时的默认值偏保守 —— 几乎适合所有人 —— 但如果你只跑一个主要时间都在等模型响应的代理,还可以再往下调。
几条经验规则:
- 一个代理,轻度使用: 1 GB 的 droplet 就够
- 一个代理,重度工具使用(浏览器、编译器、测试): 2 GB
- 一个 droplet 上跑多个代理: 不支持,请用独立的 droplet
- Managed 方案: 从 Standard(2 GB)开始,只有当代理开始用到 swap 才升级
如果代理频繁吃光内存,解决办法是更大的 droplet,不是更便宜的模型。在任务中途杀掉代理等于浪费掉它已经花掉的 tokens。
不要去优化的东西
有些手段听起来省钱,其实不是:
- 把上下文窗口切得很小 —— 激进地裁剪历史会破坏代理对你正在做的事情的记忆。不如直接重开
- 把所有东西塞进一个超大请求 —— 有些提供商对长请求是平方级定价,而且代理处理聚焦的问题表现更好
- 全局切到最便宜的提供商 —— 最便宜的模型只有在输出可用时才算便宜。返工是你能买到的最贵的东西
什么时候该多花,而不是少花
有些场景确实值得用高端档:
- 涉及安全或正确性的代码 —— 用高档模型的 Reviewer 能发现中档模型漏掉的 bug
- 又长又复杂的重构 —— 上下文保留很重要,前沿模型更擅长把大代码库留在脑子里
- 高风险的一次性草稿 —— 写合同条款或给客户的邮件时,请为质量付费
节俭是默认值,不是信仰。风险值得时就升级
一次简单的月度审计
每月一次,看一下你的提供商仪表盘,问三个问题:
- 哪个代理花了最多 tokens?它做的工作对得起这份花费吗?
- 有哪段会话异常地长?为什么对话没能更早结束?
- 有没有哪个 droplet 在 <10% 的 CPU 上运行?能不能降一档?
花五分钟做这件事,比任何聪明的 prompt engineering 都值
我们正在做的事
我们正在做一个内置的成本仪表盘,这样你就不用在提供商的控制台之间来回切换。在它上线之前,上面这套审计是保持掌控的最便宜方式。
目标不是跑最便宜的代理,而是停止为那些本来不需要付费的工作付费。