削减 AI 代理账单:一份实用的成本指南

削减 AI 代理账单:一份实用的成本指南 — 运行 AI 代理时钱到底花在哪里,以及几条既能压低账单又不伤害结果的关键杠杆。
2026年4月18日1 分钟阅读
Share with

钱究竟花到了哪里

大多数人对 AI 代理的成本估计都是错的。要么看到第一张账单就慌,要么以为比实际便宜。真相很无聊:在 Office Claws,你只为两样东西付费。一个运行代理的 droplet,以及代理发送给模型提供商的 tokens。

代理成本拆解:基础设施 vs tokens

基础设施是可预测的部分。Self-Hosted 方案下,DigitalOcean 的基础 droplet 每个代理大约 $4/月。Managed 方案把它打包进 $14.99/月并含支持。无论哪种,第一天就能算清楚。

Tokens 是让人吃惊的那部分。一周清闲,一个代理可能也就一两美元。一周重度写代码加上长上下文窗口,同一个代理能吃掉 $30 甚至更多。上限取决于你怎么工作,而不是你有几个代理。

真正关键的三个杠杆

我们见过的几乎所有成本抱怨,归根到底都属于以下三种:

  1. 模型选择 —— 用 Claude Sonnet 4.6 或 GPT-4o 做便宜模型就能搞定的任务
  2. 上下文膨胀 —— 聊天历史越积越长,每条新消息都为每条旧消息付费
  3. droplet 过大 —— 为 4 GB 内存付钱,其实 1 GB 就够

其余都是杂音。调其他东西之前,先把这三项调好。

杠杆一:让模型与任务匹配

前沿模型的定价对应的是前沿工作。如果你的 Researcher 代理大多数时间在浏览文档和总结,换一个便宜一些的模型能拿到 90% 的质量,花 10% 的价钱。把贵的模型留给 Builder —— 一个糟糕的补丁浪费的时间,比省下来的 token 花费要多得多。

一个合理的起点:

角色模型档次为什么
Researcher中档(GPT-4o-mini、Claude Haiku)总结不是能力瓶颈
Builder高档(Claude Sonnet 4.6、GPT-4o)补丁质量比 token 单价更重要
Reviewer高档你指望它抓住你漏掉的东西
Scribe中档写发布说明不需要博士学位

不必一次定死。Office Claws 里每个代理都能单独换提供商,用一周时间在真实工作上 A/B 测试。

杠杆二:别让上下文膨胀

代理处理的每条消息,都在为整段对话的全部历史付费。50 轮的聊天不是 50 次便宜的请求 —— 而是一次请求加上 49 次请求,每次都把整段历史再发一遍。算术是无情的。

两个有用的习惯:

  • 话题一变就开新会话。 刚才还在调 CSS,现在想写数据库迁移 —— 那就是新的代理会话。CSS 的历史记录什么也贡献不了,却在每一轮上花钱
  • 贴摘要,不贴全文。 把工作交给另一个代理时,复制那三行关键的东西,别把整条线程贴过去

在 Office Claws 里,每张桌子都是一个有独立上下文的代理。这个边界是免费的,值得用

杠杆三:把 droplet 大小选对

Self-Hosted 方案下,droplet 的大小由你自己选。我们发货时的默认值偏保守 —— 几乎适合所有人 —— 但如果你只跑一个主要时间都在等模型响应的代理,还可以再往下调。

按工作负载选择 droplet 大小的建议

几条经验规则:

  • 一个代理,轻度使用: 1 GB 的 droplet 就够
  • 一个代理,重度工具使用(浏览器、编译器、测试): 2 GB
  • 一个 droplet 上跑多个代理: 不支持,请用独立的 droplet
  • Managed 方案: 从 Standard(2 GB)开始,只有当代理开始用到 swap 才升级

如果代理频繁吃光内存,解决办法是更大的 droplet,不是更便宜的模型。在任务中途杀掉代理等于浪费掉它已经花掉的 tokens。

不要去优化的东西

有些手段听起来省钱,其实不是:

  • 把上下文窗口切得很小 —— 激进地裁剪历史会破坏代理对你正在做的事情的记忆。不如直接重开
  • 把所有东西塞进一个超大请求 —— 有些提供商对长请求是平方级定价,而且代理处理聚焦的问题表现更好
  • 全局切到最便宜的提供商 —— 最便宜的模型只有在输出可用时才算便宜。返工是你能买到的最贵的东西

什么时候该多花,而不是少花

有些场景确实值得用高端档:

  • 涉及安全或正确性的代码 —— 用高档模型的 Reviewer 能发现中档模型漏掉的 bug
  • 又长又复杂的重构 —— 上下文保留很重要,前沿模型更擅长把大代码库留在脑子里
  • 高风险的一次性草稿 —— 写合同条款或给客户的邮件时,请为质量付费

节俭是默认值,不是信仰。风险值得时就升级

一次简单的月度审计

每月一次,看一下你的提供商仪表盘,问三个问题:

  1. 哪个代理花了最多 tokens?它做的工作对得起这份花费吗?
  2. 有哪段会话异常地长?为什么对话没能更早结束?
  3. 有没有哪个 droplet 在 <10% 的 CPU 上运行?能不能降一档?

花五分钟做这件事,比任何聪明的 prompt engineering 都值

我们正在做的事

我们正在做一个内置的成本仪表盘,这样你就不用在提供商的控制台之间来回切换。在它上线之前,上面这套审计是保持掌控的最便宜方式。

目标不是跑最便宜的代理,而是停止为那些本来不需要付费的工作付费。

作者

Office Claws Team

在 Office Claws 构建 AI 智能体管理的未来。分享关于基础设施、安全和开发者体验的见解。

保持关注

获取关于 AI 智能体、基础设施和产品更新的最新文章,直达你的收件箱。

无垃圾邮件。随时退订。