A Dónde Va Realmente el Dinero
La mayoría de la gente se equivoca al estimar lo que cuesta un agente IA. O entran en pánico con la primera factura, o asumen que es más barato de lo que es. La verdad es aburrida: en Office Claws, pagas por dos cosas. Un droplet que ejecuta el agente, y los tokens que el agente envía a su proveedor de modelo.
La infraestructura es la parte predecible. Un droplet básico de DigitalOcean en el plan Self-Hosted cuesta unos $4/mes por agente. Nuestro plan Managed lo envuelve en $14.99/mes con soporte incluido. En cualquier caso, puedes calcularlo desde el día uno.
Los tokens son la parte que sorprende. Una semana tranquila son quizás uno o dos dólares por agente. Una semana de programación intensa con ventanas de contexto largas puede ser de $30 o más en el mismo agente. El techo depende de cómo trabajas, no de cuántos agentes tienes.
Las Tres Palancas Que Importan
Casi toda queja de costos que hemos visto se reduce a una de tres cosas:
- Elección de modelo — ejecutar Claude Sonnet 4.6 o GPT-4o para tareas que un modelo más barato manejaría
- Inflación de contexto — el historial de chat sigue creciendo, y cada mensaje nuevo paga por cada viejo
- Sobredimensionamiento de droplets — pagar por 4 GB de RAM cuando 1 GB bastaría
Lo demás es ruido. Optimiza estos tres antes de ajustar cualquier otra cosa.
Palanca 1: Ajusta el Modelo a la Tarea
Los modelos frontera están tarifados para trabajo frontera. Si tu agente Researcher mayormente revisa documentos y resume, un modelo más barato te da el 90 % de la calidad al 10 % del precio. Reserva el modelo caro para el Builder, donde un parche malo desperdicia más tu tiempo del que el ahorro en tokens puede recuperar.
Un punto de partida razonable:
| Rol | Clase de modelo | Por qué |
|---|---|---|
| Researcher | Media (GPT-4o-mini, Claude Haiku) | Resumir no está limitado por capacidad |
| Builder | Alta (Claude Sonnet 4.6, GPT-4o) | La calidad del parche importa más que el precio del token |
| Reviewer | Alta | Quieres que atrape lo que se te escapó |
| Scribe | Media | Las notas de versión no necesitan un doctorado |
No tienes que elegir una vez y casarte. Cambia proveedores por agente en Office Claws y haz A/B sobre trabajo real durante una semana.
Palanca 2: No Dejes Que el Contexto se Infle
Cada mensaje que procesa un agente paga por toda la conversación hasta ese punto. Un chat de 50 turnos no son 50 peticiones baratas — es una petición más 49 peticiones que cada una reenvía todo el historial. La aritmética es implacable.
Dos hábitos que ayudan:
- Inicia una conversación nueva cuando cambie el tema. Si estabas depurando CSS y ahora quieres escribir una migración de base de datos, eso es una sesión de agente nueva. El historial de CSS no añade nada y cuesta en cada turno
- Pega el resumen, no el transcrito. Si estás pasando trabajo a otro agente, copia las tres líneas que importan, no todo el hilo
En Office Claws, cada escritorio es un agente separado con su propio contexto. Esa frontera es gratis y vale la pena usarla.
Palanca 3: Dimensiona Bien el Droplet
En el plan Self-Hosted eliges tú mismo el tamaño del droplet. Los valores por defecto que enviamos son conservadores — funcionan para casi todos — pero si ejecutas un solo agente que mayormente espera la respuesta del modelo, puedes reducir aún más.
Algunas reglas generales:
- Un agente, uso ligero: 1 GB de droplet está bien
- Un agente, uso intensivo de herramientas (navegador, compilador, tests): 2 GB
- Múltiples agentes en un droplet: no está soportado, usa droplets separados
- Plan Managed: empieza en Standard (2 GB), actualiza sólo si el agente empieza a hacer swap
Si tu agente se queda sin memoria regularmente, la solución es un droplet más grande, no un modelo más barato. Matar agentes a mitad de tarea desperdicia los tokens que ya gastaron.
Qué No Optimizar
Algunas tácticas suenan ahorradoras y no lo son:
- Forzar ventanas de contexto diminutas — recortar el historial agresivamente rompe la memoria del agente sobre lo que estaban haciendo. Es más barato empezar de cero
- Meterlo todo en una mega-petición — las peticiones largas son cuadráticas en la tarificación de algunos proveedores, y el agente maneja mejor preguntas enfocadas
- Cambiar al proveedor más barato globalmente — el modelo más barato sólo es barato si su salida es utilizable. Rehacer es lo más caro que puedes comprar
Cuándo Gastar Más, No Menos
Algunas situaciones merecen genuinamente la clase premium:
- Código sensible a seguridad o corrección — un Reviewer en un modelo alto atrapa bugs que uno medio deja pasar
- Refactors largos y complejos — la retención de contexto importa, y los modelos frontera sostienen mejor grandes bases de código en mente
- Borradores de una sola toma con mucho en juego — si escribes una cláusula contractual o un email a un cliente, paga por la calidad
La frugalidad es un valor por defecto, no una religión. Actualiza cuando lo que está en juego lo justifique.
Una Auditoría Mensual Simple
Una vez al mes, mira el dashboard de tu proveedor y pregunta tres cosas:
- ¿Qué agente gastó más tokens? ¿El trabajo que hizo lo justifica?
- ¿Hubo alguna sesión inusualmente larga? ¿Por qué no terminó antes la conversación?
- ¿Algún droplet está al <10 % de CPU? ¿Puede bajar una clase?
Cinco minutos de esto valen más que cualquier ingeniería de prompts astuta.
En Qué Estamos Trabajando
Estamos construyendo un panel de costos integrado para que no tengas que cambiar entre consolas de proveedor. Hasta que se lance, la auditoría de arriba es la forma más barata de mantener el control.
El objetivo no es ejecutar los agentes más baratos. Es dejar de pagar por trabajo que no tenía que pagarse.