Un agente es una herramienta, cuatro agentes son un equipo
Un único agente de IA ya resulta útil: haces una pregunta y obtienes una respuesta. Pero la mayor parte del trabajo real no es una sola pregunta. Es un ciclo: investigar algo, redactar un cambio, revisarlo, documentarlo. Un agente generalista hará las cuatro tareas, pero ninguna especialmente bien, y su contexto se volverá confuso a mitad de camino.
Office Claws está pensado para ejecutar varios agentes a la vez. Cada uno tiene su propio VPS, su propio system prompt y su propio escritorio en la oficina pixelada. La pregunta interesante no es si puedes ejecutar cuatro agentes, sino qué debe hacer cada uno.
Un setup sencillo con cuatro roles
El setup siguiente es el que usamos internamente casi todos los días. Cada rol tiene un alcance acotado y un prompt escrito para ese alcance.
El Investigador
System prompt enfocado en encontrar y resumir información. Sin código, sin opiniones: solo hechos con fuentes.
Bueno para: ojear hilos largos, reunir documentación de APIs, extraer notas de versión, comparar librerías.
Úsalo con un modelo de ventana de contexto amplia. Claude Sonnet 4.6 es un valor por defecto razonable.
El Constructor
System prompt enfocado en escribir y editar código. Debe poder ejecutar tests, leer archivos y hacer pequeños commits, pero no empujar ramas.
Bueno para: arreglar bugs, funciones pequeñas, refactors que caben en un solo archivo.
Dale a este el modelo de coding más fuerte que puedas permitirte. El coste en tiempo de un mal parche es mayor que el coste en tokens de un modelo mejor.
El Revisor
System prompt enfocado en leer el diff del Constructor y encontrar problemas. Nunca escribe código. Escribe inquietudes: seguridad, corrección, claridad, apuntando a líneas concretas.
Bueno para: cazar el tipo de error que se te escaparía porque estás cansado y el diff tiene 400 líneas.
El Escriba
System prompt enfocado en convertir el trabajo terminado en prosa: notas de versión, actualizaciones internas, mensajes de commit, borradores de blog.
Bueno para: la última milla aburrida que, si no, se queda sin hacer.
Por qué importan más los prompts separados que los modelos separados
Es tentador pensar que el truco está en usar cuatro modelos distintos. Normalmente el truco está en usar cuatro prompts distintos. Un mismo modelo con "eres un revisor senior, nunca escribes código, solo encuentras problemas" se comporta casi nada como el mismo modelo con "eres un pair programmer útil".
La separación de responsabilidades aquí es un principio real de ingeniería, no solo higiene organizativa:
- Un system prompt enfocado consume menos overhead de contexto y deja más espacio para el trabajo real
- Un alcance estrecho hace al agente más fácil de evaluar: sabes cómo se ve una buena salida
- Cuando algo va mal, sabes a qué agente culpar y qué prompt afinar
Cómo fluye el trabajo entre agentes
Office Claws todavía no tiene handoff automático entre agentes. Tú eres el router. En la práctica se ve así:
- Hazle una pregunta al Investigador, copia el resumen
- Pega el resumen al Constructor con una instrucción concreta
- Pega el diff resultante al Revisor y pregunta "¿qué cambiarías?"
- Cuando aterrice la segunda pasada del Constructor, pega el diff final al Escriba para una nota de versión
Sobre el papel parece torpe y en la práctica resulta sorprendentemente natural. La oficina pixelada ayuda: cada agente tiene un escritorio, así que siempre sabes a quién pertenece cada contexto. Sin pestañas de navegador, sin "espera, ¿en qué conversación estaba la doc de la API?".
Notas de coste
Ejecutar cuatro agentes no cuesta cuatro veces más que ejecutar uno. La mayor parte del coste son tokens, y los tokens escalan con cuánto hablas con un agente, no con cuántos agentes existen.
En el plan self-hosted, cada agente es un droplet de DigitalOcean independiente, así que pagas la infraestructura. Un droplet básico de 4 $/mes por agente se suma, pero sigue siendo bastante menos que la mayoría de asientos SaaS. En el plan managed, cada agente adicional cuesta 14,99 $/mes.
Si solo estás experimentando, empieza con dos: un Investigador y un Constructor. Añade los otros dos cuando sepas que realmente los necesitas.
Qué no hacer
- No conviertas a un agente en "el manager" de los demás. Todavía no hay protocolo agente-a-agente, y pedirle a un agente que coordine a otros solo hace que alucine flujos de trabajo
- No le des a cada agente todas las herramientas. El Revisor no necesita acceso de escritura a archivos. El Escriba no necesita un compilador
- No uses el mismo system prompt con otro nombre. Si dos agentes tienen el mismo prompt, no tienes dos agentes: tienes un agente pagando por dos droplets
Hacia dónde va esto
Estamos trabajando en varias cosas que harán los setups multiagente menos manuales:
- Presets de rol guardados — configuraciones de un clic "Investigador", "Constructor", "Revisor"
- Copiar entre agentes — seleccionar salida de un agente y enviarla a otro sin salir de la app
- Mensajes agente-a-agente — experimental, gated y solo disponible cuando estemos seguros de que no amplifica errores
Hasta entonces, el flujo manual es una feature, no una limitación. Tú eres quien sabe en qué consiste realmente el trabajo.