Où Va Vraiment l'Argent
La plupart des gens se trompent sur ce que coûte un agent IA. Soit ils paniquent à la première facture, soit ils supposent que c'est moins cher que ça ne l'est. La vérité est ennuyeuse : sur Office Claws, vous payez deux choses. Un droplet qui fait tourner l'agent, et les tokens que l'agent envoie à son fournisseur de modèle.
L'infrastructure est la partie prévisible. Un droplet DigitalOcean de base sur le plan Self-Hosted coûte environ 4 $/mois par agent. Notre plan Managed l'inclut dans 14,99 $/mois avec le support. Dans les deux cas, vous pouvez le prévoir dès le premier jour.
Les tokens sont la partie qui surprend. Une semaine calme, c'est peut-être un ou deux dollars par agent. Une semaine de codage intense avec de longues fenêtres de contexte peut atteindre 30 $ ou plus sur le même agent. Le plafond dépend de comment vous travaillez, pas du nombre d'agents que vous avez.
Les Trois Leviers Qui Comptent
Presque toute plainte de coût que nous avons vue se ramène à l'une de trois choses :
- Choix du modèle — exécuter Claude Sonnet 4.6 ou GPT-4o pour des tâches qu'un modèle moins cher gérerait
- Gonflement du contexte — l'historique de chat grandit sans fin, et chaque nouveau message paie pour chaque ancien
- Surdimensionnement du droplet — payer pour 4 Go de RAM alors que 1 Go suffirait
Le reste, c'est du bruit. Optimisez ces trois avant d'ajuster quoi que ce soit d'autre.
Levier 1 : Adapter le Modèle à la Tâche
Les modèles de pointe sont tarifés pour du travail de pointe. Si votre agent Researcher passe surtout son temps à parcourir des docs et résumer, un modèle moins cher vous donne 90 % de la qualité à 10 % du prix. Gardez le modèle cher pour le Builder, où un mauvais patch gaspille plus de votre temps que les économies de tokens ne peuvent en récupérer.
Un point de départ raisonnable :
| Rôle | Classe de modèle | Pourquoi |
|---|---|---|
| Researcher | Intermédiaire (GPT-4o-mini, Claude Haiku) | Résumer n'est pas limité par la capacité |
| Builder | Haute (Claude Sonnet 4.6, GPT-4o) | La qualité du patch compte plus que le prix du token |
| Reviewer | Haute | Vous voulez qu'il attrape ce que vous avez raté |
| Scribe | Intermédiaire | Les notes de version n'ont pas besoin d'un doctorat |
Vous n'avez pas à choisir une fois et vous y tenir. Changez de fournisseur par agent dans Office Claws et faites de l'A/B sur du vrai travail pendant une semaine.
Levier 2 : Ne Laissez Pas le Contexte Gonfler
Chaque message qu'un agent traite paie pour toute la conversation jusqu'à ce point. Un chat de 50 tours, ce n'est pas 50 requêtes bon marché — c'est une requête plus 49 requêtes qui renvoient chacune tout l'historique. L'arithmétique est implacable.
Deux habitudes qui aident :
- Lancez une nouvelle conversation quand le sujet change. Si vous débuguiez du CSS et voulez maintenant écrire une migration de base de données, c'est une nouvelle session d'agent. L'historique CSS n'ajoute rien et coûte à chaque tour
- Collez le résumé, pas la transcription. Si vous transmettez du travail à un autre agent, copiez les trois lignes qui comptent, pas tout le fil
Dans Office Claws, chaque bureau est un agent séparé avec son propre contexte. Cette frontière est gratuite et mérite d'être utilisée.
Levier 3 : Dimensionnez Bien le Droplet
Sur le plan Self-Hosted, vous choisissez vous-même la taille du droplet. Les valeurs par défaut que nous expédions sont conservatrices — elles fonctionnent pour presque tout le monde — mais si vous exécutez un seul agent qui attend surtout que le modèle réponde, vous pouvez réduire davantage.
Quelques règles générales :
- Un agent, usage léger : un droplet de 1 Go suffit
- Un agent, usage intensif d'outils (navigateur, compilateur, tests) : 2 Go
- Plusieurs agents sur un même droplet : pas pris en charge, utilisez des droplets séparés
- Plan Managed : commencez en Standard (2 Go), ne montez que si l'agent commence à swapper
Si votre agent manque régulièrement de mémoire, la solution est un droplet plus grand, pas un modèle moins cher. Tuer des agents en cours de tâche gaspille les tokens qu'ils ont déjà dépensés.
Ce Qu'il Ne Faut Pas Optimiser
Certaines tactiques sonnent économes et ne le sont pas :
- Forcer de minuscules fenêtres de contexte — couper l'historique agressivement casse la mémoire de l'agent sur ce que vous faisiez. C'est moins cher de repartir à zéro
- Tout empiler dans une méga-requête — les longues requêtes sont quadratiques dans la tarification de certains fournisseurs, et l'agent gère mieux les questions ciblées
- Passer globalement au fournisseur le moins cher — le modèle le moins cher n'est bon marché que si sa sortie est utilisable. Refaire est la chose la plus chère que vous puissiez acheter
Quand Dépenser Plus, Pas Moins
Quelques situations méritent vraiment la classe premium :
- Code sensible à la sécurité ou à la correction — un Reviewer sur un modèle haut de gamme attrape des bugs qu'un modèle intermédiaire laisse passer
- Longs refactors complexes — la rétention de contexte compte, et les modèles de pointe gardent mieux de grosses bases de code en tête
- Brouillons à fort enjeu en un seul coup — si vous écrivez une clause contractuelle ou un email client, payez pour la qualité
La frugalité est un défaut, pas une religion. Montez en gamme quand les enjeux le justifient.
Un Audit Mensuel Simple
Une fois par mois, regardez le tableau de bord de votre fournisseur et posez trois questions :
- Quel agent a dépensé le plus de tokens ? Le travail accompli le justifie-t-il ?
- Une session a-t-elle été anormalement longue ? Pourquoi la conversation n'a-t-elle pas fini plus tôt ?
- Un droplet tourne-t-il à moins de 10 % de CPU ? Peut-il descendre d'une classe ?
Cinq minutes de ça valent plus que toute ingénierie de prompts astucieuse.
Ce Sur Quoi Nous Travaillons
Nous construisons un tableau de bord de coûts intégré pour que vous n'ayez pas à jongler entre les consoles fournisseurs. En attendant, l'audit ci-dessus est le moyen le moins cher de garder le contrôle.
Le but n'est pas de faire tourner les agents les moins chers. C'est d'arrêter de payer pour du travail qui n'avait pas besoin d'être payé.