Wohin das Geld tatsächlich fließt
Die meisten Leute schätzen falsch, was ein KI-Agent kostet. Sie geraten entweder bei der ersten Rechnung in Panik oder nehmen an, er sei günstiger als er ist. Die Wahrheit ist langweilig: Bei Office Claws zahlen Sie für zwei Dinge. Einen Droplet, der den Agenten ausführt, und die Tokens, die der Agent an seinen Modellanbieter sendet.
Die Infrastruktur ist der vorhersehbare Teil. Ein Basis-Droplet bei DigitalOcean im Self-Hosted-Plan kostet etwa 4 $/Monat pro Agent. Unser Managed-Plan schlägt dies in 14,99 $/Monat ein, inklusive Support. In beiden Fällen können Sie es am ersten Tag kalkulieren.
Tokens sind der Teil, der die Leute überrascht. Eine ruhige Woche sind vielleicht ein oder zwei Dollar pro Agent. Eine Woche intensiver Programmierung mit langen Kontextfenstern kann beim selben Agenten 30 $ oder mehr kosten. Die Obergrenze hängt davon ab, wie Sie arbeiten, nicht wie viele Agenten Sie haben.
Die drei Hebel, die zählen
Fast jede Kostenbeschwerde, die wir gesehen haben, lässt sich auf eines von drei Dingen zurückführen:
- Modellwahl — Claude Sonnet 4.6 oder GPT-4o für Aufgaben nutzen, die ein günstigeres Modell erledigen würde
- Kontext-Aufblähung — der Chatverlauf wird immer länger, und jede neue Nachricht bezahlt für jede alte
- Überdimensionierung der Droplets — 4 GB RAM bezahlen, obwohl 1 GB reichen würde
Der Rest ist Rauschen. Optimieren Sie diese drei, bevor Sie irgendetwas anderes anpassen.
Hebel 1: Modell an die Aufgabe anpassen
Frontier-Modelle sind für Frontier-Arbeit bepreist. Wenn Ihr Researcher-Agent hauptsächlich Dokumente überfliegt und zusammenfasst, bringt Ihnen ein günstigeres Modell 90 % der Qualität zu 10 % des Preises. Sparen Sie das teure Modell für den Builder, wo ein schlechter Patch mehr Ihrer Zeit verschwendet, als Token-Einsparungen zurückbringen können.
Ein vernünftiger Ausgangspunkt:
| Rolle | Modellklasse | Warum |
|---|---|---|
| Researcher | Mittelklasse (GPT-4o-mini, Claude Haiku) | Zusammenfassen ist nicht durch Fähigkeit begrenzt |
| Builder | Topklasse (Claude Sonnet 4.6, GPT-4o) | Patch-Qualität zählt mehr als Token-Preis |
| Reviewer | Topklasse | Soll finden, was Sie übersehen haben |
| Scribe | Mittelklasse | Release-Notes brauchen keinen Doktortitel |
Sie müssen sich nicht einmal entscheiden und dabei bleiben. Tauschen Sie Anbieter pro Agent in Office Claws aus und testen Sie eine Woche lang A/B an echter Arbeit.
Hebel 2: Kontext nicht aufblähen lassen
Jede Nachricht, die ein Agent verarbeitet, bezahlt für das gesamte Gespräch bis zu diesem Punkt. Ein 50-Runden-Chat sind nicht 50 günstige Anfragen — sondern eine Anfrage plus 49 Anfragen, die jeweils den gesamten Verlauf erneut senden. Die Arithmetik ist gnadenlos.
Zwei Gewohnheiten, die helfen:
- Starten Sie ein neues Gespräch, wenn sich das Thema ändert. Wenn Sie gerade CSS debuggt haben und nun eine Datenbank-Migration schreiben wollen, ist das eine neue Agenten-Session. Der CSS-Verlauf bringt nichts und kostet bei jedem Turn
- Fügen Sie die Zusammenfassung ein, nicht den Transkript. Wenn Sie Arbeit an einen anderen Agenten übergeben, kopieren Sie die drei Zeilen, die zählen, nicht den ganzen Thread
In Office Claws ist jeder Schreibtisch ein separater Agent mit eigenem Kontext. Diese Grenze ist kostenlos und lohnt sich.
Hebel 3: Droplet richtig dimensionieren
Im Self-Hosted-Plan wählen Sie die Droplet-Größe selbst. Die Standardeinstellungen, die wir ausliefern, sind konservativ — sie funktionieren für fast alle — aber wenn Sie einen einzelnen Agenten betreiben, der meist auf die Antwort des Modells wartet, können Sie weiter verkleinern.
Ein paar Faustregeln:
- Ein Agent, leichte Nutzung: 1-GB-Droplet reicht
- Ein Agent, intensive Tool-Nutzung (Browser, Compiler, Tests): 2 GB
- Mehrere Agenten auf einem Droplet: wird nicht unterstützt, separate Droplets verwenden
- Managed-Plan: mit Standard (2 GB) beginnen, nur upgraden, wenn der Agent zu swappen beginnt
Wenn Ihrem Agenten regelmäßig der Speicher ausgeht, ist die Lösung ein größerer Droplet, kein günstigeres Modell. Agenten mitten in der Aufgabe zu töten verschwendet die Tokens, die sie bereits ausgegeben haben.
Was Sie nicht optimieren sollten
Einige Taktiken klingen sparsam und sind es nicht:
- Kontextfenster aggressiv kürzen — den Verlauf aggressiv zu beschneiden zerstört die Erinnerung des Agenten daran, was Sie gerade getan haben. Es ist günstiger, frisch zu starten
- Alles zu einer Mega-Anfrage bündeln — lange Anfragen sind bei einigen Anbietern quadratisch in der Preisgestaltung, und der Agent bewältigt fokussierte Fragen besser
- Global zum günstigsten Anbieter wechseln — das günstigste Modell ist nur günstig, wenn seine Ausgabe brauchbar ist. Nacharbeit ist das Teuerste, was Sie kaufen können
Wann es sich lohnt, mehr auszugeben
Ein paar Situationen verdienen tatsächlich die Premium-Klasse:
- Sicherheits- oder korrektheitskritischer Code — ein Reviewer auf einem Topmodell fängt Bugs ab, die ein Mittelklasse-Modell übersieht
- Lange, komplexe Refactorings — Kontext-Retention zählt, und Frontier-Modelle behalten große Codebases besser im Kopf
- One-Shot-Drafts mit hohen Einsätzen — wenn Sie eine Vertragsklausel oder eine Kunden-Mail schreiben, zahlen Sie für Qualität
Sparsamkeit ist ein Default, keine Religion. Upgraden Sie, wenn der Einsatz es rechtfertigt.
Ein einfaches monatliches Audit
Einmal im Monat auf Ihr Anbieter-Dashboard schauen und drei Fragen stellen:
- Welcher Agent hat die meisten Tokens ausgegeben? Rechtfertigt die geleistete Arbeit das?
- War irgendeine Session ungewöhnlich lang? Warum hat das Gespräch nicht früher geendet?
- Ist irgendein Droplet bei unter 10 % CPU? Kann er eine Klasse niedriger?
Fünf Minuten davon sind mehr wert als jedes clevere Prompt-Engineering.
Woran wir arbeiten
Wir bauen ein integriertes Kosten-Dashboard, damit Sie nicht zwischen Anbieter-Konsolen wechseln müssen. Bis es ausgeliefert ist, ist das obige Audit der günstigste Weg, die Kontrolle zu behalten.
Das Ziel ist nicht, die günstigsten Agenten zu betreiben. Es ist, aufzuhören, für Arbeit zu zahlen, die nicht hätte bezahlt werden müssen.