Как сократить счёт за ИИ-агентов: практическое руководство по расходам

Как сократить счёт за ИИ-агентов: практическое руководство по расходам — Куда на самом деле уходят деньги при работе ИИ-агентов и немного рычагов, которые снижают счёт без ущерба результату.
18 апр. 2026 г.5 мин чтения
Share with

Куда на самом деле уходят деньги

Большинство ошибается в оценке того, сколько стоит ИИ-агент. Одни паникуют от первого счёта, другие считают, что выходит дешевле, чем на деле. Правда скучна: в Office Claws вы платите за две вещи. За дроплет, на котором работает агент, и за токены, которые агент отправляет провайдеру модели.

Разбивка расходов на агента: инфраструктура против токенов

Инфраструктура — это предсказуемая часть. Базовый дроплет DigitalOcean по тарифу Self-Hosted стоит примерно $4/мес за агента. Наш тариф Managed включает всё это в $14.99/мес с поддержкой. В обоих случаях сумму можно спрогнозировать с первого дня.

Токены — это то, что удивляет. В спокойную неделю получается доллар-два на агента. В неделю плотного кодинга с длинными контекстными окнами у того же агента выходит $30 и больше. Потолок зависит от того, как вы работаете, а не сколько у вас агентов.

Три рычага, которые имеют значение

Почти все жалобы на расходы, что мы видели, сводятся к одному из трёх:

  1. Выбор модели — запускать Claude Sonnet 4.6 или GPT-4o под задачи, с которыми справится модель дешевле
  2. Разрастание контекста — история чата растёт, и каждое новое сообщение платит за каждое старое
  3. Избыточный размер дроплета — платить за 4 ГБ оперативной памяти, когда хватит 1 ГБ

Остальное — шум. Отстройте эти три, прежде чем крутить что-то ещё.

Рычаг 1: подберите модель под задачу

Флагманские модели тарифицируются под флагманскую работу. Если агент-Researcher в основном просматривает документацию и делает выжимки, более дешёвая модель даёт вам 90 % качества за 10 % цены. Дорогую модель берегите для Builder, где плохой патч съедает больше вашего времени, чем экономия на токенах может вернуть.

Разумная точка старта:

РольКласс моделиПочему
ResearcherСредний (GPT-4o-mini, Claude Haiku)Резюмирование не упирается в способности
BuilderТоповый (Claude Sonnet 4.6, GPT-4o)Качество патча важнее цены токена
ReviewerТоповыйНадо поймать то, что вы проглядели
ScribeСреднийДля релиз-ноутов докторская степень не нужна

Не нужно выбирать один раз и сидеть на этом. Меняйте провайдера по каждому агенту в Office Claws и в течение недели делайте A/B на реальных задачах.

Рычаг 2: не давайте контексту разрастаться

Каждое сообщение, которое обрабатывает агент, оплачивает весь разговор до этой точки. Чат на 50 ходов — это не 50 дешёвых запросов, а один запрос плюс 49 запросов, в каждом из которых пересылается вся история. Арифметика беспощадна.

Две полезные привычки:

  • Начинайте новый разговор, когда меняется тема. Если только что разбирались с CSS, а теперь пишете миграцию БД, — это новая сессия агента. История по CSS ничего не даёт и стоит денег на каждом ходу
  • Вставляйте выжимку, а не весь транскрипт. Если передаёте работу другому агенту, скопируйте три строчки, которые важны, а не всю ветку

В Office Claws каждый стол — отдельный агент со своим контекстом. Эта граница бесплатна, и ей стоит пользоваться.

Рычаг 3: правильно подберите дроплет

В тарифе Self-Hosted вы сами выбираете размер дроплета. Значения по умолчанию у нас консервативные — работают почти у всех, — но если запускаете одного агента, который в основном ждёт ответа модели, можно уменьшить ещё сильнее.

Рекомендации по размеру дроплета в зависимости от нагрузки

Несколько правил:

  • Один агент, лёгкое использование: хватит дроплета на 1 ГБ
  • Один агент, активная работа с инструментами (браузер, компилятор, тесты): 2 ГБ
  • Несколько агентов на одном дроплете: не поддерживается, используйте отдельные дроплеты
  • Тариф Managed: стартуйте со Standard (2 ГБ), обновляйтесь, только если агент начинает свопиться

Если у агента регулярно заканчивается память, лечится это увеличением дроплета, а не более дешёвой моделью. Убивать агента посреди задачи значит выбрасывать токены, которые он уже потратил.

Что не стоит оптимизировать

Некоторые тактики звучат экономно, но ими не являются:

  • Жёстко резать контекстное окно — агрессивная обрезка истории убивает память агента о том, чем вы занимались. Дешевле начать заново
  • Сваливать всё в один мега-запрос — длинные запросы у части провайдеров тарифицируются квадратично, и агент лучше справляется с точечными вопросами
  • Глобально переходить на самого дешёвого провайдера — дешёвая модель дешева только если её вывод применим. Переделка — самое дорогое, что вы можете купить

Когда стоит платить больше, а не меньше

Есть ситуации, где премиум-уровень оправдан:

  • Код, где важны безопасность или корректность — Reviewer на топовой модели ловит баги, которые средний пропустит
  • Длинные сложные рефакторинги — важна удержание контекста, и флагманские модели лучше держат в голове крупные кодовые базы
  • Высокоставочные тексты с одной попытки — если пишете пункт договора или письмо клиенту, платите за качество

Экономия — это дефолт, а не религия. Обновляйте класс, когда ставки оправдывают это.

Простой ежемесячный аудит

Раз в месяц заходите в дашборд провайдера и задавайте три вопроса:

  1. Какой агент потратил больше всего токенов? Соответствует ли это сделанной работе?
  2. Была ли какая-то сессия необычно длинной? Почему разговор не закончился раньше?
  3. Есть ли дроплет, работающий ниже 10 % по CPU? Можно ли опустить его на класс ниже?

Пять минут такого аудита стоят больше любого хитроумного prompt engineering.

Над чем мы работаем

Мы делаем встроенный дашборд расходов, чтобы вам не приходилось переключаться между консолями провайдеров. До его выхода аудит выше — самый дешёвый способ держать ситуацию под контролем.

Цель — не запускать самых дешёвых агентов. Цель — перестать платить за работу, которую не нужно было оплачивать.

Автор

Office Claws Team

Создаём будущее управления ИИ-агентами в Office Claws. Делимся опытом в области инфраструктуры, безопасности и удобства разработки.

Будьте в курсе

Получайте свежие статьи об ИИ-агентах, инфраструктуре и обновлениях продукта прямо на почту.

Без спама. Отписка в любой момент.