От чего больше всего зависит стоимость работы агента?

Почти всегда — от длины контекста (история, память, вложения) и числа «шагов» агента. Чем больше токенов в каждом запросе и чем больше циклов, тем выше стоимость.

Можно ли просто выбрать более дешёвую модель и всё?

Это один из рычагов, но не единственный. Часто 2× экономии даёт дисциплина контекста и ответов: краткость по умолчанию, лимиты памяти, ограничение инструментов и бюджетные ограничения.

Какие лимиты бюджета ставить?

Начните с дневного лимита (чтобы ограничить ущерб), затем добавьте недельный и лимиты на «дорогие» действия. Точные цифры зависят от сценария и маржинальности — посчитайте стоимость на задачу и сравните с ценностью.

Как быстро оценить стоимость на одну задачу?

Соберите 20–50 типовых диалогов, посчитайте средние токены/шаги и умножьте на цену провайдера. Для бизнес‑оценки удобно считать в юнит‑экономике: cost per task и валовая маржа.

OpenClaw и расход токенов: контроль стоимости

Антон Горошков Обновлено: 18 февраля 2026, 09:00

OpenClaw и расход токенов: как снизить стоимость и контролировать бюджет API

Когда вы запускаете OpenClaw как агента в Telegram, стоимость может «поползти» незаметно: контекст растёт, память становится слишком подробной, агент делает лишние шаги, а лимитов бюджета нет. Эта статья для тех, кто уже прошёл базовую настройку (гайд по OpenClaw) и хочет поставить лимиты бюджета API, снизить стоимость и сохранить качество ответов.

Главная формула: где рождаются расходы

В упрощённом виде стоимость одной задачи можно оценить так:

Cost per task = (средние токены на шаг) × (количество шагов) × (цена токена у провайдера)

Важно: даже если цена токена низкая, агент может «перерасходовать» из‑за лишних шагов и слишком длинного контекста.

Мини‑диаграмма: куда «утекают» токены

Ниже — типичная цепочка, которая раздувает стоимость. Это не про «идеальную архитектуру», а про то, где чаще всего теряются деньги. Схема помогает быстро найти ваш главный источник перерасхода.

Пользователь в Telegram
          |
          v
        История диалога (длинная)
          |
          +--> Память (слишком подробная) ----+
          |                                   |
          v                                   v
        Большой контекст  ---------------->  Каждый запрос дороже
          |
          v
        Агентные шаги (слишком много)
          |
          +--> инструменты (лишние попытки)
          |
          v
        Длинный ответ (без ограничений)
          |
          v
        Итог: cost per task растёт быстрее ценности

С чего начать оптимизацию (простая приоритизация)

Если вы не знаете, что трогать первым, используйте порядок: контекст → шаги → ответы → выбор модели. В большинстве конфигураций именно контекст и количество шагов дают наибольшую экономию без потери полезности.

5 причин, почему агент начинает «жрать токены»

Длинная история: вы пересылаете большие фрагменты переписки или агент хранит всё без сжатия.
Память без политики: в память попадает «всё подряд», и она раздувает каждый запрос.
Ответы «как статья»: модель пишет слишком подробно по умолчанию.
Слишком много инструментов: агент пробует несколько путей решения и делает лишние вызовы.
Нет лимитов и мониторинга: вы не видите аномалии, пока не увидите счёт.

Практические приёмы оптимизации (то, что реально работает)

1) Сделайте «краткость» нормой

Просите ответы «в 3–7 пунктов» по умолчанию.
Добавьте правило: «если нужна подробность — агент задаёт уточняющий вопрос».

2) Управляйте памятью, как продуктом

Определите, что агент имеет право запоминать (и что — нет).
Сжимайте/резюмируйте память (например, «короткая сводка + ключевые факты»).
Вводите TTL: «факты устаревают».

3) Минимизируйте шаги агента

Отключайте инструменты, которые редко нужны.
Если агент делает 3 попытки подряд — заставьте его остановиться и попросить подтверждение.

4) Выберите модель под класс задач

Частая стратегия: дешёвая модель для рутинных задач (классификация, короткие ответы), более сильная — для сложных. Если вы рассматриваете локальные модели, вам может быть полезен кластер Открытые LLM.

5) Поставьте бюджетные лимиты (обязательно)

Даже идеально настроенный агент может ошибаться. Лимиты бюджета — это «предохранитель». Минимально:

дневной лимит расходов на API,
недельный лимит,
лимиты на «дорогие» действия.

Быстрый аудит за 30 минут: где ваш главный перерасход

Если вы не хотите гадать, что именно «лечить», начните с короткого аудита. Цель — увидеть структуру расходов: длинная история, память, лишние шаги или бесконтрольные ответы.

Шаг 1: выберите 10 типовых задач (что замерять)

Возьмите 10 реальных запросов, которые вы делаете чаще всего. Например: «собери краткую сводку», «подготовь ответ клиенту», «запроси уточнения», «сформируй план работ», «проверь список задач».

Для каждого запроса запишите:

примерный объём истории (насколько длинная переписка подтягивается в запрос),
насколько «толстая» память (пара строк или целая простыня),
сколько шагов делает агент и где он повторяется,
какие инструменты действительно нужны, а какие «на всякий случай».

Шаг 2: найдите аномалии (красные флаги)

модель пишет «эссе», хотя нужен короткий результат;
агент повторяет попытку 2–3 раза подряд;
в каждом ответе много «размышлений», но мало результата;
в память попадает всё подряд после каждого сообщения;
агент часто зовёт инструменты без явной необходимости.

Шаг 3: выберите один рычаг экономии на неделю

Типичная ошибка — менять всё одновременно и терять связь причин/следствий. Выберите один рычаг:

сжать историю (окно последних сообщений + сводка),
починить память (политика: что запоминать/что забывать),
ограничить шаги (лимит попыток и подтверждения на «дорогое»),
укоротить ответы (краткость по умолчанию).

Контекст‑менеджмент: делайте контекст маленьким и полезным

Токены «вылетают» из‑за того, что в каждый запрос уходит слишком много лишнего. Контекст должен быть похож на оперативную записку, а не на архив переписки.

Правило окна истории + сводка

Окно: держите только последние N сообщений (достаточно, чтобы не потерять нить).
Сводка: 5–12 строк: цель, ограничения, подтверждённые факты, «что уже сделали».
Запрет на простыни: если пользователь присылает большой текст — агент сначала уточняет цель и просит 3–5 важных фактов.

Память: не «лог жизни», а компактные правила

Если в память попадает всё, она раздувает каждый запрос. Практичная политика памяти:

Запоминать: формат ответа, список разрешённых действий, шаблоны, роли, устойчивые предпочтения.
Не запоминать: длинные цитаты, временные детали без пользы, догадки.
Сжимать: «факт → одна строка» + короткая сводка.
Забывать: TTL для временных вещей (например, «расписание на неделю»).

Управление шагами агента: меньше циклов — меньше счёт

Даже с коротким контекстом стоимость улетает, если агент делает много шагов или несколько раз подряд зовёт инструменты. В Telegram большинство задач должно укладываться в 1–2 коротких шага.

Стоп‑правила, которые предотвращают «петли»

Лимит попыток: если операция не удалась 2 раза — остановиться и попросить уточнение/подтверждение.
Дорогие действия только с подтверждением: внешние запросы, массовые изменения, нестандартные операции.
Ограничение инструментов: включайте только то, что реально используется в текущем сценарии.

Дисциплина ответа: коротко по умолчанию, подробно по запросу

В бизнес‑задачах качество часто означает «понятно, что делать дальше», а не «много текста». Стабильный паттерн выглядит так:

Результат: 3–7 пунктов или 1 таблица.
Вопрос: «Нужно развернуть пункт 2 или 4?»
Детали: только после подтверждения.

Модель‑роутинг: экономия без потери качества

«Одна самая умная модель на всё» — удобно, но дорого. Практичнее разделить задачи по классам:

Класс A (рутина): классификация, короткие ответы, извлечения → дешёвая модель.
Класс B (среднее): план, резюмирование, проверка рисков → средняя модель.
Класс C (сложно): сложные кейсы и высокая цена ошибки → сильная модель по запросу.

Если вы ещё не уверены, как правильно стартовать с Telegram‑агентом, начните с базы: OpenClaw: установка, сопряжение, первые сценарии.

Бюджет и лимиты: как поставить «предохранители»

Лимиты бюджета нужны не только «чтобы не разориться». Они заставляют проект быть предсказуемым. Ниже — каркас лимитов, который затем можно привязать к вашей юнит‑экономике.

Шаблон лимитов (дневной, недельный, на дорогие действия)

Дневной лимит: защита от внезапных ошибок и циклов.
Недельный лимит: верхняя граница затрат на поддержку/операции.
Лимит на «дорогое»: внешние запросы/поиск/массовые изменения — только по подтверждению.
Режим деградации: при достижении лимита — краткие ответы и запрет на дорогие шаги без подтверждения.
Режим остановки: при превышении — агент прекращает действия и просит вмешаться.

Telegram‑особенности (почему всплески происходят внезапно)

В Telegram часто присылают «пакеты» сообщений, пересылки и большие куски текста. Это создаёт два риска:

резкий рост контекста после одной пересылки;
серии запросов (несколько пользователей/тем параллельно).

Полезные предохранители: ограничение длины входа и правило «если вход огромный — сначала уточняем цель и формат результата».

Наблюдаемость: без цифр вы оптимизируете «по ощущениям»

Вам не обязательно строить сложный мониторинг. Но вам точно нужно видеть: какие задачи самые дорогие, где появляются петли и какие конфиги ухудшают стоимость.

Топ‑10 дорогих задач недели с короткой причиной (контекст/память/инструменты/ответы).
Стоимость по типу задач (поддержка, отчёты, планирование, интеграции).
Стоимость по каналам (личка/группа/разные топики).
Алерты на аномальный рост шагов или слишком длинные ответы.

Типовые ошибки, которые стабильно «съедают» бюджет

Строить «универсального ассистента» вместо 1–2 конкретных задач.
Хранить всю историю и всю память без сжатия.
Разрешить слишком много инструментов «на всякий случай».
Не ограничить длину ответа по умолчанию.
Разрешить агенту бесконечно повторять попытки.
Смешивать разные темы в одном чате без границ контекста.
Не считать cost per task до внедрения (и после).
Не держать лимиты бюджета и режим деградации.
Пытаться лечить постановку задачи сменой модели.
Игнорировать эксплуатацию и безопасность (а затем платить последствиями).

Связанные темы, которые усиливают экономию

Стоимость почти всегда связана с безопасностью и эксплуатацией: чем больше свободы у агента, тем больше рисков и расходов. Полезные страницы на сайте:

Как экономить и не потерять качество

Многие боятся оптимизации, потому что слышали: «сократи контекст — и агент станет глупым». На практике качество падает не из‑за краткости, а из‑за того, что исчезают правильные опоры: цель, границы, подтверждённые факты. Поэтому задача — не «отрезать всё», а оставить в контексте только то, что реально влияет на результат.

3 опоры, которые должны быть в каждом запросе

Цель: что именно нужно получить (формат результата: список/таблица/шаги).
Границы: что нельзя делать, где нужна проверка/подтверждение.
Данные: только подтверждённые факты и ссылки на источники внутри вашей системы (без копипасты огромных фрагментов).

Паттерн «коротко → уточнение → подробно»

Это самый безопасный способ сделать ответы краткими, не теряя полезность:

агент даёт короткий результат,
спрашивает, что развернуть,
и только потом пишет подробности (если они реально нужны).

Telegram‑особенности: что чаще всего раздувает стоимость

В Telegram есть несколько типовых «ловушек» для бюджета:

пересланные переписки (в одной пересылке много текста),
пачки сообщений (несколько коротких сообщений подряд),
мультимодальность (картинки/файлы/голос),
группы (параллельные темы и больше шума).

Правила, которые экономят бюджет в Telegram

Ограничьте длину входа: если вход слишком большой — агент просит цель и просит выделить 3–5 фактов.
Склейка пачек: объединяйте короткие сообщения пользователя в один «батч» перед обработкой.
Группы — осторожно: если используете группу, разделяйте темы (топики) и держите контекст узким.
Мультимодальность — по запросу: если пользователь прислал картинку, агент уточняет, что именно нужно (описать/найти/сравнить).
Дорогие действия — только с подтверждением: особенно в групповом чате.

План внедрения оптимизации на 1 вечер

Если вы хотите «быстро сделать лучше», а не бесконечно тюнить — вот план на один вечер.

Соберите 10 типовых задач и выберите одну самую частую.
Включите краткость по умолчанию (3–7 пунктов + уточняющий вопрос).
Ограничьте шаги: 2 попытки инструмента → стоп и запрос подтверждения.
Сожмите контекст: окно истории + сводка вместо архива.
Поставьте лимиты: дневной/недельный + режим деградации.
Проверьте безопасность (особенно если есть действия): hardening‑гайд.

Мини‑кейсы: как экономия выглядит в реальных задачах

Кейс A: поддержка клиентов

Проблема: пользователь пишет много, агент отвечает долго, а иногда «уходит в рассуждения». Решение: короткий ответ по умолчанию + вопрос‑уточнение + строгая политика «без действий без подтверждения». Экономия появляется сразу: меньше токенов на ответ и меньше лишних шагов.

Кейс B: операционные задачи (сбор данных и статусы)

Проблема: агент пытается собрать всё и сразу, таская огромный контекст. Решение: разрезать задачу на две фазы: (1) краткий план и список недостающих данных, (2) действие после подтверждения. Это снижает стоимость и повышает предсказуемость.

Кейс C: личные заметки и регулярные отчёты

Проблема: память превращается в бесконечный дневник. Решение: память хранит только «правила» и «сводки», а детальные логи остаются отдельно. Дополнительно помогает периодическое резюмирование вместо хранения сырой истории.

Самодиагностика: почему ваш агент дорогой

Если вы хотите быстро понять «что болит», пройдите самопроверку.

Если у вас дорогой каждый запрос — проверьте контекст

сильно ли выросла история, которая отправляется в модель;
нет ли «простыней» памяти;
нет ли регулярных длинных вставок текста.

Если у вас дорогая одна задача — проверьте число шагов

не повторяет ли агент один и тот же ход несколько раз;
не включены ли лишние инструменты;
есть ли лимит попыток и стоп‑правила.

Если у вас скачки по счёту — проверьте лимиты и аномалии

есть ли дневной лимит и режим деградации;
видите ли вы топ‑10 самых дорогих задач;
не происходит ли это в группах или из‑за пересылок.

Шаблоны формулировок, которые экономят токены (и нервы)

Экономия часто начинается не с «настроек», а с того, как вы просите результат. Если агент получает расплывчатую задачу, он вынужден «договариваться» сам с собой: больше шагов, больше текста, больше стоимости. Ниже — практичные шаблоны запросов, которые делают результат короче и стабильнее.

Краткий ответ: «Ответь в 5 пунктах. Если нужно больше — задай 1 уточняющий вопрос».
Решение/план: «Дай план из 7 шагов, затем спроси, какой шаг делать первым».
Проверка рисков: «Сначала перечисли риски (до 7), затем предложи 3 меры защиты».
Работа с длинным входом: «Сначала сделай сводку (10 строк), потом выдели 5 ключевых фактов».
Инструменты: «Не вызывай инструменты без явного подтверждения: “Можно?”».

Что измерять каждую неделю (минимум метрик)

Чтобы оптимизация не превращалась в бесконечную «настройку ради настройки», держите 4–6 метрик. Этого достаточно, чтобы видеть прогресс и ловить аномалии.

Cost per task по 1–2 ключевым сценариям.
Среднее число шагов на задачу.
Длина ответа (в среднем) и доля «слишком длинных» ответов.
Топ‑10 самых дорогих задач недели и причина (контекст/память/инструменты/повторы).
Доля задач, где потребовалось подтверждение (хороший индикатор безопасности).

Мини‑FAQ по оптимизации стоимости (частые вопросы)

Вопрос: «Почему после сокращения контекста качество упало?»
Ответ: чаще всего вы выкинули не «мусор», а опоры: цель, ограничения, подтверждённые факты. Верните их в сводку.

Вопрос: «Почему агент стал делать больше шагов?»
Ответ: обычно задача стала расплывчатой, или включено слишком много инструментов. Сузьте сценарий и введите стоп‑правила.

Вопрос: «Можно ли экономить только выбором модели?»
Ответ: можно, но это редко главный рычаг. Контекст и шаги обычно дают больше экономии.

Как это связано с юнит‑экономикой

Если агент обслуживает клиентов или выполняет задачи как часть продукта, токены — это COGS. Полезно посчитать маржинальность: стоимость одной задачи, стоимость одного активного пользователя и валовую маржу.

Для расчётов используйте Unit Economy Calculator и статью как пользоваться калькулятором.

Плейбук «оптимизация за 60 минут» (когда нужно быстро снизить счёт)

Если вы видите перерасход прямо сейчас, не пытайтесь сразу «переписать всё красиво». В первую очередь важно остановить самые дорогие источники трафика и вернуть управляемость. Этот плейбук работает почти в любом стеке, потому что опирается на общие причины перерасхода: длинный контекст, лишние шаги и отсутствие ограничений.

10 минут: найдите 5–10 самых дорогих задач и одну конкретную причину (контекст/повторы/инструменты).
10 минут: включите «краткость по умолчанию» и запрет на многословие (пункты вместо эссе).
10 минут: введите стоп‑правила: 2–3 попытки → остановка и 1 уточняющий вопрос вместо дальнейших шагов.
10 минут: отключите инструменты «на всякий случай» и оставьте только то, что нужно для 1 сценария.
10 минут: включите лимит бюджета и режим деградации (что система делает при достижении лимита).
10 минут: сократите память/историю: оставьте только цель, ограничения и подтверждённые факты в сводке.

После этого вы почти всегда увидите падение стоимости без драматической потери качества. Дальше уже можно спокойно делать «тонкую настройку»: маршрутизацию моделей, улучшение подсказок и точечные интеграции.

Чтобы качество не просело из‑за сокращения контекста, оставьте в «сводке по умолчанию» три вещи: цель, ограничения и подтверждённые факты. Всё остальное (переписку целиком, повторяющиеся детали, «историю ради истории») лучше выносить в отдельные заметки или запрашивать по требованию.

Это простое правило часто даёт заметную экономию уже в первую неделю.

Если вы сомневаетесь, что именно оставить в сводке, начните с 5–7 строк: цель, запреты, текущий статус и один следующий шаг.

Связанные материалы на сайте

Хотите снизить стоимость и стабилизировать поведение агента?

Могу помочь настроить ограничения, бюджет, наблюдаемость и «политику памяти» под ваш сценарий.

=> Обсудить оптимизацию => Вернуться в блог => Подписаться на Telegram‑канал

FAQ

От чего зависит стоимость? От длины контекста, числа шагов и цены токена у провайдера.
Что даёт лимит бюджета? Ограничивает ущерб от ошибок и дисциплинирует конфигурацию.
Где чаще всего перерасход? Память/история без сжатия и слишком подробные ответы.
Можно ли сделать «дёшево и хорошо»? Обычно да, если разделить задачи по моделям и держать контекст коротким.