Агенты ломаются в стыках. Инструментируйте каждый вызов инструмента, ограничивайте выходы JSON-схемами, изолируйте побочные эффекты и реализуйте компенсирующие действия для частичных сбоев.
Принимайте trace‑first отладку: каждый запуск создаёт временную шкалу с входами, выходами и затратами. Это кардинально сокращает MTTR.
Чек-лист продакшена
- Детерминированные инструменты: типизированные входы/выходы, идемпотентные действия, таймауты
- Guardrails: валидация JSON-схем, список разрешённых инструментов, безопасные fallback
- Повторы: классификация временных vs фатальных ошибок; экспоненциальный откат; DLQ
- Наблюдаемость: трейсы со спанами на инструмент, версии промптов, затраты
- Откаты: компенсирующие действия и saga-подобная оркестрация
Плейбук отладки
- Захватить падающий запуск с полной временной шкалой и окружением
- Воспроизвести с фиксированным seed и замороженными инструментами
- Добавить правило или тест для предотвращения регрессии; отправить canary; наблюдать
Соображения безопасности
- Ограничить секреты до scoped токенов; никогда не раскрывать env в трейсах
- Rate‑лимитировать инструменты и принуждать к allowlist для назначений
- Запускать недоверенный код в песочницах; логировать все побочные эффекты
Мониторинг агентов
Настройте метрики для отслеживания:
- Успешность вызовов инструментов - процент успешных выполнений
- Время выполнения агента - от начала до завершения задачи
- Количество итераций - сколько циклов потребовалось для решения
- Затраты на токены - отслеживание расходов по задачам