Продакшн-оценки должны связывать поведение модели с бизнес-KPI. Мы смешиваем автоматические метрики (BLEU, rouge‑L, токсичность) с human‑in‑the‑loop точечными проверками на высокоценных сегментах.
Наш цикл оценки
- Определить рубрику задач и правила прохождения/провала
- Генерировать разнообразные eval-сеты с синтетическим дополнением
- Оценивать с программными судьями и человеческими аудитами
- Отслеживать дрейф затрат/производительности еженедельно
Это поддерживает стабильность качества, пока вы итерируете промпты, инструменты и модели.
Что оценивать
- Успех задач: прохождение/провал по рубрике с причинами
- Безопасность: токсичность, PII, устойчивость к jailbreak
- Затраты и задержка: на запрос и на бизнес-событие
- Дрейф: еженедельное сравнение с последней известной хорошей версией
Практические советы
- Начните с малого eval-сета и расширяйте постепенно
- Автоматизируйте рутинные проверки, людей оставьте для сложных кейсов
- Ведите лог всех изменений промптов и моделей
- Настройте алерты на резкие изменения метрик