Что такое guardrail metrics?
Answer from AI
sobes.tech AI
Что хотят услышать интервьюеры:
Guardrail metrics — это метрики-ограничители, которые помогают убедиться, что эксперимент не ухудшает важные аспекты продукта. Они используются вместе с основной метрикой, чтобы не оптимизировать одно улучшение ценой регресса в других местах. Обычно это метрики качества, стабильности, безопасности или бизнес-риска.
Определение:
Guardrail metrics — это заранее выбранные контрольные метрики в A/B-экспериментах и ML/AI-системах, которые не являются целевыми, но служат «ограждением» от нежелательных побочных эффектов. Если основная метрика растёт, но guardrail-метрика заметно проседает, такой результат считают рискованным или неприемлемым.
Пример использования:
Например, команда тестирует новую ранжирующую модель в поиске. Основная метрика — CTR или конверсия, а guardrail-метрики — время ответа, доля ошибок, отказы, bounce rate или количество жалоб. Если новая модель повышает CTR, но сильно увеличивает latency, эксперимент могут остановить или не выкатывать.
Пояснение кода:
Код не требуется. Логика проверки guardrail metrics обычно выглядит так:
- Выбирают основную метрику, по которой хотят улучшение.
- Отдельно задают набор guardrail-метрик с допустимыми порогами или допустимым ухудшением.
- После запуска эксперимента сравнивают вариант с контролем по всем метрикам.
- Если основная метрика улучшилась, а guardrail-метрики не вышли за лимиты, эксперимент считается безопасным для дальнейшего раската.
- Если хотя бы одна guardrail-метрика деградирует сильнее допустимого порога, результат блокируют или отправляют на доработку.
Ключевые моменты:
- Guardrail metrics защищают от локальной оптимизации ценой ухудшения пользовательского опыта или стабильности системы.
- Это не target metric, а именно контроль безопасности и качества.
- Обычно их выбирают из метрик latency, error rate, crash rate, retention, complaints, revenue leakage и похожих.
- У guardrail-метрик должны быть понятные пороги: абсолютные или относительные.
- В ML/AI guardrail важны не только для качества модели, но и для риска, fairness, токсичности, стабильности и стоимости инференса.