Sobes.tech
Back to questions
Middle
9

Какие метрики использовать для оценки новой модели при выкатывании на пилотную группу?

Companies where asked
СБЕРСБЕР

Answer from AI

sobes.tech AI

Что хотят услышать интервьюеры:

Для пилотной выкладки обычно смотрят не на одну метрику, а на набор: бизнес-метрику, качество модели и метрики стабильности. Важно сравнивать пилот с контролем и заранее определить критерий успеха и условия остановки. Если модель влияет на пользователей, отдельно проверяют ошибки, латентность, конверсию и негативные эффекты.

Определение:

При выкатывании новой модели на пилотную группу используют метрики, которые показывают одновременно качество предсказаний и влияние на продукт. Обычно это комбинация офлайн-метрик модели, онлайн-метрик бизнеса, технических метрик и guardrail-метрик, которые защищают от ухудшений.

  • Офлайн-метрики: accuracy, precision/recall, F1, ROC-AUC, RMSE, MAE — помогают проверить, что модель в принципе работает лучше базовой.
  • Онлайн-бизнес-метрики: конверсия, выручка, CTR, удержание, средний чек, время до действия — показывают реальную пользу.
  • Технические метрики: latency, throughput, error rate, доля таймаутов — важны для качества сервиса.
  • Guardrail-метрики: жалобы, отказы, возвраты, рост ошибок, fairness/смещения — нужны, чтобы не ухудшить продукт в других аспектах.

Пример использования:

Допустим, выкатывают модель ранжирования рекомендаций на 10% пользователей. Основной метрикой выбирают CTR по рекомендациям, дополнительной — конверсию в покупку, а guardrail-метриками — latency и количество жалоб. Пилот сравнивают с контрольной группой и принимают решение о масштабировании, если CTR и конверсия выросли, а технические и негативные метрики не ухудшились.

Пилотная группа:
- CTR = 8.4%
- Конверсия = 2.1%
- Latency p95 = 120 ms
- Жалобы = без роста

Контрольная группа:
- CTR = 7.6%
- Конверсия = 1.9%
- Latency p95 = 118 ms
- Жалобы = без изменений

Вывод:
модель даёт прирост по бизнес-метрикам без деградации по guardrail-метрикам

Пояснение кода:

Код не требуется. В этом вопросе важно не написание алгоритма, а логика оценки пилота по нескольким группам метрик.

Шаги обычно такие:

  1. Определить целевую бизнес-метрику, ради которой модель внедряют.
  2. Добавить офлайн-метрики, чтобы подтвердить качество самой модели.
  3. Добавить технические guardrail-метрики, чтобы не сломать систему.
  4. Запустить A/B или пилот на части аудитории.
  5. Сравнить пилот с контролем и смотреть не только на среднее значение, но и на статистическую значимость, сегменты и стабильность во времени.
  6. Принять решение: масштабировать, доработать или откатить.

Ключевые моменты:

  • Не ограничиваться одной метрикой: нужна связка из quality, business и guardrail.
  • Выбирать метрики в зависимости от задачи: классификация, ранжирование, прогнозирование, генерация.
  • Основная метрика должна отражать бизнес-цель, а не только ML-качество.
  • Обязательно сравнивать пилот с контрольной группой, а не с историческими данными вслепую.
  • Следить за деградацией по latency, ошибкам, жалобам и другим побочным эффектам.
  • Решение о rollout должно опираться на заранее заданные пороги успеха и риски, а не на одну удачную цифру.