Sobes.tech
Назад к вопросам
Middle
9

Как изменится ROC AUC при дублировании положительных и отрицательных объектов и почему?

Компании, где спрашивали
AvitoAvito

Ответ от нейросети

sobes.tech AI

Что хотят услышать интервьюеры:

ROC AUC не изменится при дублировании объектов, если дублируются и положительные, и отрицательные примеры без изменения их относительных рангов. Метрика зависит от порядка скорингов между классами, а не от количества одинаковых копий. Дублирование одинаково влияет на все пары «положительный–отрицательный», поэтому отношение сохраняется.

Определение:

ROC AUC — это вероятность того, что случайно выбранный положительный объект получит больший score, чем случайно выбранный отрицательный. Эквивалентно, это площадь под ROC-кривой. Метрика ранговая, поэтому чувствительна к перестановке объектов по score, но не к простому повторению одинаковых объектов.

Если каждый положительный и отрицательный объект продублировать одинаковое число раз, число пар увеличится, но доля правильно упорядоченных пар останется той же. Поэтому ROC AUC не меняется.

Пример использования:

Допустим, модель выдала следующие оценки:

y_true = [1, 1, 0, 0]
y_score = [0.9, 0.7, 0.8, 0.1]

Пары положительный–отрицательный:

  • 0.9 > 0.8 — верно
  • 0.9 > 0.1 — верно
  • 0.7 > 0.8 — неверно
  • 0.7 > 0.1 — верно

Итого 3 из 4 пар упорядочены правильно, AUC = 0.75.

Если продублировать все объекты:

y_true = [1, 1, 0, 0, 1, 1, 0, 0]
y_score = [0.9, 0.7, 0.8, 0.1, 0.9, 0.7, 0.8, 0.1]

Теперь пар больше, но доля правильных сравнений останется 0.75, значит ROC AUC не изменится.

Пояснение кода:

Код не требуется. Логика на шаги:

  1. ROC AUC считает качество через сравнение scores положительных и отрицательных объектов.
  2. При дублировании каждый исходный объект просто появляется несколько раз.
  3. Для каждой исходной пары «положительный–отрицательный» возникают одинаковые копии пар.
  4. Количество успешных и неуспешных сравнений увеличивается пропорционально.
  5. Отношение успешных сравнений ко всем сравнениям остаётся прежним, значит AUC не меняется.

Ключевые моменты:

  • ROC AUC — ранговая метрика, она зависит от порядка scores, а не от размера выборки.
  • При одинаковом дублировании положительных и отрицательных объектов AUC сохраняется.
  • Если дублировать только один класс, можно изменить AUC, потому что изменится вес пар.
  • Совпадение scores и изменение tie-handling могут влиять на численное значение, но простое симметричное дублирование — нет.
  • Это важное свойство делает ROC AUC устойчивой к повторению одинаковых наблюдений.