Как изменится ROC AUC при дублировании положительных и отрицательных объектов и почему?
Answer from AI
sobes.tech AI
Что хотят услышать интервьюеры:
ROC AUC не изменится при дублировании объектов, если дублируются и положительные, и отрицательные примеры без изменения их относительных рангов. Метрика зависит от порядка скорингов между классами, а не от количества одинаковых копий. Дублирование одинаково влияет на все пары «положительный–отрицательный», поэтому отношение сохраняется.
Определение:
ROC AUC — это вероятность того, что случайно выбранный положительный объект получит больший score, чем случайно выбранный отрицательный. Эквивалентно, это площадь под ROC-кривой. Метрика ранговая, поэтому чувствительна к перестановке объектов по score, но не к простому повторению одинаковых объектов.
Если каждый положительный и отрицательный объект продублировать одинаковое число раз, число пар увеличится, но доля правильно упорядоченных пар останется той же. Поэтому ROC AUC не меняется.
Пример использования:
Допустим, модель выдала следующие оценки:
y_true = [1, 1, 0, 0]
y_score = [0.9, 0.7, 0.8, 0.1]
Пары положительный–отрицательный:
- 0.9 > 0.8 — верно
- 0.9 > 0.1 — верно
- 0.7 > 0.8 — неверно
- 0.7 > 0.1 — верно
Итого 3 из 4 пар упорядочены правильно, AUC = 0.75.
Если продублировать все объекты:
y_true = [1, 1, 0, 0, 1, 1, 0, 0]
y_score = [0.9, 0.7, 0.8, 0.1, 0.9, 0.7, 0.8, 0.1]
Теперь пар больше, но доля правильных сравнений останется 0.75, значит ROC AUC не изменится.
Пояснение кода:
Код не требуется. Логика на шаги:
- ROC AUC считает качество через сравнение scores положительных и отрицательных объектов.
- При дублировании каждый исходный объект просто появляется несколько раз.
- Для каждой исходной пары «положительный–отрицательный» возникают одинаковые копии пар.
- Количество успешных и неуспешных сравнений увеличивается пропорционально.
- Отношение успешных сравнений ко всем сравнениям остаётся прежним, значит AUC не меняется.
Ключевые моменты:
- ROC AUC — ранговая метрика, она зависит от порядка scores, а не от размера выборки.
- При одинаковом дублировании положительных и отрицательных объектов AUC сохраняется.
- Если дублировать только один класс, можно изменить AUC, потому что изменится вес пар.
- Совпадение scores и изменение tie-handling могут влиять на численное значение, но простое симметричное дублирование — нет.
- Это важное свойство делает ROC AUC устойчивой к повторению одинаковых наблюдений.