Sobes.tech
Back to questions
Middle
6

Почему F1-score считается гармоническим средним precision и recall, а не арифметическим?

Companies where asked
ЯндексЯндекс

Answer from AI

sobes.tech AI

Что хотят услышать интервьюеры:

F1-score используют гармоническое среднее, потому что оно сильнее штрафует дисбаланс между precision и recall. Если одна метрика высокая, а другая низкая, F1 остаётся низким, в отличие от арифметического среднего. Это важно, когда нужно, чтобы обе характеристики были одновременно хорошими.

Определение:

F1-score — это агрегированная метрика качества классификации, которая объединяет precision и recall через гармоническое среднее. Формула:
F1 = 2 * (precision * recall) / (precision + recall)

Гармоническое среднее выбирают потому, что оно чувствительно к меньшему из значений. Арифметическое среднее могло бы завышать оценку модели, если одна из метрик проваливается. F1 предназначен именно для случаев, где важен баланс между точностью положительных предсказаний и полнотой обнаружения объектов.

Пример использования:

Например, модель распознаёт редкие мошеннические транзакции.
Если precision = 0.9, а recall = 0.1, арифметическое среднее даст 0.5, что выглядит средне. Но фактически модель почти не находит мошенничество, и это плохо. F1 в таком случае будет около 0.18, то есть честно покажет, что качество низкое.

precision = 0.9
recall = 0.1

F1 = 2 * 0.9 * 0.1 / (0.9 + 0.1) = 0.18
arithmetic_mean = (0.9 + 0.1) / 2 = 0.5

Пояснение кода:

Код не требуется. На примере видно, как F1 реагирует на перекос:

  1. precision высокий — модель редко ошибается, когда говорит «положительный класс».
  2. recall низкий — модель пропускает большинство реальных положительных объектов.
  3. Арифметическое среднее просто усредняет значения и скрывает проблему.
  4. Гармоническое среднее «наказывает» низкое значение сильнее, поэтому итоговый балл резко падает.
  5. Это делает F1 более подходящей метрикой, когда важен именно баланс между precision и recall.

Ключевые моменты:

  • F1 — это не просто среднее, а метрика, чувствительная к дисбалансу между precision и recall.
  • Гармоническое среднее выбирают, потому что оно сильнее снижает итог при низком одном из параметров.
  • Арифметическое среднее может создать ложное впечатление хорошего качества.
  • F1 особенно полезен при несбалансированных классах и когда оба типа ошибок важны.
  • Если нужен упор только на precision или только на recall, F1 может быть не лучшим выбором.