Sobes.tech
Назад к вопросам
Middle
10

Почему BERT дает лучшее качество на задачах классификации текста, чем TF-IDF с логистической регрессией?

Компании, где спрашивали
СовкомбанкСовкомбанк

Ответ от нейросети

sobes.tech AI

Что хотят услышать интервьюеры:

BERT обычно дает лучшее качество, потому что учитывает контекст слова в предложении, а не только частоты токенов. TF-IDF с логистической регрессией работает с разреженными признаками и плохо понимает семантику и порядок слов. Поэтому на задачах, где важны смысл, полисемия и контекст, BERT чаще выигрывает.

Определение:

TF-IDF превращает текст в вектор по частотам слов с учетом их редкости в корпусе, после чего логистическая регрессия ищет линейную границу между классами. Это сильный и быстрый базовый подход, но он почти не учитывает смысловую связь слов и зависимость от контекста.

BERT — это предобученная языковая модель, которая строит контекстные представления слов и предложения целиком. Она понимает, что одно и то же слово в разных фразах может означать разное, и использует это при классификации.

Пример использования:

Например, для классификации тональности фразы «банк закрыл отделение» TF-IDF может опереться на слова «банк» и «закрыл», но не понять, что речь о финансовой организации в контексте. BERT лучше использует окружение слов и может точнее интерпретировать смысл высказывания.

# Упрощенно:
# 1) TF-IDF -> вектор частот слов -> логистическая регрессия -> класс
# 2) BERT -> контекстные эмбеддинги текста -> классификационная голова -> класс

text = "Этот фильм не просто хороший, а действительно отличный"

# TF-IDF + LogisticRegression:
# признаки = {"хороший": 1, "отличный": 1, ...}
# модель учится по этим признакам

# BERT:
# модель учитывает, что "не просто хороший, а отличный" усиливает позитивную оценку

Пояснение кода:

Код здесь не требуется, потому что речь о сравнении подходов, а не о реализации конкретной функции. Разложение примера по шагам такое: сначала текст превращается в признаки; затем модель классифицирует текст по этим признакам; в случае TF-IDF признаки в основном основаны на частотах слов, а в случае BERT — на контекстном представлении всего предложения. Из-за этого BERT лучше улавливает отрицания, иронию, многозначность слов и смысловые связи.

Ключевые моменты:

  • TF-IDF — это мешок слов с весами, он слабо учитывает порядок и контекст.
  • Логистическая регрессия на TF-IDF хорошо работает как быстрый и сильный baseline.
  • BERT строит контекстные эмбеддинги и лучше понимает семантику текста.
  • BERT особенно полезен, когда важны отрицания, полисемия, длинный контекст и нюансы смысла.
  • У BERT обычно выше качество, но он дороже по вычислениям и сложнее в обучении/инференсе.
  • На маленьких датасетах или при ограниченных ресурсах TF-IDF + логрегрессия может быть разумным выбором.