Sobes.tech
Back to questions
Junior — Middle
10

Что такое BLEU и в каких задачах его применяют? Какие есть проблемы у этой метрики?

Companies where asked
СовкомбанкСовкомбанк
Райффайзенбанк

Answer from AI

sobes.tech AI

Что хотят услышать интервьюеры:

BLEU — это метрика для автоматической оценки качества генерации текста, прежде всего машинного перевода. Она сравнивает ответ модели с одним или несколькими эталонными переводами и измеряет, насколько совпадают n-граммы. При этом BLEU хорошо работает как быстрый ориентир, но не умеет полноценно оценивать смысл, грамматику и допустимые перефразирования.

Определение:

BLEU (Bilingual Evaluation Understudy) — это метрика качества, которая измеряет близость сгенерированного текста к эталонному по совпадению фрагментов слов, обычно n-грамм. Чем больше совпадений и чем меньше «лишних» слов, тем выше оценка. Дополнительно используется штраф за слишком короткие ответы, чтобы модель не получала высокий балл за обрывочные фразы.

BLEU не понимает смысл текста как человек, а лишь сравнивает поверхностное совпадение словосочетаний.

Пример использования:

BLEU применяют в задачах, где есть один или несколько эталонных ответов: машинный перевод, генерация текстов, некоторые задачи суммаризации и диалога. Например, если система переводит фразу на английский, её перевод сравнивают с одним или несколькими качественными переводами экспертов.

Референс:    the cat is on the mat
Генерация:   the cat sat on the mat

Совпадают многие 1- и 2-граммы, поэтому BLEU будет достаточно высоким,
хотя смысл чуть отличается.

Пояснение кода:

Код не требуется: BLEU обычно считают готовыми библиотеками и анализируют как числовую метрику.

Разбор примера по шагам:

  1. Берут эталонный текст и текст модели.
  2. Считают совпадения по n-граммам: сначала по словам, затем по коротким последовательностям слов.
  3. Считают precision по n-граммам — долю совпавших фрагментов.
  4. Применяют штраф за слишком короткий ответ.
  5. Получают итоговый BLEU-score, который обычно лежит в диапазоне от 0 до 1 или до 100 в некоторых реализациях.

Ключевые моменты:

  • BLEU особенно популярен в машинном переводе и задачах, где можно сравнить ответ с эталоном.
  • Он основан на совпадении n-грамм, а не на понимании смысла.
  • Метрика чувствительна к формулировке: хороший по смыслу перефраз может получить низкий BLEU.
  • BLEU хуже оценивает грамматику, стиль и семантическую адекватность.
  • Для коротких текстов метрика может быть нестабильной из-за малого числа n-грамм.
  • Обычно BLEU используют вместе с человеческой оценкой или другими метриками, а не в одиночку.