Что такое BLEU и в каких задачах его применяют? Какие есть проблемы у этой метрики?
Answer from AI
sobes.tech AI
Что хотят услышать интервьюеры:
BLEU — это метрика для автоматической оценки качества генерации текста, прежде всего машинного перевода. Она сравнивает ответ модели с одним или несколькими эталонными переводами и измеряет, насколько совпадают n-граммы. При этом BLEU хорошо работает как быстрый ориентир, но не умеет полноценно оценивать смысл, грамматику и допустимые перефразирования.
Определение:
BLEU (Bilingual Evaluation Understudy) — это метрика качества, которая измеряет близость сгенерированного текста к эталонному по совпадению фрагментов слов, обычно n-грамм. Чем больше совпадений и чем меньше «лишних» слов, тем выше оценка. Дополнительно используется штраф за слишком короткие ответы, чтобы модель не получала высокий балл за обрывочные фразы.
BLEU не понимает смысл текста как человек, а лишь сравнивает поверхностное совпадение словосочетаний.
Пример использования:
BLEU применяют в задачах, где есть один или несколько эталонных ответов: машинный перевод, генерация текстов, некоторые задачи суммаризации и диалога. Например, если система переводит фразу на английский, её перевод сравнивают с одним или несколькими качественными переводами экспертов.
Референс: the cat is on the mat
Генерация: the cat sat on the mat
Совпадают многие 1- и 2-граммы, поэтому BLEU будет достаточно высоким,
хотя смысл чуть отличается.
Пояснение кода:
Код не требуется: BLEU обычно считают готовыми библиотеками и анализируют как числовую метрику.
Разбор примера по шагам:
- Берут эталонный текст и текст модели.
- Считают совпадения по n-граммам: сначала по словам, затем по коротким последовательностям слов.
- Считают precision по n-граммам — долю совпавших фрагментов.
- Применяют штраф за слишком короткий ответ.
- Получают итоговый BLEU-score, который обычно лежит в диапазоне от 0 до 1 или до 100 в некоторых реализациях.
Ключевые моменты:
- BLEU особенно популярен в машинном переводе и задачах, где можно сравнить ответ с эталоном.
- Он основан на совпадении n-грамм, а не на понимании смысла.
- Метрика чувствительна к формулировке: хороший по смыслу перефраз может получить низкий BLEU.
- BLEU хуже оценивает грамматику, стиль и семантическую адекватность.
- Для коротких текстов метрика может быть нестабильной из-за малого числа n-грамм.
- Обычно BLEU используют вместе с человеческой оценкой или другими метриками, а не в одиночку.