Что такое MT-Bench и как считается оценка?
Answer from AI
sobes.tech AI
Что хотят услышать интервьюеры:
MT-Bench — это бенчмарк для оценки качества LLM в формате многоходового диалога. Он проверяет не только знание фактов, но и умение следовать инструкции, держать контекст и отвечать в стиле, близком к реальному чату. Итоговая оценка обычно строится на сравнении ответов модели с эталоном или с ответами других моделей, а затем агрегируется по набору задач и раундов.
Определение:
MT-Bench — это набор сложных многораундовых задач для оценки больших языковых моделей через диалог. Он предназначен для проверки того, насколько модель полезна в разговоре: понимает ли контекст, корректно ли следует запросу, умеет ли рассуждать и сохранять качество ответа на нескольких шагах.
Оценка в MT-Bench обычно считается не одной метрикой, а агрегированием оценок по множеству диалогов и вопросов. В классическом подходе ответы модели оценивает более сильная модель-судья или система сравнения, после чего баллы усредняются по категориям и всем задачам. Часто рассматривают как общий score, так и разбивку по типам навыков.
Пример использования:
MT-Bench используют, когда нужно сравнить две LLM перед релизом или выбрать модель для чат-бота. Например, одна модель лучше отвечает на краткие factual-вопросы, а другая стабильнее ведёт длинный диалог и меньше теряет контекст. MT-Bench помогает увидеть разницу именно в разговорном качестве.
Диалог 1:
Пользователь: Объясни, чем отличается Python list от tuple.
Модель: ...
Диалог 2:
Пользователь: А если в list хранить объекты, как это влияет на изменяемость?
Модель: ...
Судья оценивает каждый ответ по критериям:
- корректность
- полнота
- следование инструкции
- связность с предыдущими сообщениями
Итоговый MT-Bench score = среднее по всем диалогам и раундам
Пояснение кода:
Код не требуется. Здесь важнее понять схему расчёта оценки.
- Берётся фиксированный набор диалоговых задач.
- Для каждой задачи модель генерирует ответ в одном или нескольких раундах.
- Каждый ответ оценивается по заранее заданным критериям.
- Оценки по раундам и задачам агрегируются, обычно через среднее.
- Если используется pairwise-оценка, ответы сравниваются с ответами другой модели, а затем результаты сводятся в общий score.
Ключевые моменты:
- MT-Bench измеряет качество LLM именно в формате многотурового диалога.
- Он оценивает не только factual correctness, но и instruction following, reasoning и контекстную устойчивость.
- Итоговый score обычно получается агрегацией оценок по множеству задач, а не одной проверкой.
- Часто используется модель-судья или pairwise comparison, а не только ручная оценка.
- Для собеседования важно понимать, что MT-Bench ближе к реальному пользовательскому сценарию, чем одиночные QA-бенчмарки.