Sobes.tech
Back to questions
Senior
9

Что такое MT-Bench и как считается оценка?

Companies where asked
Автомакон

Answer from AI

sobes.tech AI

Что хотят услышать интервьюеры:

MT-Bench — это бенчмарк для оценки качества LLM в формате многоходового диалога. Он проверяет не только знание фактов, но и умение следовать инструкции, держать контекст и отвечать в стиле, близком к реальному чату. Итоговая оценка обычно строится на сравнении ответов модели с эталоном или с ответами других моделей, а затем агрегируется по набору задач и раундов.

Определение:

MT-Bench — это набор сложных многораундовых задач для оценки больших языковых моделей через диалог. Он предназначен для проверки того, насколько модель полезна в разговоре: понимает ли контекст, корректно ли следует запросу, умеет ли рассуждать и сохранять качество ответа на нескольких шагах.

Оценка в MT-Bench обычно считается не одной метрикой, а агрегированием оценок по множеству диалогов и вопросов. В классическом подходе ответы модели оценивает более сильная модель-судья или система сравнения, после чего баллы усредняются по категориям и всем задачам. Часто рассматривают как общий score, так и разбивку по типам навыков.

Пример использования:

MT-Bench используют, когда нужно сравнить две LLM перед релизом или выбрать модель для чат-бота. Например, одна модель лучше отвечает на краткие factual-вопросы, а другая стабильнее ведёт длинный диалог и меньше теряет контекст. MT-Bench помогает увидеть разницу именно в разговорном качестве.

Диалог 1:
Пользователь: Объясни, чем отличается Python list от tuple.
Модель: ...

Диалог 2:
Пользователь: А если в list хранить объекты, как это влияет на изменяемость?
Модель: ...

Судья оценивает каждый ответ по критериям:
- корректность
- полнота
- следование инструкции
- связность с предыдущими сообщениями

Итоговый MT-Bench score = среднее по всем диалогам и раундам

Пояснение кода:

Код не требуется. Здесь важнее понять схему расчёта оценки.

  1. Берётся фиксированный набор диалоговых задач.
  2. Для каждой задачи модель генерирует ответ в одном или нескольких раундах.
  3. Каждый ответ оценивается по заранее заданным критериям.
  4. Оценки по раундам и задачам агрегируются, обычно через среднее.
  5. Если используется pairwise-оценка, ответы сравниваются с ответами другой модели, а затем результаты сводятся в общий score.

Ключевые моменты:

  • MT-Bench измеряет качество LLM именно в формате многотурового диалога.
  • Он оценивает не только factual correctness, но и instruction following, reasoning и контекстную устойчивость.
  • Итоговый score обычно получается агрегацией оценок по множеству задач, а не одной проверкой.
  • Часто используется модель-судья или pairwise comparison, а не только ручная оценка.
  • Для собеседования важно понимать, что MT-Bench ближе к реальному пользовательскому сценарию, чем одиночные QA-бенчмарки.