Sobes.tech
Назад к вопросам
Senior
12

Какие метрики оценки качества аудио-генерации (FAD, MOS)?

Компании, где спрашивали
Yandex Research

Ответ от нейросети

sobes.tech AI

Что хотят услышать интервьюеры:

Для аудио-генерации обычно смотрят на две группы метрик: автоматические и субъективные. FAD показывает, насколько сгенерированный аудиоконтент близок к реальному по распределению признаков, а MOS отражает, как люди оценивают качество на слух. На практике хорошая модель должна иметь низкий FAD и высокий MOS, но одной метрики недостаточно.

Определение:

FAD (Fréchet Audio Distance) — это автоматическая метрика, которая сравнивает распределения признаков у реального и сгенерированного аудио. Обычно признаки извлекаются предобученной аудиомоделью, после чего считается расстояние между двумя распределениями. Чем меньше FAD, тем ближе генерация к реальным данным.

MOS (Mean Opinion Score) — это средняя субъективная оценка качества, которую дают люди-слушатели. Обычно оценивают натуральность, разборчивость, отсутствие артефактов или общее впечатление по шкале, например от 1 до 5. Чем выше MOS, тем лучше воспринимается аудио.

Пример использования:

Например, при сравнении двух моделей синтеза речи одна дала FAD 1.8 и MOS 3.9, а другая — FAD 1.2 и MOS 4.3. Это означает, что вторая модель и статистически ближе к реальному аудио, и субъективно звучит лучше для людей.

Модель A: FAD = 1.8, MOS = 3.9
Модель B: FAD = 1.2, MOS = 4.3

Вывод: модель B предпочтительнее по обоим критериям.

Пояснение кода:

Код не требуется. В этом примере метрики используются как результат оценки моделей:

  1. Для FAD извлекаются признаки из реальных и сгенерированных аудиофайлов.
  2. Сравниваются их распределения, получается одно число — дистанция.
  3. Для MOS организуется прослушивание людьми и сбор оценок.
  4. Средняя оценка по всем респондентам и есть MOS.
  5. Затем метрики сопоставляются между моделями или версиями одной модели.

Ключевые моменты:

  • FAD — автоматическая метрика, полезна для быстрой и массовой оценки.
  • MOS — субъективная метрика, ближе к реальному восприятию качества человеком.
  • Низкий FAD обычно означает лучшее совпадение с реальными данными.
  • Высокий MOS обычно означает более естественное и приятное звучание.
  • Для аудио-генерации важно использовать обе метрики, потому что автоматическая близость к данным не гарантирует хорошего звучания на слух.
  • На senior-уровне хорошо упомянуть, что метрики стоит дополнять task-specific оценками: разборчивость, сходство тембра, наличие артефактов, точность по музыкальным/фонемным свойствам.