Какие метрики оценки качества аудио-генерации (FAD, MOS)?
Answer from AI
sobes.tech AI
Что хотят услышать интервьюеры:
Для аудио-генерации обычно смотрят на две группы метрик: автоматические и субъективные. FAD показывает, насколько сгенерированный аудиоконтент близок к реальному по распределению признаков, а MOS отражает, как люди оценивают качество на слух. На практике хорошая модель должна иметь низкий FAD и высокий MOS, но одной метрики недостаточно.
Определение:
FAD (Fréchet Audio Distance) — это автоматическая метрика, которая сравнивает распределения признаков у реального и сгенерированного аудио. Обычно признаки извлекаются предобученной аудиомоделью, после чего считается расстояние между двумя распределениями. Чем меньше FAD, тем ближе генерация к реальным данным.
MOS (Mean Opinion Score) — это средняя субъективная оценка качества, которую дают люди-слушатели. Обычно оценивают натуральность, разборчивость, отсутствие артефактов или общее впечатление по шкале, например от 1 до 5. Чем выше MOS, тем лучше воспринимается аудио.
Пример использования:
Например, при сравнении двух моделей синтеза речи одна дала FAD 1.8 и MOS 3.9, а другая — FAD 1.2 и MOS 4.3. Это означает, что вторая модель и статистически ближе к реальному аудио, и субъективно звучит лучше для людей.
Модель A: FAD = 1.8, MOS = 3.9
Модель B: FAD = 1.2, MOS = 4.3
Вывод: модель B предпочтительнее по обоим критериям.
Пояснение кода:
Код не требуется. В этом примере метрики используются как результат оценки моделей:
- Для FAD извлекаются признаки из реальных и сгенерированных аудиофайлов.
- Сравниваются их распределения, получается одно число — дистанция.
- Для MOS организуется прослушивание людьми и сбор оценок.
- Средняя оценка по всем респондентам и есть MOS.
- Затем метрики сопоставляются между моделями или версиями одной модели.
Ключевые моменты:
- FAD — автоматическая метрика, полезна для быстрой и массовой оценки.
- MOS — субъективная метрика, ближе к реальному восприятию качества человеком.
- Низкий FAD обычно означает лучшее совпадение с реальными данными.
- Высокий MOS обычно означает более естественное и приятное звучание.
- Для аудио-генерации важно использовать обе метрики, потому что автоматическая близость к данным не гарантирует хорошего звучания на слух.
- На senior-уровне хорошо упомянуть, что метрики стоит дополнять task-specific оценками: разборчивость, сходство тембра, наличие артефактов, точность по музыкальным/фонемным свойствам.