Какие метрики оценки качества аудио-генерации (FAD, MOS)?

Companies where asked

Yandex Research

Answer from AI

sobes.tech AI

Для оценки качества аудио-генерации часто используют следующие метрики:

FAD (Fréchet Audio Distance) — метрика, аналогичная FID в изображениях. Она измеряет расстояние между распределениями признаков реальных и сгенерированных аудио, полученных с помощью предобученной модели (например, VGGish). Чем меньше FAD, тем ближе сгенерированное аудио к реальному по восприятию.
MOS (Mean Opinion Score) — субъективная оценка качества аудио, основанная на опросах слушателей. Обычно люди оценивают аудио по шкале от 1 до 5, где 5 — наилучшее качество. MOS считается золотым стандартом, но требует затрат на проведение опросов.

В практике часто комбинируют объективные метрики (FAD) с субъективными (MOS), чтобы получить более полное представление о качестве аудио.