Что такое image captioning и какие метрики его оценивают (CIDEr)?

Компании, где спрашивали

Тензор

Ответ от нейросети

sobes.tech AI

Image captioning — это задача компьютерного зрения и обработки естественного языка, которая заключается в автоматической генерации описания (подписи) к изображению. Модель получает на вход изображение и выдает текст, описывающий его содержимое.

Для оценки качества сгенерированных подписей используются различные метрики, одна из которых — CIDEr (Consensus-based Image Description Evaluation). Она измеряет, насколько сгенерированное описание совпадает с множеством эталонных описаний, учитывая частоту слов и фраз, а также их значимость.

Особенности CIDEr:

Основана на подсчёте n-грамм (обычно от 1 до 4).
Использует TF-IDF взвешивание для учета важности слов.
Высокое значение CIDEr означает, что сгенерированное описание хорошо согласуется с эталонными.

Таким образом, CIDEr помогает объективно оценить качество моделей image captioning, учитывая разнообразие и релевантность описаний.

Предыдущий Следующий