Что такое image captioning и какие метрики его оценивают (CIDEr)?
Ответ от нейросети
sobes.tech AI
Что хотят услышать интервьюеры:
Image captioning — это задача, где модель по изображению генерирует связанное текстовое описание. Обычно ожидают понимание, что это мультимодальная задача: нужно извлечь визуальные признаки и превратить их в язык. Также важно знать, что качество оценивают не только по точному совпадению слов, но и по близости смысла к нескольким эталонным подписям.
Определение:
Image captioning — это автоматическое построение текстового описания изображения. На вход подаётся картинка, на выходе — фраза или предложение, описывающее её содержимое, например «человек едет на велосипеде по улице».
Обычно такие системы состоят из двух частей: визуального энкодера, который извлекает признаки из изображения, и текстового декодера, который генерирует последовательность слов. Это классическая задача на стыке computer vision и NLP.
CIDEr — одна из метрик качества captioning. Она измеряет, насколько сгенерированная подпись похожа на набор эталонных подписей, учитывая не просто совпадение слов, а важность n-грамм через TF-IDF-взвешивание. Это полезно, потому что хорошие подписи могут быть перефразированы, но сохранять тот же смысл.
Пример использования:
Например, в приложении для людей с нарушением зрения модель может автоматически описывать сцену с камеры: «на столе стоит чашка и лежит книга». Для такой системы важно, чтобы описание было не только грамматически корректным, но и содержательно точным.
# Упрощённый пример идеи pipeline для image captioning
image -> visual_encoder -> feature_vector -> text_decoder -> generated_caption
Пояснение кода:
Код здесь не требуется, потому что задача описывается концептуально. В примере выше цепочка работает так: изображение сначала превращается в числовые признаки, затем декодер по этим признакам по одному слову генерирует текст подписи.
Если оценивать результат, у модели есть предсказанная подпись и несколько reference captions. Метрика CIDEr сравнивает их по n-граммам, взвешенным по TF-IDF, чтобы редкие и информативные фразы влияли сильнее, чем часто встречающиеся слова вроде «на», «и», «человек».
Ключевые моменты:
- Image captioning — это генерация текстового описания по изображению.
- Типичная архитектура: CNN/ViT-энкодер для изображения + текстовый декодер для генерации.
- Задача мультимодальная: объединяет зрительное понимание и языковую генерацию.
- CIDEr оценивает сходство с эталонными подписями через TF-IDF-взвешенные n-граммы.
- CIDEr лучше обычного exact match, потому что допускает перефразирование.
- На практике часто используют несколько метрик вместе, чтобы оценка была более устойчивой.