Sobes.tech
Назад к вопросам
Senior
10

Что такое image captioning и какие метрики его оценивают (CIDEr)?

Компании, где спрашивали
Тензор

Ответ от нейросети

sobes.tech AI

Что хотят услышать интервьюеры:

Image captioning — это задача, где модель по изображению генерирует связанное текстовое описание. Обычно ожидают понимание, что это мультимодальная задача: нужно извлечь визуальные признаки и превратить их в язык. Также важно знать, что качество оценивают не только по точному совпадению слов, но и по близости смысла к нескольким эталонным подписям.

Определение:

Image captioning — это автоматическое построение текстового описания изображения. На вход подаётся картинка, на выходе — фраза или предложение, описывающее её содержимое, например «человек едет на велосипеде по улице».

Обычно такие системы состоят из двух частей: визуального энкодера, который извлекает признаки из изображения, и текстового декодера, который генерирует последовательность слов. Это классическая задача на стыке computer vision и NLP.

CIDEr — одна из метрик качества captioning. Она измеряет, насколько сгенерированная подпись похожа на набор эталонных подписей, учитывая не просто совпадение слов, а важность n-грамм через TF-IDF-взвешивание. Это полезно, потому что хорошие подписи могут быть перефразированы, но сохранять тот же смысл.

Пример использования:

Например, в приложении для людей с нарушением зрения модель может автоматически описывать сцену с камеры: «на столе стоит чашка и лежит книга». Для такой системы важно, чтобы описание было не только грамматически корректным, но и содержательно точным.

# Упрощённый пример идеи pipeline для image captioning
image -> visual_encoder -> feature_vector -> text_decoder -> generated_caption

Пояснение кода:

Код здесь не требуется, потому что задача описывается концептуально. В примере выше цепочка работает так: изображение сначала превращается в числовые признаки, затем декодер по этим признакам по одному слову генерирует текст подписи.

Если оценивать результат, у модели есть предсказанная подпись и несколько reference captions. Метрика CIDEr сравнивает их по n-граммам, взвешенным по TF-IDF, чтобы редкие и информативные фразы влияли сильнее, чем часто встречающиеся слова вроде «на», «и», «человек».

Ключевые моменты:

  • Image captioning — это генерация текстового описания по изображению.
  • Типичная архитектура: CNN/ViT-энкодер для изображения + текстовый декодер для генерации.
  • Задача мультимодальная: объединяет зрительное понимание и языковую генерацию.
  • CIDEr оценивает сходство с эталонными подписями через TF-IDF-взвешенные n-граммы.
  • CIDEr лучше обычного exact match, потому что допускает перефразирование.
  • На практике часто используют несколько метрик вместе, чтобы оценка была более устойчивой.