Sobes.tech
Назад к вопросам
Senior
12

Что такое document length normalization?

Компании, где спрашивали
нетология
СамокатСамокат

Ответ от нейросети

sobes.tech AI

Что хотят услышать интервьюеры:

Document length normalization — это способ учесть, что длинные документы чаще содержат больше слов и потому могут получать необоснованное преимущество в поиске. Идея в том, чтобы не сравнивать документы по “сырому” совпадению терминов, а корректировать вес с учётом длины. Обычно это часть ранжирования в информационном поиске, например в BM25.

Определение:

Document length normalization — это нормализация оценки документа по его длине, чтобы длинные тексты не выигрывали только за счёт большего количества слов. В поисковых системах это помогает сделать сравнение документов более справедливым: одинаковое число вхождений термина в коротком и длинном документе должно влиять на релевантность по-разному. Часто нормализация реализуется через штраф за длину документа или деление на функцию от длины.

Пример использования:

Допустим, запрос содержит слово “distributed”, и есть два документа: короткая заметка на 100 слов и статья на 2000 слов. Если в обоих словосочетание встречается по одному разу, без нормализации длинная статья может получить более высокий балл просто потому, что в ней больше текста. С нормализацией короткий документ может оказаться релевантнее, если совпадение в нём более “плотное”.

Документ A: 100 слов, "distributed" встречается 1 раз
Документ B: 2000 слов, "distributed" встречается 1 раз

Без нормализации:
- оба могут выглядеть одинаково или B может быть даже выше из-за большего текста

С нормализацией:
- вклад совпадения в A будет выше
- вклад совпадения в B будет уменьшен из-за большой длины

Пояснение кода:

Код не требуется, так как это концепция ранжирования, а не конкретный API. Если разложить пример по шагам, то логика такая: сначала система считает, насколько документ совпадает с запросом по терминам; затем корректирует этот счёт в зависимости от длины документа; после этого сравнивает итоговые оценки между документами и выбирает более релевантный. На практике это помогает избегать ситуации, когда “мусорный” длинный документ ранжируется выше качественного короткого.

Ключевые моменты:

  • Нормализация длины нужна, чтобы убрать перекос в пользу длинных документов.
  • Она учитывает не только факт совпадения термина, но и плотность этого совпадения.
  • Используется в классических IR-моделях, особенно в BM25.
  • Слишком сильная нормализация может несправедливо занизить длинные, но действительно релевантные документы.
  • Хорошая схема нормализации — это компромисс между полнотой текста и концентрацией релевантных терминов.