Что такое document length normalization?
Ответ от нейросети
sobes.tech AI
Что хотят услышать интервьюеры:
Document length normalization — это способ учесть, что длинные документы чаще содержат больше слов и потому могут получать необоснованное преимущество в поиске. Идея в том, чтобы не сравнивать документы по “сырому” совпадению терминов, а корректировать вес с учётом длины. Обычно это часть ранжирования в информационном поиске, например в BM25.
Определение:
Document length normalization — это нормализация оценки документа по его длине, чтобы длинные тексты не выигрывали только за счёт большего количества слов. В поисковых системах это помогает сделать сравнение документов более справедливым: одинаковое число вхождений термина в коротком и длинном документе должно влиять на релевантность по-разному. Часто нормализация реализуется через штраф за длину документа или деление на функцию от длины.
Пример использования:
Допустим, запрос содержит слово “distributed”, и есть два документа: короткая заметка на 100 слов и статья на 2000 слов. Если в обоих словосочетание встречается по одному разу, без нормализации длинная статья может получить более высокий балл просто потому, что в ней больше текста. С нормализацией короткий документ может оказаться релевантнее, если совпадение в нём более “плотное”.
Документ A: 100 слов, "distributed" встречается 1 раз
Документ B: 2000 слов, "distributed" встречается 1 раз
Без нормализации:
- оба могут выглядеть одинаково или B может быть даже выше из-за большего текста
С нормализацией:
- вклад совпадения в A будет выше
- вклад совпадения в B будет уменьшен из-за большой длины
Пояснение кода:
Код не требуется, так как это концепция ранжирования, а не конкретный API. Если разложить пример по шагам, то логика такая: сначала система считает, насколько документ совпадает с запросом по терминам; затем корректирует этот счёт в зависимости от длины документа; после этого сравнивает итоговые оценки между документами и выбирает более релевантный. На практике это помогает избегать ситуации, когда “мусорный” длинный документ ранжируется выше качественного короткого.
Ключевые моменты:
- Нормализация длины нужна, чтобы убрать перекос в пользу длинных документов.
- Она учитывает не только факт совпадения термина, но и плотность этого совпадения.
- Используется в классических IR-моделях, особенно в BM25.
- Слишком сильная нормализация может несправедливо занизить длинные, но действительно релевантные документы.
- Хорошая схема нормализации — это компромисс между полнотой текста и концентрацией релевантных терминов.