Что такое selection bias в click logs?
Answer from AI
sobes.tech AI
Что хотят услышать интервьюеры:
Selection bias в click logs — это смещение данных из-за того, что клики наблюдаются не случайно, а только в результате показанных пользователю результатов и его поведения. Из-за этого лог кликов не является нейтральной выборкой интересов пользователей. Интерпретировать такие данные как «истинную релевантность» нельзя без поправок на позицию, экспозицию и другие факторы показа.
Определение:
Selection bias в click logs — это систематическое искажение, возникающее потому, что в логи попадают только те документы, которые были показаны пользователю, и только те события, которые произошли при конкретном ранжировании, интерфейсе и контексте выдачи. В результате вероятность клика зависит не только от качества/релевантности документа, но и от того, был ли он замечен, на какой позиции стоял, был ли вообще показан и насколько пользователь склонен к кликам.
Пример использования:
В поиске верхние позиции получают больше кликов не только потому, что они лучше, но и потому, что их чаще видят. Если обучить ранжирование на сырых click logs без учета этого эффекта, модель может переоценить документы с высокими позициями и недооценить действительно релевантные, но редко показываемые результаты.
Сценарий:
1. Пользователь вводит запрос.
2. Система показывает 10 результатов.
3. Пользователь видит в основном первые 3–4 позиции.
4. Кликает один из них.
5. В лог попадает только факт клика по показанному результату.
Проблема:
- Документы ниже по списку могли быть релевантны, но их просто не заметили.
- Отсутствие клика не означает нерелевантность.
- Если использовать такие логи как обучающую выборку без коррекции, модель будет учиться на смещённых данных.
Пояснение кода:
Код не требуется: здесь важно понимать источник смещения и как он влияет на обучение и оценку. На практике проблему разбирают так: сначала фиксируют, что наблюдаемые клики зависят от экспозиции и позиции, затем отделяют вероятность показа от вероятности клика, и только после этого используют данные для обучения или анализа.
Шаги на примере поиска:
- Система ранжирует документы и показывает их пользователю.
- Только показанные документы могут быть кликнуты.
- Пользователь чаще кликает верхние позиции из-за внимательности и привычки.
- В логах появляется больше кликов на верхних местах, даже если качество документов одинаковое.
- Если не учитывать это смещение, модель начинает путать «видимость» с «релевантностью».
Ключевые моменты:
- Click logs — это не случайная выборка, а результат конкретного ранжирования и поведения пользователя.
- Selection bias возникает из-за того, что наблюдаются только показанные и замеченные элементы.
- Нулевой клик не равен нерелевантности: причина может быть в отсутствии просмотра.
- Особенно сильно смещение проявляется в search и IR из-за position bias и exposure bias.
- Для борьбы используют методы коррекции: propensity weighting, counterfactual learning, randomization/эксперименты.
- Без учета selection bias модель ранжирования может закреплять прошлые ошибки и популярность вместо релевантности.