Обратная утечка (back leakage) в контексте машинного обучения и тестов качества данных — это ситуация, когда информация, относящаяся к будущему, попадает в модель или тестовые данные, предназначенные для обучения или проверки на прошлых данных. Это приводит к нереалистично завышенной производительности модели на тестовых данных, так как модель, по сути, "подсматривает" ответы из будущего.

Примеры обратной утечки:

Временные ряды: Включение будущих значений временного ряда (например, цены акций завтра) в фичи или метки для обучения модели, которая должна предсказывать прошлое или настоящее.
Утечка из тестового набора в обучающий: Случайное попадание данных из тестового набора в обучающий набор, или использование информации из тестового набора при обработке обучающего набора (например, масштабирование фичей на основе статистики всего набора данных, включая тестовый).
Генерация фичей: Создание фичей на основе данных, собранных после момента времени, для которого производится предсказание.

Последствия обратной утечки:

Нереалистичные метрики производительности на тестовых данных.
Плохая производительность модели в реальных условиях (при применении к новым, будущим данным).
Неправильные выводы о качестве модели.

Предотвращение обратной утечки является критически важным для построения надежных моделей и проведения корректных тестов.

Что такое обратная утечка (back leakage)?