Обратная утечка (back leakage) в контексте машинного обучения и тестов качества данных — это ситуация, когда информация, относящаяся к будущему, попадает в модель или тестовые данные, предназначенные для обучения или проверки на прошлых данных. Это приводит к нереалистично завышенной производительности модели на тестовых данных, так как модель, по сути, "подсматривает" ответы из будущего.
Примеры обратной утечки:
- Временные ряды: Включение будущих значений временного ряда (например, цены акций завтра) в фичи или метки для обучения модели, которая должна предсказывать прошлое или настоящее.
- Утечка из тестового набора в обучающий: Случайное попадание данных из тестового набора в обучающий набор, или использование информации из тестового набора при обработке обучающего набора (например, масштабирование фичей на основе статистики всего набора данных, включая тестовый).
- Генерация фичей: Создание фичей на основе данных, собранных после момента времени, для которого производится предсказание.
Последствия обратной утечки:
- Нереалистичные метрики производительности на тестовых данных.
- Плохая производительность модели в реальных условиях (при применении к новым, будущим данным).
- Неправильные выводы о качестве модели.
Предотвращение обратной утечки является критически важным для построения надежных моделей и проведения корректных тестов.