Middle
55
questionbank

Что такое обратная утечка (back leakage)?

Получайте ответы на вопросы в реальном времени с Sobes Copilot
Ответ от нейросети sobes.tech

Обратная утечка (back leakage) в контексте машинного обучения и тестов качества данных — это ситуация, когда информация, относящаяся к будущему, попадает в модель или тестовые данные, предназначенные для обучения или проверки на прошлых данных. Это приводит к нереалистично завышенной производительности модели на тестовых данных, так как модель, по сути, "подсматривает" ответы из будущего.

Примеры обратной утечки:

  • Временные ряды: Включение будущих значений временного ряда (например, цены акций завтра) в фичи или метки для обучения модели, которая должна предсказывать прошлое или настоящее.
  • Утечка из тестового набора в обучающий: Случайное попадание данных из тестового набора в обучающий набор, или использование информации из тестового набора при обработке обучающего набора (например, масштабирование фичей на основе статистики всего набора данных, включая тестовый).
  • Генерация фичей: Создание фичей на основе данных, собранных после момента времени, для которого производится предсказание.

Последствия обратной утечки:

  • Нереалистичные метрики производительности на тестовых данных.
  • Плохая производительность модели в реальных условиях (при применении к новым, будущим данным).
  • Неправильные выводы о качестве модели.

Предотвращение обратной утечки является критически важным для построения надежных моделей и проведения корректных тестов.