Что такое DiD (difference-in-differences)?
Ответ от нейросети
sobes.tech AI
Что хотят услышать интервьюеры:
DiD — это метод оценки причинного эффекта, когда есть две группы и два периода времени: до и после воздействия. Он измеряет не просто изменение в тестовой группе, а разницу этих изменений относительно контрольной группы. Это помогает частично убрать влияние общих внешних трендов.
Определение:
Difference-in-differences (DiD) — это квазиэкспериментальный метод для оценки влияния вмешательства, если нельзя провести рандомизированный эксперимент. Идея в том, что эффект равен разнице между изменением метрики в группе, на которую повлияло событие, и изменением той же метрики в контрольной группе за тот же период.
Формально:
[ DiD = (Y_{treat, after} - Y_{treat, before}) - (Y_{ctrl, after} - Y_{ctrl, before}) ]
Метод опирается на предположение о параллельных трендах: без вмешательства обе группы изменялись бы одинаково.
Пример использования:
Допустим, в одном регионе запустили новую скидочную программу, а в другом — нет. Нужно понять, выросли ли продажи именно из-за программы, а не из-за сезонного спроса.
Регион A (treat):
до: 100
после: 130
Регион B (ctrl):
до: 90
после: 105
DiD = (130 - 100) - (105 - 90) = 30 - 15 = 15
Интерпретация: программа дала дополнительный прирост продаж примерно на 15 единиц сверх общего роста, который наблюдался и без нее.
Пояснение кода:
Код не требуется. На практике DiD обычно считают так:
- Выбирают целевую группу, на которую повлияло событие.
- Подбирают контрольную группу, похожую по динамике до вмешательства.
- Считают среднее значение метрики до и после в обеих группах.
- Вычисляют разницу изменений между группами.
- Проверяют, что до вмешательства тренды были близкими, иначе оценка может быть смещена.
Ключевые моменты:
- DiD оценивает именно инкрементальный эффект вмешательства, а не просто изменение метрики.
- Главная предпосылка — параллельные тренды между treated и control без воздействия.
- Метод полезен, когда нельзя сделать A/B-тест, но есть естественный эксперимент или исторические данные.
- DiD хорошо работает для uplift-задач и анализа продуктовых/маркетинговых изменений.
- Если контрольная группа выбрана плохо или тренды до события различались, результат может быть некорректным.
- Часто DiD расширяют на несколько периодов и признаков через регрессионные модели с фиксированными эффектами.