Что такое p-value?
Ответ от нейросети
sobes.tech AI
Что хотят услышать интервьюеры:
p-value — это вероятность получить наблюдаемый результат или более экстремальный при условии, что нулевая гипотеза верна. Низкое p-value говорит, что данные плохо согласуются с нулевой гипотезой. Это не вероятность того, что гипотеза верна или неверна.
Определение:
p-value — это статистическая мера, которая помогает оценить, насколько наблюдаемые данные совместимы с нулевой гипотезой. Если предположить, что нулевая гипотеза верна, p-value показывает, как часто могли бы возникнуть такие же или более сильные отклонения от ожидаемого результата.
Важно не путать p-value с вероятностью гипотезы. Оно не говорит, насколько гипотеза истинна, а лишь насколько необычны данные при допущении, что она верна.
Пример использования:
Допустим, проверяется новая модель рекомендаций: есть старая версия и новая, и сравнивается средний CTR.
H0: CTR новой версии не отличается от старой
H1: CTR новой версии отличается от старой
После A/B-теста получили p-value = 0.03
Это означает: если бы между версиями реально не было разницы, то вероятность увидеть такое или более сильное различие в CTR составила бы 3%. При пороге значимости 0.05 нулевая гипотеза обычно отклоняется.
Пояснение кода:
Код не требуется. На практике p-value получают через статистический тест, например t-test, z-test или chi-square test.
Разбор примера по шагам:
- Формулируется нулевая гипотеза: различий нет.
- Собираются данные из эксперимента.
- Выбирается статистический тест в зависимости от типа данных.
- Тест вычисляет p-value.
- Если p-value меньше заранее выбранного уровня значимости, гипотеза отвергается.
Ключевые моменты:
- p-value — это вероятность данных при условии, что нулевая гипотеза верна.
- Малое p-value указывает на то, что данные плохо объясняются нулевой гипотезой.
- p-value не является вероятностью истинности гипотезы.
- Порог значимости часто выбирают как 0.05, но он зависит от задачи.
- Само по себе p-value не измеряет размер эффекта и практическую значимость.
- В ML и анализе данных p-value часто используют в A/B-тестах и проверке статистической значимости признаков.