Sobes.tech
Back to questions
Middle
24

Что такое p-value?

Companies where asked
филиппинский банк Salmon
ДомкликДомклик

Answer from AI

sobes.tech AI

Что хотят услышать интервьюеры:

p-value — это вероятность получить наблюдаемый результат или более экстремальный при условии, что нулевая гипотеза верна. Низкое p-value говорит, что данные плохо согласуются с нулевой гипотезой. Это не вероятность того, что гипотеза верна или неверна.

Определение:

p-value — это статистическая мера, которая помогает оценить, насколько наблюдаемые данные совместимы с нулевой гипотезой. Если предположить, что нулевая гипотеза верна, p-value показывает, как часто могли бы возникнуть такие же или более сильные отклонения от ожидаемого результата.

Важно не путать p-value с вероятностью гипотезы. Оно не говорит, насколько гипотеза истинна, а лишь насколько необычны данные при допущении, что она верна.

Пример использования:

Допустим, проверяется новая модель рекомендаций: есть старая версия и новая, и сравнивается средний CTR.

H0: CTR новой версии не отличается от старой
H1: CTR новой версии отличается от старой

После A/B-теста получили p-value = 0.03

Это означает: если бы между версиями реально не было разницы, то вероятность увидеть такое или более сильное различие в CTR составила бы 3%. При пороге значимости 0.05 нулевая гипотеза обычно отклоняется.

Пояснение кода:

Код не требуется. На практике p-value получают через статистический тест, например t-test, z-test или chi-square test.

Разбор примера по шагам:

  1. Формулируется нулевая гипотеза: различий нет.
  2. Собираются данные из эксперимента.
  3. Выбирается статистический тест в зависимости от типа данных.
  4. Тест вычисляет p-value.
  5. Если p-value меньше заранее выбранного уровня значимости, гипотеза отвергается.

Ключевые моменты:

  • p-value — это вероятность данных при условии, что нулевая гипотеза верна.
  • Малое p-value указывает на то, что данные плохо объясняются нулевой гипотезой.
  • p-value не является вероятностью истинности гипотезы.
  • Порог значимости часто выбирают как 0.05, но он зависит от задачи.
  • Само по себе p-value не измеряет размер эффекта и практическую значимость.
  • В ML и анализе данных p-value часто используют в A/B-тестах и проверке статистической значимости признаков.