Какую зависимость между переменными ищет коэффициент корреляции Пирсона?
Ответ от нейросети
sobes.tech AI
Что хотят услышать интервьюеры:
Коэффициент корреляции Пирсона ищет линейную зависимость между двумя количественными переменными. Он показывает, насколько изменения одной переменной связаны с пропорциональными изменениями другой. При этом он не измеряет причинно-следственную связь и плохо описывает нелинейные зависимости.
Определение:
Коэффициент корреляции Пирсона — это числовая мера силы и направления линейной связи между двумя переменными. Его значение лежит в диапазоне от -1 до 1:
1— идеальная прямая линейная связь,-1— идеальная обратная линейная связь,0— линейной связи нет.
Важно, что Пирсон чувствителен именно к линейности: если связь есть, но она нелинейная, коэффициент может быть близок к нулю.
Пример использования:
Например, можно проверить связь между ростом человека и массой тела. Обычно при увеличении роста масса тоже растёт, и Пирсон может показать положительную корреляцию.
import numpy as np
from scipy.stats import pearsonr
height = np.array([160, 170, 180, 190])
weight = np.array([55, 65, 78, 90])
r, p_value = pearsonr(height, weight)
print(r) # коэффициент корреляции
print(p_value) # значимость связи
Пояснение кода:
В примере задаются два массива с наблюдениями: рост и вес.
Функция pearsonr вычисляет коэффициент корреляции Пирсона и p-value.
Если r близок к 1, это означает сильную положительную линейную связь: чем больше рост, тем больше вес.
Если r близок к -1, связь была бы обратной: одна переменная растёт, а другая уменьшается.
p_value помогает понять, насколько статистически значим полученный результат.
Ключевые моменты:
- Пирсон измеряет только линейную связь между двумя переменными.
- Значение коэффициента лежит в диапазоне от -1 до 1.
- Знак коэффициента показывает направление связи, модуль — силу.
- Корреляция не означает причинность.
- Коэффициент чувствителен к выбросам.
- Для нелинейных зависимостей Пирсон может быть неинформативен.