Что такое корреляция?
Корреляция — это статистическая мера, описывающая степень и направление взаимосвязи между двумя количественными переменными. Если две переменные изменяются вместе определённым образом, говорят, что между ними есть корреляция.
Основные аспекты корреляции
1. Типы корреляции по направлению
-
Положительная корреляция (прямая):
-
Значения обеих переменных растут или уменьшаются одновременно.
-
Пример: рост температуры и количество проданных мороженых.
-
-
Отрицательная корреляция (обратная):
-
Одна переменная увеличивается, в то время как другая уменьшается.
-
Пример: количество осадков и количество прогулок на улице.
-
-
Нулевая корреляция:
-
Нет очевидной зависимости между переменными.
-
Пример: рост человека и количество книг, прочитанных за месяц.
-
2. Коэффициент корреляции
Наиболее популярная метрика — коэффициент корреляции Пирсона (r). Он принимает значения от -1 до +1.
Значение r | Интерпретация |
---|---|
+1 | Совершенная положительная связь |
--- | --- |
0.7 – 0.9 | Сильная положительная связь |
--- | --- |
0.3 – 0.6 | Средняя положительная связь |
--- | --- |
0 – 0.3 | Слабая положительная связь |
--- | --- |
0 | Нет линейной связи |
--- | --- |
-0.3 – 0 | Слабая отрицательная связь |
--- | --- |
-0.6 – -0.3 | Средняя отрицательная связь |
--- | --- |
-0.9 – -0.7 | Сильная отрицательная связь |
--- | --- |
-1 | Совершенная отрицательная связь |
--- | --- |
Формула корреляции Пирсона:
r=∑(xi−xˉ)(yi−yˉ)∑(xi−xˉ)2⋅∑(yi−yˉ)2r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \cdot \sqrt{\sum (y_i - \bar{y})^2}}
Где:
-
xix_i, yiy_i — значения двух переменных,
-
xˉ\bar{x}, yˉ\bar{y} — средние значения по выборке.
3. Другие типы корреляции
-
Спирменовская корреляция (Spearman):
-
Используется, когда данные ранжированы (не обязательно линейные).
-
Работает с монотонными, но не обязательно линейными зависимостями.
-
-
Кендалловская корреляция (Kendall tau):
-
Используется для непараметрических данных.
-
Устойчива к выбросам и применяется для ранговых переменных.
-
4. Графическое представление
-
Диаграмма рассеяния (scatter plot) — основной инструмент визуализации корреляции.
-
Плотная линия точек, идущая снизу вверх по диагонали — признак положительной корреляции.
-
Линия, идущая сверху вниз — признак отрицательной корреляции.
-
Разрозненное облако без формы — отсутствие связи.
-
Примеры интерпретации
-
Высокая положительная корреляция (r ≈ 0.9):
- Количество часов подготовки и результаты на экзамене.
-
Средняя отрицательная корреляция (r ≈ -0.5):
- Время, проведённое в соцсетях, и успеваемость студентов.
-
Нулевая корреляция (r ≈ 0):
- Размер обуви и уровень дохода.
Важные замечания
-
Корреляция не означает причинность (correlation ≠ causation).
Пример: количество продаж мороженого и уровень преступности летом могут расти одновременно, но одно не вызывает другое. -
Могут существовать скрытые переменные (confounders), влияющие на обе исследуемые переменные. Пример: рост температуры влияет как на потребление мороженого, так и на уровень преступности.
-
Выбросы могут существенно искажать корреляцию Пирсона. Спирмен и Кендалл менее чувствительны к ним.
Практическое применение корреляции
-
Финансы:
- Анализ связи между двумя акциями или рынками.
-
Медицина:
- Поиск взаимосвязи между симптомами и заболеваниями.
-
Социальные науки:
- Исследование поведения пользователей и их предпочтений.
-
Data Science / Machine Learning:
-
Предварительный анализ признаков (feature selection).
-
Удаление сильно коррелированных признаков во избежание мультиколлинеарности.
-
-
Бизнес-аналитика:
- Определение факторов, влияющих на продажи, удержание клиентов и прибыль.
Как рассчитать корреляцию на практике
В Excel / Google Sheets:
- Формула: =CORREL(A1:A100, B1:B100)
В Python:
import pandas as pd
df = pd.read_csv("data.csv")
df.corr(method="pearson") # или "spearman", "kendall"
В SQL:
Некоторые СУБД поддерживают:
SELECT CORR(column1, column2) FROM table;
Когда не стоит использовать корреляцию Пирсона
-
Если данные категориальные или бинарные.
-
Если между переменными нелинейная зависимость.
-
Если данные содержат много выбросов.
-
Если данные сильно не распределены нормально (асимметрия, скошенность).
В этих случаях подойдут альтернативные методы анализа зависимости: Спирмен, χ²-тест, коэффициент ассоциации и другие.