Что такое корреляция?

Корреляция — это статистическая мера, описывающая степень и направление взаимосвязи между двумя количественными переменными. Если две переменные изменяются вместе определённым образом, говорят, что между ними есть корреляция.

Основные аспекты корреляции

1. Типы корреляции по направлению

  • Положительная корреляция (прямая):

    • Значения обеих переменных растут или уменьшаются одновременно.

    • Пример: рост температуры и количество проданных мороженых.

  • Отрицательная корреляция (обратная):

    • Одна переменная увеличивается, в то время как другая уменьшается.

    • Пример: количество осадков и количество прогулок на улице.

  • Нулевая корреляция:

    • Нет очевидной зависимости между переменными.

    • Пример: рост человека и количество книг, прочитанных за месяц.

2. Коэффициент корреляции

Наиболее популярная метрика — коэффициент корреляции Пирсона (r). Он принимает значения от -1 до +1.

Значение r Интерпретация
+1 Совершенная положительная связь
--- ---
0.7 – 0.9 Сильная положительная связь
--- ---
0.3 – 0.6 Средняя положительная связь
--- ---
0 – 0.3 Слабая положительная связь
--- ---
0 Нет линейной связи
--- ---
-0.3 – 0 Слабая отрицательная связь
--- ---
-0.6 – -0.3 Средняя отрицательная связь
--- ---
-0.9 – -0.7 Сильная отрицательная связь
--- ---
-1 Совершенная отрицательная связь
--- ---

Формула корреляции Пирсона:

r=∑(xi−xˉ)(yi−yˉ)∑(xi−xˉ)2⋅∑(yi−yˉ)2r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \cdot \sqrt{\sum (y_i - \bar{y})^2}}

Где:

  • xix_i, yiy_i — значения двух переменных,

  • xˉ\bar{x}, yˉ\bar{y} — средние значения по выборке.

3. Другие типы корреляции

  • Спирменовская корреляция (Spearman):

    • Используется, когда данные ранжированы (не обязательно линейные).

    • Работает с монотонными, но не обязательно линейными зависимостями.

  • Кендалловская корреляция (Kendall tau):

    • Используется для непараметрических данных.

    • Устойчива к выбросам и применяется для ранговых переменных.

4. Графическое представление

  • Диаграмма рассеяния (scatter plot) — основной инструмент визуализации корреляции.

    • Плотная линия точек, идущая снизу вверх по диагонали — признак положительной корреляции.

    • Линия, идущая сверху вниз — признак отрицательной корреляции.

    • Разрозненное облако без формы — отсутствие связи.

Примеры интерпретации

  1. Высокая положительная корреляция (r ≈ 0.9):

    • Количество часов подготовки и результаты на экзамене.
  2. Средняя отрицательная корреляция (r ≈ -0.5):

    • Время, проведённое в соцсетях, и успеваемость студентов.
  3. Нулевая корреляция (r ≈ 0):

    • Размер обуви и уровень дохода.

Важные замечания

  • Корреляция не означает причинность (correlation ≠ causation).
    Пример: количество продаж мороженого и уровень преступности летом могут расти одновременно, но одно не вызывает другое.

  • Могут существовать скрытые переменные (confounders), влияющие на обе исследуемые переменные. Пример: рост температуры влияет как на потребление мороженого, так и на уровень преступности.

  • Выбросы могут существенно искажать корреляцию Пирсона. Спирмен и Кендалл менее чувствительны к ним.

Практическое применение корреляции

  • Финансы:

    • Анализ связи между двумя акциями или рынками.
  • Медицина:

    • Поиск взаимосвязи между симптомами и заболеваниями.
  • Социальные науки:

    • Исследование поведения пользователей и их предпочтений.
  • Data Science / Machine Learning:

    • Предварительный анализ признаков (feature selection).

    • Удаление сильно коррелированных признаков во избежание мультиколлинеарности.

  • Бизнес-аналитика:

    • Определение факторов, влияющих на продажи, удержание клиентов и прибыль.

Как рассчитать корреляцию на практике

В Excel / Google Sheets:

  • Формула: =CORREL(A1:A100, B1:B100)

В Python:

import pandas as pd
df = pd.read_csv("data.csv")
df.corr(method="pearson") # или "spearman", "kendall"

В SQL:

Некоторые СУБД поддерживают:

SELECT CORR(column1, column2) FROM table;

Когда не стоит использовать корреляцию Пирсона

  • Если данные категориальные или бинарные.

  • Если между переменными нелинейная зависимость.

  • Если данные содержат много выбросов.

  • Если данные сильно не распределены нормально (асимметрия, скошенность).

В этих случаях подойдут альтернативные методы анализа зависимости: Спирмен, χ²-тест, коэффициент ассоциации и другие.