Какие способы проверки статистической значимости вы знаете?

Проверка статистической значимости — это метод анализа, позволяющий определить, насколько наблюдаемые различия между выборками (или между выборкой и ожиданиями) могут быть объяснены случайностью, или же они указывают на реальные различия в популяциях. В её основе лежит нулевая гипотеза (H₀) — предположение, что различий нет — и её проверка с помощью различных статистических тестов.

Основные понятия

  • Нулевая гипотеза (H₀): предполагает отсутствие эффекта (различий).

  • Альтернативная гипотеза (H₁): предполагает наличие эффекта.

  • Уровень значимости (α): максимальный допустимый риск отклонить H₀, когда она верна (обычно 0.05).

  • p-value: вероятность наблюдать такие или более экстремальные результаты при условии, что H₀ верна.

  • Статистическая мощность (power): вероятность обнаружить эффект, если он действительно есть.

  • Тип I ошибка: ложное отклонение H₀.

  • Тип II ошибка: ложное принятие H₀.

Способы проверки статистической значимости

1. Z-тест (z-test)

Используется для проверки разницы между средними двух больших выборок (обычно >30), если известно стандартное отклонение.

Применение:

  • Проверка долей (например, конверсий A/B-групп).

  • Проверка среднего значения по сравнению с известной нормой.

Пример:
Проверка того, отличается ли среднее время посещения сайта от установленного эталона.

2. T-тест (Student’s t-test)

Когда стандартное отклонение неизвестно или выборка мала (обычно <30). Варианты:

  • Одновыборочный t-тест — сравнение среднего значения выборки с заданным числом.

  • Двухвыборочный независимый t-тест — сравнение средних двух независимых групп.

  • Парный t-тест (paired t-test) — сравнение до/после внутри одной группы.

Применение:

  • Сравнение среднего чека до и после запуска скидки.

  • Сравнение среднего времени сессии у A и B версий интерфейса.

3. U-тест Манна–Уитни (Mann–Whitney U test)

Непараметрический аналог t-теста, не требует нормального распределения. Используется для сравнения распределений двух независимых выборок.

Применение:

  • Когда данные распределены не нормально (например, время реакции, доходы).

  • Когда есть выбросы, мешающие применять t-тест.

4. Критерий Вилкоксона (Wilcoxon signed-rank test)

Аналог парного t-теста, но непараметрический. Используется для оценки различий между связанными выборками.

Применение:

  • До/после изменения метрики у одной группы пользователей без предположения нормальности данных.

5. Критерий χ² (хи-квадрат, Chi-square test)

Оценивает, есть ли зависимость между категориальными переменными или отличаются ли наблюдаемые частоты от ожидаемых.

Варианты:

  • Проверка независимости — используются кросс-таблицы.

  • Goodness-of-fit — насколько наблюдаемые частоты соответствуют теоретическим.

Применение:

  • Проверка зависимости между возрастом и выбором тарифа.

  • Анализ кликов на разные категории товаров.

6. F-тест (ANOVA – дисперсионный анализ)

Проверяет, различаются ли средние значения более чем у двух групп.

Применение:

  • Сравнение среднего дохода среди нескольких регионов.

  • Проверка влияния разных типов баннеров на поведение.

Пост-hoc тесты (Tukey, Bonferroni)

Используются после ANOVA для выявления, между какими группами именно есть различия.

7. Bootstrap-метод

Непараметрический способ оценки доверительных интервалов и p-value с помощью повторной выборки с возвращением.

Применение:

  • При отсутствии предпосылок о виде распределения.

  • Когда выборка мала или распределение сильно асимметрично.

8. Bayesian A/B-тестирование

Вместо p-value и H₀ рассчитываются априорные и апостериорные вероятности. Подход гибкий и даёт интерпретируемые результаты (“вероятность, что вариант B лучше A на 95%”).

Применение:

  • В маркетинговых кампаниях.

  • В случае малых выборок и потребности в адаптивном принятии решений.

9. Фишерова точная проверка (Fisher's Exact Test)

Используется вместо χ² при маленьких выборках (часто <5 в ячейке) для проверки независимости в 2×2 таблицах.

Применение:

  • Медицинские исследования.

  • Малые A/B-тесты.

10. Критерий Колмогорова–Смирнова (K–S test)

Проверяет, принадлежат ли выборки одному и тому же распределению.

Применение:

  • Сравнение двух распределений без предположения о форме.

Как выбрать подходящий тест

Сценарий Подходящий тест
Сравнение средних (нормальное распределение) t-test
--- ---
Сравнение средних (неизвестное распределение) Mann–Whitney U test
--- ---
Сравнение долей z-test / χ²
--- ---
Категориальные переменные χ² или Fisher
--- ---
До/после у одной группы paired t-test или Wilcoxon
--- ---
Более 2 групп ANOVA
--- ---
Любые метрики с Bootstrap bootstrap
--- ---
Небольшие группы Fisher или bootstrap
--- ---
Прогнозируемая вероятность выигрыша Bayesian A/B
--- ---

Практические советы

  • Перед выбором теста проверьте распределение (например, с помощью Shapiro-Wilk).

  • Используйте визуализацию: boxplot, histograms, Q-Q plot.

  • Проверяйте дисперсии (Levene's test) для t-test и ANOVA.

  • Контролируйте множественные проверки (Bonferroni, Holm, FDR).

  • Выводы делайте не только по p-value, но и по эффекту (разнице, доверительному интервалу).

Корректный выбор метода проверки статистической значимости зависит от типа данных, размера выборки, нормальности распределения и цели анализа. Использование соответствующего инструментария позволяет принимать обоснованные решения на основе данных и избегать ложных интерпретаций.