Чем отличается среднее значение от медианы?
Среднее значение (или арифметическое среднее) и медиана — это два различных типа статистических мер центральной тенденции, которые используются для описания «типичного» значения в наборе данных. Несмотря на то что обе характеристики отражают центр распределения данных, они делают это по-разному и применяются в разных контекстах в зависимости от распределения и наличия выбросов.
Среднее значение
Определение:
Арифметическое среднее — это сумма всех значений, делённая на их количество.
Формула:
Для набора из n значений x1,x2,...,xnx_1, x_2, ..., x_n:
xˉ=x1+x2+…+xnn\\bar{x} = \\frac{x_1 + x_2 + \\ldots + x_n}{n}
Пример:
Набор чисел: 2, 4, 6, 8, 10
Среднее = (2 + 4 + 6 + 8 + 10) / 5 = 30 / 5 = 6
Характеристики:
-
Чувствительно к выбросам (очень большим или маленьким значениям).
-
Используется, когда данные симметрично распределены.
-
Подходит для интервальных и количественных данных.
-
Часто используется в финансовых расчётах, оценках, физике, экономике.
Медиана
Определение:
Медиана — это значение, которое находится посередине упорядоченного набора данных. Половина значений меньше медианы, половина — больше.
-
Если количество значений нечётное — медиана это средний элемент.
-
Если количество значений чётное — медиана это среднее двух центральных значений.
Пример 1 (нечётное количество):
Набор: 1, 3, 5, 7, 100
Медиана = 5
Пример 2 (чётное количество):
Набор: 1, 3, 5, 7
Медиана = (3 + 5)/2 = 4
Характеристики:
-
Устойчива к выбросам.
-
Лучше отражает центральную тенденцию при скошенных (несимметричных) распределениях.
-
Часто используется в социальных науках, экономике, здравоохранении, когда встречаются экстремальные значения.
Сравнение на примерах
Пример 1: Выброс
Набор: 10, 20, 30, 40, 1000
-
Среднее: (10 + 20 + 30 + 40 + 1000) / 5 = 220
-
Медиана: 30
→ Среднее значительно искажено выбросом 1000, в то время как медиана устойчиво показывает «типичное» значение.
Пример 2: Равномерное распределение
Набор: 5, 6, 7, 8, 9
-
Среднее: 7
-
Медиана: 7
→ Значения совпадают, так как распределение симметричное и без выбросов.
Когда использовать что
Сценарий | Использовать |
---|---|
Данные симметричные и без выбросов | Среднее |
--- | --- |
Данные с выбросами или скошены | Медиана |
--- | --- |
Оценка доходов населения | Медиана (из-за перекоса богатством) |
--- | --- |
Среднее арифметическое результатов эксперимента | Среднее |
--- | --- |
Распределение численности пациентов по возрасту с перекосом в старшую группу | Медиана |
--- | --- |
Поведение при аномалиях
Допустим, у нас есть набор доходов:
20 000, 22 000, 23 000, 24 000, 10 000 000
-
Среднее: (20 000 + 22 000 + 23 000 + 24 000 + 10 000 000) / 5 = ~2 021 800
-
Медиана: 23 000
→ Среднее говорит, что «типичный доход» — миллионы, что не соответствует действительности. Медиана даёт более реалистичную оценку.
Распределения и чувствительность
1. Нормальное распределение (симметричное):
- Среднее ≈ Медиана ≈ Мода
2. Правостороннее (положительно скошенное) распределение:
-
Выбросы тянут среднее вправо
-
Среднее > Медиана
3. Левостороннее (отрицательно скошенное) распределение:
- Среднее < Медиана
Визуализация
Для визуального анализа используют гистограммы или boxplot (ящик с усами), на которых можно увидеть:
-
Медиану (центральная линия в коробке),
-
Среднее (часто отображается отдельной точкой или линией),
-
Выбросы.
В системах анализа данных и BI-инструментах
-
Excel / Google Sheets:
-
Среднее: =AVERAGE(A1:A10)
-
Медиана: =MEDIAN(A1:A10)
-
Python (pandas):
python
import pandas as pd
df = pd.read_csv("data.csv")
df\['column'\].mean() # Среднее
df\['column'\].median() # Медиана
SQL (в PostgreSQL и других):
python
SELECT AVG(column), PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY column) AS median
FROM table;
python
Влияние на принятие решений
-
В бизнес-отчётах среднее может ввести в заблуждение, если не указана медиана или распределение.
-
В образовании оценка среднего балла по классу может искажаться отличниками и отстающими.
-
В здравоохранении медиана продолжительности жизни даёт более надёжную картину, чем средняя.
Связанные метрики
-
Мода — самое частое значение в наборе данных.
-
Размах — разница между максимумом и минимумом.
-
Квартиль — значения, разделяющие данные на четыре равные части.
Использование среднего, медианы и моды в комплексе позволяет получить более полное представление о данных.