Чем отличается среднее значение от медианы?

Среднее значение (или арифметическое среднее) и медиана — это два различных типа статистических мер центральной тенденции, которые используются для описания «типичного» значения в наборе данных. Несмотря на то что обе характеристики отражают центр распределения данных, они делают это по-разному и применяются в разных контекстах в зависимости от распределения и наличия выбросов.

Среднее значение

Определение:

Арифметическое среднее — это сумма всех значений, делённая на их количество.

Формула:

Для набора из n значений x1,x2,...,xnx_1, x_2, ..., x_n:

=x1+x2++xnn\\bar{x} = \\frac{x_1 + x_2 + \\ldots + x_n}{n}  

Пример:

Набор чисел: 2, 4, 6, 8, 10
Среднее = (2 + 4 + 6 + 8 + 10) / 5 = 30 / 5 = 6

Характеристики:

  • Чувствительно к выбросам (очень большим или маленьким значениям).

  • Используется, когда данные симметрично распределены.

  • Подходит для интервальных и количественных данных.

  • Часто используется в финансовых расчётах, оценках, физике, экономике.

Медиана

Определение:

Медиана — это значение, которое находится посередине упорядоченного набора данных. Половина значений меньше медианы, половина — больше.

  • Если количество значений нечётное — медиана это средний элемент.

  • Если количество значений чётное — медиана это среднее двух центральных значений.

Пример 1 (нечётное количество):

Набор: 1, 3, 5, 7, 100
Медиана = 5

Пример 2 (чётное количество):

Набор: 1, 3, 5, 7
Медиана = (3 + 5)/2 = 4

Характеристики:

  • Устойчива к выбросам.

  • Лучше отражает центральную тенденцию при скошенных (несимметричных) распределениях.

  • Часто используется в социальных науках, экономике, здравоохранении, когда встречаются экстремальные значения.

Сравнение на примерах

Пример 1: Выброс

Набор: 10, 20, 30, 40, 1000

  • Среднее: (10 + 20 + 30 + 40 + 1000) / 5 = 220

  • Медиана: 30
    → Среднее значительно искажено выбросом 1000, в то время как медиана устойчиво показывает «типичное» значение.

Пример 2: Равномерное распределение

Набор: 5, 6, 7, 8, 9

  • Среднее: 7

  • Медиана: 7
    → Значения совпадают, так как распределение симметричное и без выбросов.

Когда использовать что

Сценарий Использовать
Данные симметричные и без выбросов Среднее
--- ---
Данные с выбросами или скошены Медиана
--- ---
Оценка доходов населения Медиана (из-за перекоса богатством)
--- ---
Среднее арифметическое результатов эксперимента Среднее
--- ---
Распределение численности пациентов по возрасту с перекосом в старшую группу Медиана
--- ---

Поведение при аномалиях

Допустим, у нас есть набор доходов:
20 000, 22 000, 23 000, 24 000, 10 000 000

  • Среднее: (20 000 + 22 000 + 23 000 + 24 000 + 10 000 000) / 5 = ~2 021 800

  • Медиана: 23 000

→ Среднее говорит, что «типичный доход» — миллионы, что не соответствует действительности. Медиана даёт более реалистичную оценку.

Распределения и чувствительность

1. Нормальное распределение (симметричное):

  • Среднее ≈ Медиана ≈ Мода

2. Правостороннее (положительно скошенное) распределение:

  • Выбросы тянут среднее вправо

  • Среднее > Медиана

3. Левостороннее (отрицательно скошенное) распределение:

  • Среднее < Медиана

Визуализация

Для визуального анализа используют гистограммы или boxplot (ящик с усами), на которых можно увидеть:

  • Медиану (центральная линия в коробке),

  • Среднее (часто отображается отдельной точкой или линией),

  • Выбросы.

В системах анализа данных и BI-инструментах

  • Excel / Google Sheets:

    • Среднее: =AVERAGE(A1:A10)

    • Медиана: =MEDIAN(A1:A10)

Python (pandas):

python import pandas as pd df = pd.read_csv("data.csv") df\['column'\].mean() # Среднее df\['column'\].median() # Медиана

SQL (в PostgreSQL и других):

python SELECT AVG(column), PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY column) AS median FROM table;python

Влияние на принятие решений

  • В бизнес-отчётах среднее может ввести в заблуждение, если не указана медиана или распределение.

  • В образовании оценка среднего балла по классу может искажаться отличниками и отстающими.

  • В здравоохранении медиана продолжительности жизни даёт более надёжную картину, чем средняя.

Связанные метрики

  • Мода — самое частое значение в наборе данных.

  • Размах — разница между максимумом и минимумом.

  • Квартиль — значения, разделяющие данные на четыре равные части.

Использование среднего, медианы и моды в комплексе позволяет получить более полное представление о данных.