Чем отличаются номинальные, порядковые и количественные переменные?

Номинальные, порядковые и количественные переменные — это типы переменных (или признаков), которые используются в статистике, аналитике данных и машинном обучении. Они различаются по тому, какую информацию представляют, какие математические операции с ними допустимы и как их следует интерпретировать при анализе.

1. Номинальные переменные (Nominal variables)

Номинальные переменные — это категориальные признаки, значения которых обозначают качественные категории или классы, не имеющие естественного порядка. Каждое значение представляет собой уникальную группу, но между ними нет ни числовой логики, ни иерархии.

Примеры:

  • Пол: мужской, женский

  • Цвет автомобиля: красный, синий, зелёный

  • Город проживания: Москва, Ташкент, Лондон

  • Тип животного: кошка, собака, попугай

Характеристики:

  • Нет порядка: нельзя сказать, что "Москва > Лондон".

  • **Нельзя вычислять среднее или разницу.
    **

  • **Возможна только группировка и подсчёт.
    **
  • Подходят для: моды (наиболее частое значение), доли, перекрёстных таблиц (contingency tables).

Методы кодирования:

  • One-Hot Encoding — каждая категория превращается в отдельную бинарную переменную (0 или 1).

  • Label Encoding — каждой категории присваивается число (может искажать смысл при использовании в алгоритмах, чувствительных к порядку).

  • Используются как категориальные переменные во многих ML-моделях (например, деревьях решений).

2. Порядковые переменные (Ordinal variables)

Порядковые переменные — это категориальные признаки, значения которых можно упорядочить по определённой логике, но расстояние между ними не определено или неравномерно.

Примеры:

  • Образование: начальное, среднее, высшее, послевузовское

  • Уровень боли: лёгкая, умеренная, сильная

  • Оценка удовлетворённости: низкий, средний, высокий

  • Рейтинг: 1 звезда, 2 звезды, 3 звезды, 4 звезды, 5 звёзд

Характеристики:

  • Есть порядок: высшее образование > среднее

  • Нельзя точно измерить разницу между уровнями. Например, разница между 3 и 4 звёздами может субъективно отличаться от разницы между 1 и 2.

  • Нельзя точно рассчитывать среднее арифметическое (иногда это делают, но интерпретация ограничена).

  • Подходят для: медианы, ранговой корреляции (Спирмена, Кендалла), бокс-плотов, **сравнений порядков (например, Wilcoxon Test)
    **

Методы кодирования:

  • Ordinal Encoding — каждой категории присваивается число по порядку (например, низкий = 1, средний = 2, высокий = 3)

  • Можно использовать в моделях, поддерживающих порядковые признаки, или как числовой признак, если модель нечувствительна к шкале (например, деревья решений).

3. Количественные переменные (Quantitative / Numerical variables)

Количественные переменные — это числовые признаки, отражающие количество, величину или измерение, с которыми можно выполнять арифметические операции. Делятся на два подтипа: дискретные и непрерывные.

3.1. Дискретные количественные переменные

Представляют собой числовые значения, которые принимают целые значения из конечного или счётного множества.

Примеры:

  • Количество детей в семье: 0, 1, 2, ...

  • Число заказов: 12, 7, 0

  • Количество кликов: 34, 56

Характеристики:

  • Можно считать **сумму, среднее, стандартное отклонение и т.д.
    **
  • Часто визуализируются с помощью гистограмм или **столбчатых диаграмм
    **

3.2. Непрерывные количественные переменные

Могут принимать любые значения в пределах диапазона, включая дробные и бесконечно малые.

Примеры:

  • Рост: 176.4 см, 160.0 см, 184.2 см

  • Вес: 70.5 кг, 55.0 кг

  • Доход: 12345.75 руб., 9023.00 руб.

  • Время на сайте: 3.25 секунды, 5.00 секунд

Характеристики:

  • Допускают использование всех математических операций.

  • Подходят для расчёта корреляции, регрессии, дисперсии, стандартного отклонения.

  • Визуализируются с помощью гистограмм, диаграмм рассеяния, боксплотов.

Сравнительная таблица типов переменных

Характеристика Номинальная Порядковая Количественная
Природа данных Категориальная Категориальная Числовая
--- --- --- ---
Пример Пол, город, бренд Уровень боли, рейтинг Рост, доход, вес
--- --- --- ---
Порядок ✖️ ✔️ ✔️
--- --- --- ---
Расстояние между значениями ✖️ ✖️ (неопределённое) ✔️ (определённое)
--- --- --- ---
Среднее арифметическое ✖️ 🚫 (интерпретируется слабо) ✔️
--- --- --- ---
Допустимые операции Группировка, мода Сравнение рангов Арифметика, сравнение
--- --- --- ---
Кодирование One-Hot, Label Ordinal Encoding Нативное числовое
--- --- --- ---
Визуализация Столбцы, круговые Боксплоты, ранги Гистограммы, scatter plot
--- --- --- ---

Почему важно различать эти типы

  1. Аналитика: разные типы переменных требуют разных статистических методов. Например, нельзя считать среднее по цвету глаз.

  2. Машинное обучение: алгоритмы требуют числовой вход, но не всегда понимают, что означают числа. Пример: Label Encoding может "навязать" порядок номинальным переменным, что искажает модель.

  3. Визуализация: выбор правильного графика зависит от типа переменной. Например, pie chart хорош для номинальных, а scatter plot — для количественных.

  4. Гипотезы и статистические тесты: тесты на значимость различаются. Например:

    • Chi-Square Test — для номинальных

    • Mann–Whitney U — для порядковых

    • t-test — для количественных

  5. Интерпретация и принятие решений: неправильное понимание типа данных может привести к ложным выводам или неэффективным действиям.

Примеры трансформаций

  • Пол (муж/жен) → One-hot: is_male = 1/0

  • Уровень образования (начальное/среднее/высшее) → Ordinal: 1/2/3

  • Доход (в рублях) → остается числовым

  • Количество покупок → числовое целое

  • Цвет любимого продукта → One-hot или label-encoding, в зависимости от модели

Связь с масштабами измерения

Эти три типа переменных соответствуют классическим шкалам измерения:

Шкала Стивенса Тип переменной Описание
Номинальная Номинальная Только различение классов
--- --- ---
Порядковая Порядковая Есть порядок, но нет дистанции
--- --- ---
Интервальная Количественная (частично) Есть порядок и равные интервалы
--- --- ---
Отношений Количественная Есть абсолютный ноль, можно делить
--- --- ---

Шкала отношений — самый сильный тип: например, можно сказать, что пользователь с доходом 100,000 руб. в 2 раза богаче, чем с 50,000 руб. Это невозможно для порядковой шкалы.