Чем отличаются номинальные, порядковые и количественные переменные?
Номинальные, порядковые и количественные переменные — это типы переменных (или признаков), которые используются в статистике, аналитике данных и машинном обучении. Они различаются по тому, какую информацию представляют, какие математические операции с ними допустимы и как их следует интерпретировать при анализе.
1. Номинальные переменные (Nominal variables)
Номинальные переменные — это категориальные признаки, значения которых обозначают качественные категории или классы, не имеющие естественного порядка. Каждое значение представляет собой уникальную группу, но между ними нет ни числовой логики, ни иерархии.
Примеры:
-
Пол: мужской, женский
-
Цвет автомобиля: красный, синий, зелёный
-
Город проживания: Москва, Ташкент, Лондон
-
Тип животного: кошка, собака, попугай
Характеристики:
-
Нет порядка: нельзя сказать, что "Москва > Лондон".
-
**Нельзя вычислять среднее или разницу.
** - **Возможна только группировка и подсчёт.
** - Подходят для: моды (наиболее частое значение), доли, перекрёстных таблиц (contingency tables).
Методы кодирования:
-
One-Hot Encoding — каждая категория превращается в отдельную бинарную переменную (0 или 1).
-
Label Encoding — каждой категории присваивается число (может искажать смысл при использовании в алгоритмах, чувствительных к порядку).
-
Используются как категориальные переменные во многих ML-моделях (например, деревьях решений).
2. Порядковые переменные (Ordinal variables)
Порядковые переменные — это категориальные признаки, значения которых можно упорядочить по определённой логике, но расстояние между ними не определено или неравномерно.
Примеры:
-
Образование: начальное, среднее, высшее, послевузовское
-
Уровень боли: лёгкая, умеренная, сильная
-
Оценка удовлетворённости: низкий, средний, высокий
-
Рейтинг: 1 звезда, 2 звезды, 3 звезды, 4 звезды, 5 звёзд
Характеристики:
-
Есть порядок: высшее образование > среднее
-
Нельзя точно измерить разницу между уровнями. Например, разница между 3 и 4 звёздами может субъективно отличаться от разницы между 1 и 2.
-
Нельзя точно рассчитывать среднее арифметическое (иногда это делают, но интерпретация ограничена).
-
Подходят для: медианы, ранговой корреляции (Спирмена, Кендалла), бокс-плотов, **сравнений порядков (например, Wilcoxon Test)
**
Методы кодирования:
-
Ordinal Encoding — каждой категории присваивается число по порядку (например, низкий = 1, средний = 2, высокий = 3)
-
Можно использовать в моделях, поддерживающих порядковые признаки, или как числовой признак, если модель нечувствительна к шкале (например, деревья решений).
3. Количественные переменные (Quantitative / Numerical variables)
Количественные переменные — это числовые признаки, отражающие количество, величину или измерение, с которыми можно выполнять арифметические операции. Делятся на два подтипа: дискретные и непрерывные.
3.1. Дискретные количественные переменные
Представляют собой числовые значения, которые принимают целые значения из конечного или счётного множества.
Примеры:
-
Количество детей в семье: 0, 1, 2, ...
-
Число заказов: 12, 7, 0
-
Количество кликов: 34, 56
Характеристики:
- Можно считать **сумму, среднее, стандартное отклонение и т.д.
** - Часто визуализируются с помощью гистограмм или **столбчатых диаграмм
**
3.2. Непрерывные количественные переменные
Могут принимать любые значения в пределах диапазона, включая дробные и бесконечно малые.
Примеры:
-
Рост: 176.4 см, 160.0 см, 184.2 см
-
Вес: 70.5 кг, 55.0 кг
-
Доход: 12345.75 руб., 9023.00 руб.
-
Время на сайте: 3.25 секунды, 5.00 секунд
Характеристики:
-
Допускают использование всех математических операций.
-
Подходят для расчёта корреляции, регрессии, дисперсии, стандартного отклонения.
-
Визуализируются с помощью гистограмм, диаграмм рассеяния, боксплотов.
Сравнительная таблица типов переменных
Характеристика | Номинальная | Порядковая | Количественная |
---|---|---|---|
Природа данных | Категориальная | Категориальная | Числовая |
--- | --- | --- | --- |
Пример | Пол, город, бренд | Уровень боли, рейтинг | Рост, доход, вес |
--- | --- | --- | --- |
Порядок | ✖️ | ✔️ | ✔️ |
--- | --- | --- | --- |
Расстояние между значениями | ✖️ | ✖️ (неопределённое) | ✔️ (определённое) |
--- | --- | --- | --- |
Среднее арифметическое | ✖️ | 🚫 (интерпретируется слабо) | ✔️ |
--- | --- | --- | --- |
Допустимые операции | Группировка, мода | Сравнение рангов | Арифметика, сравнение |
--- | --- | --- | --- |
Кодирование | One-Hot, Label | Ordinal Encoding | Нативное числовое |
--- | --- | --- | --- |
Визуализация | Столбцы, круговые | Боксплоты, ранги | Гистограммы, scatter plot |
--- | --- | --- | --- |
Почему важно различать эти типы
-
Аналитика: разные типы переменных требуют разных статистических методов. Например, нельзя считать среднее по цвету глаз.
-
Машинное обучение: алгоритмы требуют числовой вход, но не всегда понимают, что означают числа. Пример: Label Encoding может "навязать" порядок номинальным переменным, что искажает модель.
-
Визуализация: выбор правильного графика зависит от типа переменной. Например, pie chart хорош для номинальных, а scatter plot — для количественных.
-
Гипотезы и статистические тесты: тесты на значимость различаются. Например:
-
Chi-Square Test — для номинальных
-
Mann–Whitney U — для порядковых
-
t-test — для количественных
-
-
Интерпретация и принятие решений: неправильное понимание типа данных может привести к ложным выводам или неэффективным действиям.
Примеры трансформаций
-
Пол (муж/жен) → One-hot: is_male = 1/0
-
Уровень образования (начальное/среднее/высшее) → Ordinal: 1/2/3
-
Доход (в рублях) → остается числовым
-
Количество покупок → числовое целое
-
Цвет любимого продукта → One-hot или label-encoding, в зависимости от модели
Связь с масштабами измерения
Эти три типа переменных соответствуют классическим шкалам измерения:
Шкала Стивенса | Тип переменной | Описание |
---|---|---|
Номинальная | Номинальная | Только различение классов |
--- | --- | --- |
Порядковая | Порядковая | Есть порядок, но нет дистанции |
--- | --- | --- |
Интервальная | Количественная (частично) | Есть порядок и равные интервалы |
--- | --- | --- |
Отношений | Количественная | Есть абсолютный ноль, можно делить |
--- | --- | --- |
Шкала отношений — самый сильный тип: например, можно сказать, что пользователь с доходом 100,000 руб. в 2 раза богаче, чем с 50,000 руб. Это невозможно для порядковой шкалы.