В чем заключается различие между методами классификации и регрессии в машинном обучении?
Методы классификации и регрессии относятся к категории наблюдаемого (supervised) обучения в машинном обучении. Основное различие между ними заключается в типе выходных данных, которые они предсказывают: классификация — для дискретных (категориальных) значений, регрессия — для непрерывных (вещественных) чисел.
🔹 Основные различия
Критерий | Классификация | Регрессия |
---|---|---|
Тип выходной переменной | Категориальная (дискретная) | Непрерывная (числовая) |
--- | --- | --- |
Цель задачи | Определить метку класса | Предсказать значение |
--- | --- | --- |
Примеры задач | Распознавание спама, диагностика болезни, определение пола | Прогноз цен, оценка риска, предсказание температуры |
--- | --- | --- |
Форма модели | Выдает вероятность/метку класса | Выдает числовое значение |
--- | --- | --- |
Форма границы решения | Дискретные границы между классами | Непрерывные линии/гиперплоскости |
--- | --- | --- |
Функции потерь | Log-loss, Cross-entropy | MSE, MAE, Huber loss |
--- | --- | --- |
Метрики качества | Accuracy, Precision, Recall, F1-score, AUC | RMSE, MAE, R² |
--- | --- | --- |
🔹 Классификация
Классификация — это задача определения метки категории для входного объекта. Алгоритм учится на размеченных примерах, где входные данные соответствуют определённым классам.
Примеры:
-
Электронная почта: спам или не спам.
-
Болезнь: есть или нет.
-
Изображение: кошка, собака или птица.
-
Определение языка текста: русский, английский, китайский и т.д.
Типы классификации:
-
Бинарная — два класса (например, 0 и 1).
-
Многоклассовая — более двух классов.
-
Мульти-лейбловая — объект может принадлежать сразу к нескольким классам (например, фильм может быть одновременно «комедия» и «драма»).
Алгоритмы классификации:
-
Логистическая регрессия (несмотря на название, это классификатор)
-
Naive Bayes
-
SVM (Support Vector Machine)
-
K-Nearest Neighbors
-
Деревья решений (Decision Trees)
-
Random Forest
-
Градиентный бустинг (XGBoost, LightGBM)
-
Нейронные сети (MLP, CNN, RNN)
Метрики:
-
Accuracy — доля правильно классифицированных.
-
Precision / Recall / F1-score — полезны при несбалансированных классах.
-
AUC-ROC — оценка способности модели различать классы.
🔹 Регрессия
Регрессия — задача предсказания непрерывного значения. Это может быть реальное число, которое зависит от входных признаков.
Примеры:
-
Цена дома по его характеристикам.
-
Температура воздуха на завтра.
-
Уровень артериального давления по данным пациента.
-
Прогноз курса валют.
Типы регрессии:
-
Линейная регрессия — связь между переменными считается линейной.
-
Полиномиальная регрессия — включает более сложные нелинейные зависимости.
-
Множественная регрессия — регрессия по нескольким признакам.
-
Логарифмическая, экспоненциальная и др. — зависят от формы уравнения зависимости.
-
Стохастическая/Байесовская регрессия — учитывает распределения и неопределённость.
-
Модели ансамблей: градиентный бустинг, Random Forest и т.д.
Алгоритмы:
-
Линейная регрессия
-
Ridge, Lasso, ElasticNet (регуляризованные регрессии)
-
Decision Tree Regressor
-
Random Forest Regressor
-
Gradient Boosting Regressor (например, CatBoost, LightGBM)
-
Нейронные сети (для сложных зависимостей)
Метрики:
-
MAE (Mean Absolute Error) — средняя абсолютная ошибка.
-
MSE (Mean Squared Error) — средняя квадратичная ошибка.
-
RMSE (Root MSE) — корень из MSE.
-
R² (коэффициент детерминации) — показывает, какая доля дисперсии объясняется моделью.
🔹 Общие аспекты: обучающая выборка
Обе задачи требуют:
-
Набора признаков (features): входные данные.
-
Целевой переменной (target): класс или число.
Пример обучающей выборки:
рост (см) | вес (кг) | возраст | класс | доход (руб.) |
---|---|---|---|---|
170 | 65 | 25 | Мужчина | 80 000 |
--- | --- | --- | --- | --- |
158 | 50 | 21 | Женщина | 72 000 |
--- | --- | --- | --- | --- |
В столбце «класс» — задача классификации. В столбце «доход» — задача регрессии.
🔹 Границы решений и модели
Классификаторы разбивают пространство признаков на области, где каждый регион соответствует определённому классу. Например, логистическая регрессия или SVM строят гиперплоскости, разделяющие классы.
Регрессоры строят поверхности (в 2D — кривые), которые аппроксимируют зависимости между признаками и целевыми значениями.
🔹 Классификация как частный случай регрессии
Некоторые классификаторы могут быть представлены как регрессионные модели, предсказывающие вероятность принадлежности к классу (например, логистическая регрессия предсказывает вероятность класса 1, затем применяется порог, например, 0.5).
🔹 Переход от регрессии к классификации и наоборот
В некоторых случаях можно трансформировать одну задачу в другую:
-
Регрессия → классификация: Разбить диапазон значений на интервалы и каждому интервалу сопоставить класс (например, "низкий доход", "средний", "высокий").
-
Классификация → регрессия: Иногда возможно, если метки классов упорядочены (ordinal classification), например, уровни риска (1, 2, 3).
🔹 Зависимость от шума и переобучения
-
Регрессия более чувствительна к выбросам: одна сильно выбивающаяся точка может существенно повлиять на модель.
-
Классификация часто более устойчива к шуму, если классы хорошо разделимы.
🔹 Практическое применение
Область | Классификация | Регрессия |
---|---|---|
Финансы | Предсказание мошенничества (да/нет) | Прогнозирование стоимости акций |
--- | --- | --- |
Медицина | Диагноз (здоров / болен) | Прогноз уровня глюкозы |
--- | --- | --- |
Маркетинг | Классификация клиентов | Оценка пожизненной ценности клиента (LTV) |
--- | --- | --- |
Ритейл | Прогноз товара в корзине | Предсказание спроса на продукцию |
--- | --- | --- |
Обработка изображений | Распознавание объекта | Оценка возраста по фото |
--- | --- | --- |
Обработка текста | Определение языка | Предсказание длины предложения |
--- | --- | --- |
🔹 Комбинированные задачи
Иногда классификация и регрессия сочетаются в одном проекте:
-
Прогноз оценки фильма: сначала классифицировать жанр (классификация), затем предсказать рейтинг (регрессия).
-
Предсказание вероятности болезни (регрессия по вероятности) и определение диагноза (классификация).
Метод машинного обучения выбирается в зависимости от задачи и характеристик данных. Выбор между классификацией и регрессией всегда зависит от природы выходной переменной.