В чем заключается различие между методами классификации и регрессии в машинном обучении?

Методы классификации и регрессии относятся к категории наблюдаемого (supervised) обучения в машинном обучении. Основное различие между ними заключается в типе выходных данных, которые они предсказывают: классификация — для дискретных (категориальных) значений, регрессия — для непрерывных (вещественных) чисел.

🔹 Основные различия

Критерий Классификация Регрессия
Тип выходной переменной Категориальная (дискретная) Непрерывная (числовая)
--- --- ---
Цель задачи Определить метку класса Предсказать значение
--- --- ---
Примеры задач Распознавание спама, диагностика болезни, определение пола Прогноз цен, оценка риска, предсказание температуры
--- --- ---
Форма модели Выдает вероятность/метку класса Выдает числовое значение
--- --- ---
Форма границы решения Дискретные границы между классами Непрерывные линии/гиперплоскости
--- --- ---
Функции потерь Log-loss, Cross-entropy MSE, MAE, Huber loss
--- --- ---
Метрики качества Accuracy, Precision, Recall, F1-score, AUC RMSE, MAE, R²
--- --- ---

🔹 Классификация

Классификация — это задача определения метки категории для входного объекта. Алгоритм учится на размеченных примерах, где входные данные соответствуют определённым классам.

Примеры:

  • Электронная почта: спам или не спам.

  • Болезнь: есть или нет.

  • Изображение: кошка, собака или птица.

  • Определение языка текста: русский, английский, китайский и т.д.

Типы классификации:

  1. Бинарная — два класса (например, 0 и 1).

  2. Многоклассовая — более двух классов.

  3. Мульти-лейбловая — объект может принадлежать сразу к нескольким классам (например, фильм может быть одновременно «комедия» и «драма»).

Алгоритмы классификации:

  • Логистическая регрессия (несмотря на название, это классификатор)

  • Naive Bayes

  • SVM (Support Vector Machine)

  • K-Nearest Neighbors

  • Деревья решений (Decision Trees)

  • Random Forest

  • Градиентный бустинг (XGBoost, LightGBM)

  • Нейронные сети (MLP, CNN, RNN)

Метрики:

  • Accuracy — доля правильно классифицированных.

  • Precision / Recall / F1-score — полезны при несбалансированных классах.

  • AUC-ROC — оценка способности модели различать классы.

🔹 Регрессия

Регрессия — задача предсказания непрерывного значения. Это может быть реальное число, которое зависит от входных признаков.

Примеры:

  • Цена дома по его характеристикам.

  • Температура воздуха на завтра.

  • Уровень артериального давления по данным пациента.

  • Прогноз курса валют.

Типы регрессии:

  1. Линейная регрессия — связь между переменными считается линейной.

  2. Полиномиальная регрессия — включает более сложные нелинейные зависимости.

  3. Множественная регрессия — регрессия по нескольким признакам.

  4. Логарифмическая, экспоненциальная и др. — зависят от формы уравнения зависимости.

  5. Стохастическая/Байесовская регрессия — учитывает распределения и неопределённость.

  6. Модели ансамблей: градиентный бустинг, Random Forest и т.д.

Алгоритмы:

  • Линейная регрессия

  • Ridge, Lasso, ElasticNet (регуляризованные регрессии)

  • Decision Tree Regressor

  • Random Forest Regressor

  • Gradient Boosting Regressor (например, CatBoost, LightGBM)

  • Нейронные сети (для сложных зависимостей)

Метрики:

  • MAE (Mean Absolute Error) — средняя абсолютная ошибка.

  • MSE (Mean Squared Error) — средняя квадратичная ошибка.

  • RMSE (Root MSE) — корень из MSE.

  • R² (коэффициент детерминации) — показывает, какая доля дисперсии объясняется моделью.

🔹 Общие аспекты: обучающая выборка

Обе задачи требуют:

  • Набора признаков (features): входные данные.

  • Целевой переменной (target): класс или число.

Пример обучающей выборки:

рост (см) вес (кг) возраст класс доход (руб.)
170 65 25 Мужчина 80 000
--- --- --- --- ---
158 50 21 Женщина 72 000
--- --- --- --- ---

В столбце «класс» — задача классификации. В столбце «доход» — задача регрессии.

🔹 Границы решений и модели

Классификаторы разбивают пространство признаков на области, где каждый регион соответствует определённому классу. Например, логистическая регрессия или SVM строят гиперплоскости, разделяющие классы.

Регрессоры строят поверхности (в 2D — кривые), которые аппроксимируют зависимости между признаками и целевыми значениями.

🔹 Классификация как частный случай регрессии

Некоторые классификаторы могут быть представлены как регрессионные модели, предсказывающие вероятность принадлежности к классу (например, логистическая регрессия предсказывает вероятность класса 1, затем применяется порог, например, 0.5).

🔹 Переход от регрессии к классификации и наоборот

В некоторых случаях можно трансформировать одну задачу в другую:

  • Регрессия → классификация: Разбить диапазон значений на интервалы и каждому интервалу сопоставить класс (например, "низкий доход", "средний", "высокий").

  • Классификация → регрессия: Иногда возможно, если метки классов упорядочены (ordinal classification), например, уровни риска (1, 2, 3).

🔹 Зависимость от шума и переобучения

  • Регрессия более чувствительна к выбросам: одна сильно выбивающаяся точка может существенно повлиять на модель.

  • Классификация часто более устойчива к шуму, если классы хорошо разделимы.

🔹 Практическое применение

Область Классификация Регрессия
Финансы Предсказание мошенничества (да/нет) Прогнозирование стоимости акций
--- --- ---
Медицина Диагноз (здоров / болен) Прогноз уровня глюкозы
--- --- ---
Маркетинг Классификация клиентов Оценка пожизненной ценности клиента (LTV)
--- --- ---
Ритейл Прогноз товара в корзине Предсказание спроса на продукцию
--- --- ---
Обработка изображений Распознавание объекта Оценка возраста по фото
--- --- ---
Обработка текста Определение языка Предсказание длины предложения
--- --- ---

🔹 Комбинированные задачи

Иногда классификация и регрессия сочетаются в одном проекте:

  • Прогноз оценки фильма: сначала классифицировать жанр (классификация), затем предсказать рейтинг (регрессия).

  • Предсказание вероятности болезни (регрессия по вероятности) и определение диагноза (классификация).

Метод машинного обучения выбирается в зависимости от задачи и характеристик данных. Выбор между классификацией и регрессией всегда зависит от природы выходной переменной.