Какие подходы понижения размерности известн
Понижение размерности (dimensionality reduction) — это процесс преобразования данных с высоким числом признаков (фичей) в пространство меньшей размерности при сохранении как можно большей части информации. Такой подход помогает устранить шум, уменьшить переобучение, повысить производительность алгоритмов машинного обучения и улучшить визуализацию.
Существуют два основных типа методов понижения размерности:
1. Линейные методы
🟦 PCA (Principal Component Analysis) — метод главных компонент
-
Один из самых распространённых алгоритмов.
-
Основан на ортогональном преобразовании пространства: находит такие оси (компоненты), вдоль которых разброс (дисперсия) данных максимален.
-
Уменьшает размерность, оставляя только наиболее значимые компоненты (например, первые 2 или 3).
-
Каждая компонента — это линейная комбинация исходных признаков.
Плюсы:
-
Простота реализации.
-
Быстрая работа.
-
Хорошо работает, если корреляции между признаками линейные.
Минусы:
-
Не улавливает нелинейные зависимости.
-
Интерпретируемость новых признаков теряется.
🟦 LDA (Linear Discriminant Analysis)
-
В отличие от PCA, учитывает метки классов.
-
Ищет проекцию, максимально разделяющую классы.
-
Используется в задачах классификации для понижения размерности и повышения разделимости.
Важно: LDA работает только при наличии категориальных целевых переменных.
2. Нелинейные методы
🟪 t-SNE (t-distributed Stochastic Neighbor Embedding)
-
Строит вероятностные распределения схожести между точками в исходном и низкоразмерном пространствах.
-
Сохраняет локальную структуру данных — схожие объекты остаются рядом.
-
Широко применяется для визуализации (чаще всего в 2D или 3D).
Плюсы:
-
Отлично визуализирует сложные многомерные структуры.
-
Улавливает нелинейные зависимости.
Минусы:
-
Очень дорогой по времени (медленный).
-
Нестабильный при перезапусках (не детерминированный).
-
Не используется для подготовки данных перед обучением модели (только для визуализации).
🟪 UMAP (Uniform Manifold Approximation and Projection)
-
Современный метод, похожий на t-SNE, но быстрее и стабильнее.
-
Основан на топологической теории и сохраняет как локальную, так и глобальную структуру данных.
-
Используется и для визуализации, и как предварительный этап перед обучением моделей.
Преимущества над t-SNE:
-
Быстрее.
-
Поддерживает преобразование новых данных (в отличие от t-SNE).
-
Более чёткое разделение кластеров.
🟪 Isomap
-
Комбинирует PCA с идеей геодезических расстояний на графе ближайших соседей.
-
Подходит для данных, лежащих на многообразии (manifold learning).
🟪 Autoencoders (Автокодировщики)
-
Нейросетевой подход.
-
Состоит из энкодера и декодера:
-
Энкодер сжимает данные в пространство меньшей размерности (бортовое пространство).
-
Декодер восстанавливает исходные данные из сжатых.
-
-
Часто используется как способ понижения размерности перед классификацией или визуализацией.
Вариации:
-
Denoising Autoencoders.
-
Variational Autoencoders (VAE).
-
Sparse Autoencoders.
Плюсы:
-
Подходит для сложных и нелинейных данных.
-
Может быть адаптирован под задачу.
Минусы:
- Требует настройки архитектуры и обучения.
3. Методы отбора признаков (Feature Selection)
Понижение размерности может достигаться не только трансформацией признаков, но и их отбором:
🔹 Фильтрация (Filter methods):
-
Используют статистические критерии (корреляция, χ², mutual information).
-
Признаки оцениваются независимо от модели.
🔹 Обёртки (Wrapper methods):
-
Подбирают подмножества признаков на основе качества модели (например, рекурсивное исключение признаков — RFE).
-
Точнее, но ресурсоёмко.
🔹 Встроенные методы (Embedded methods):
- Используют алгоритмы, где отбор признаков встроен (например, Lasso регрессия, деревья решений).
4. Feature Agglomeration
-
Метод кластеризации признаков.
-
Признаки с похожим поведением объединяются (например, на основе корреляции).
-
Используется в Scikit-learn как один из способов понижения размерности.
5. Random Projection
-
Метод, основанный на теореме Джонсона–Линденштрауса: данные можно проецировать в более низкое пространство с малой потерей расстояний.
-
Быстрый и простой метод.
-
Используется для больших датасетов.
Выбор метода зависит от:
Критерий | Рекомендованный метод |
---|---|
Линейная структура данных | PCA |
--- | --- |
Метки классов известны | LDA |
--- | --- |
Только визуализация | t-SNE, UMAP |
--- | --- |
Большие данные | Random Projection, Autoencoders |
--- | --- |
Нелинейные зависимости | UMAP, Autoencoders, Isomap |
--- | --- |
Сохранение глобальной структуры | UMAP, PCA |
--- | --- |
Объяснимость и интерпретация | PCA, Feature Selection |
--- | --- |
Таким образом, понижение размерности — это мощный инструмент, и его успешное применение требует понимания как структуры данных, так и возможностей каждого метода.