Какие подходы понижения размерности известн


Понижение размерности (dimensionality reduction) — это процесс преобразования данных с высоким числом признаков (фичей) в пространство меньшей размерности при сохранении как можно большей части информации. Такой подход помогает устранить шум, уменьшить переобучение, повысить производительность алгоритмов машинного обучения и улучшить визуализацию.

Существуют два основных типа методов понижения размерности:

1. Линейные методы

🟦 PCA (Principal Component Analysis) — метод главных компонент

  • Один из самых распространённых алгоритмов.

  • Основан на ортогональном преобразовании пространства: находит такие оси (компоненты), вдоль которых разброс (дисперсия) данных максимален.

  • Уменьшает размерность, оставляя только наиболее значимые компоненты (например, первые 2 или 3).

  • Каждая компонента — это линейная комбинация исходных признаков.

Плюсы:

  • Простота реализации.

  • Быстрая работа.

  • Хорошо работает, если корреляции между признаками линейные.

Минусы:

  • Не улавливает нелинейные зависимости.

  • Интерпретируемость новых признаков теряется.

🟦 LDA (Linear Discriminant Analysis)

  • В отличие от PCA, учитывает метки классов.

  • Ищет проекцию, максимально разделяющую классы.

  • Используется в задачах классификации для понижения размерности и повышения разделимости.

Важно: LDA работает только при наличии категориальных целевых переменных.

2. Нелинейные методы

🟪 t-SNE (t-distributed Stochastic Neighbor Embedding)

  • Строит вероятностные распределения схожести между точками в исходном и низкоразмерном пространствах.

  • Сохраняет локальную структуру данных — схожие объекты остаются рядом.

  • Широко применяется для визуализации (чаще всего в 2D или 3D).

Плюсы:

  • Отлично визуализирует сложные многомерные структуры.

  • Улавливает нелинейные зависимости.

Минусы:

  • Очень дорогой по времени (медленный).

  • Нестабильный при перезапусках (не детерминированный).

  • Не используется для подготовки данных перед обучением модели (только для визуализации).

🟪 UMAP (Uniform Manifold Approximation and Projection)

  • Современный метод, похожий на t-SNE, но быстрее и стабильнее.

  • Основан на топологической теории и сохраняет как локальную, так и глобальную структуру данных.

  • Используется и для визуализации, и как предварительный этап перед обучением моделей.

Преимущества над t-SNE:

  • Быстрее.

  • Поддерживает преобразование новых данных (в отличие от t-SNE).

  • Более чёткое разделение кластеров.

🟪 Isomap

  • Комбинирует PCA с идеей геодезических расстояний на графе ближайших соседей.

  • Подходит для данных, лежащих на многообразии (manifold learning).

🟪 Autoencoders (Автокодировщики)

  • Нейросетевой подход.

  • Состоит из энкодера и декодера:

    • Энкодер сжимает данные в пространство меньшей размерности (бортовое пространство).

    • Декодер восстанавливает исходные данные из сжатых.

  • Часто используется как способ понижения размерности перед классификацией или визуализацией.

Вариации:

  • Denoising Autoencoders.

  • Variational Autoencoders (VAE).

  • Sparse Autoencoders.

Плюсы:

  • Подходит для сложных и нелинейных данных.

  • Может быть адаптирован под задачу.

Минусы:

  • Требует настройки архитектуры и обучения.

3. Методы отбора признаков (Feature Selection)

Понижение размерности может достигаться не только трансформацией признаков, но и их отбором:

🔹 Фильтрация (Filter methods):

  • Используют статистические критерии (корреляция, χ², mutual information).

  • Признаки оцениваются независимо от модели.

🔹 Обёртки (Wrapper methods):

  • Подбирают подмножества признаков на основе качества модели (например, рекурсивное исключение признаков — RFE).

  • Точнее, но ресурсоёмко.

🔹 Встроенные методы (Embedded methods):

  • Используют алгоритмы, где отбор признаков встроен (например, Lasso регрессия, деревья решений).

4. Feature Agglomeration

  • Метод кластеризации признаков.

  • Признаки с похожим поведением объединяются (например, на основе корреляции).

  • Используется в Scikit-learn как один из способов понижения размерности.

5. Random Projection

  • Метод, основанный на теореме Джонсона–Линденштрауса: данные можно проецировать в более низкое пространство с малой потерей расстояний.

  • Быстрый и простой метод.

  • Используется для больших датасетов.

Выбор метода зависит от:

Критерий Рекомендованный метод
Линейная структура данных PCA
--- ---
Метки классов известны LDA
--- ---
Только визуализация t-SNE, UMAP
--- ---
Большие данные Random Projection, Autoencoders
--- ---
Нелинейные зависимости UMAP, Autoencoders, Isomap
--- ---
Сохранение глобальной структуры UMAP, PCA
--- ---
Объяснимость и интерпретация PCA, Feature Selection
--- ---

Таким образом, понижение размерности — это мощный инструмент, и его успешное применение требует понимания как структуры данных, так и возможностей каждого метода.