Что такое изображение с точки зрения математики?
С точки зрения математики изображение можно рассматривать как дискретную двумерную функцию, отображающую координаты пикселя в числовое значение, которое характеризует яркость, цвет или интенсивность в данной точке.
Формально изображение описывается как:
I(x, y) → V,
где
-
x и y — дискретные координаты пикселя,
-
I(x, y) — значение функции в точке (x, y),
-
V — множество возможных значений интенсивности (в grayscale) или векторов (в цветных изображениях).
1. Градации серого (grayscale)
Если изображение — черно-белое (градации серого), то каждая точка (x, y) имеет числовое значение интенсивности:
I(x, y) ∈ [0, 255] в 8-битной шкале,
где:
-
0 означает чёрный,
-
255 — белый,
-
значения между ними — разные оттенки серого.
Математически это:
-
матрица размера M × N, где M — высота, N — ширина изображения,
-
каждый элемент этой матрицы — целое число от 0 до 255.
2. Цветное изображение (RGB)
Цветное изображение обычно представлено в модели RGB, где каждая точка имеет три компонента: красную (R), зелёную (G) и синюю (B).
Математически это:
-
тензор (массив) размером M × N × 3,
-
каждая компонентная плоскость — отдельная матрица: R(x, y), G(x, y), B(x, y),
-
значения в каждой из них также принадлежат диапазону [0, 255].
Пример:
Если изображение 100×200 пикселей, то это тензор размера 100 × 200 × 3.
3. Математические представления изображения
Массив (матрица)
Изображение удобно представлять как матрицу A, где:
- A[i][j] — яркость пикселя в строке i, столбце j.
Для цветного изображения используются три таких матрицы (или одномерный массив с тремя каналами).
Векторизация
Изображение можно представить как вектор в пространстве ℝ^n, где n = M × N × C:
-
C — число каналов (1 для grayscale, 3 для RGB),
-
это полезно при использовании в нейросетях или при обучении моделей (например, PCA, SVM).
Функция плотности
В теории изображений можно рассматривать непрерывные изображения как функции:
f: ℝ² → ℝ — функция, определяющая интенсивность в каждой точке на плоскости.
Цифровое изображение — это дискретизация такой функции.
4. Изображение как сигнал
Сигнальный подход трактует изображение как двумерный дискретный сигнал.
Это позволяет применять:
-
дискретное преобразование Фурье (DFT),
-
свёртки (convolutions),
-
фильтрацию (low-pass, high-pass, edge detection).
Математически это:
-
представление изображения в частотной области,
-
использование операций свёртки/корреляции:
(I * K)(x, y) = ΣΣ I(i, j) × K(x-i, y-j),
где K — ядро фильтра (например, оператор Собеля, Гаусса и др.)
5. Математические преобразования изображений
Некоторые важные трансформации:
-
Аффинные преобразования: сдвиг, поворот, масштаб, отражение
- описываются матрицами 2×3 или 3×3 (в однородных координатах)
-
Гомография — более общее преобразование перспективы (матрица 3×3)
-
Морфологические операции: дилатация, эрозия, открытие, замыкание (особенно в бинарных изображениях)
-
Гистограмма — функция распределения яркостей в изображении
6. Цветовые пространства
Изображения могут быть представлены не только в RGB:
-
HSV (Hue, Saturation, Value) — полезно для фильтрации по цвету.
-
YCbCr — используется в сжатии (например, JPEG).
-
LAB — ближе к восприятию человека, использует нелинейные шкалы.
Математически каждое из этих пространств — это преобразование вида:
(R, G, B) → (H, S, V),
(R, G, B) → (Y, Cb, Cr)
— с помощью линейных или нелинейных матричных преобразований.
7. Дискретизация и квантование
Цифровое изображение возникает после:
-
дискретизации (преобразование непрерывного изображения в сетку пикселей),
-
квантования (преобразование значений интенсивности в конечный набор уровней).
Пример: если мы снимаем изображение с аналогового фотоаппарата, сенсор воспринимает непрерывный световой поток. После обработки сигнал преобразуется в цифровую форму с дискретными значениями.
8. Сжатие и представление
Сжатие изображений основано на математике:
-
JPEG: дискретное косинус-преобразование (DCT), квантование коэффициентов.
-
PNG: LZ77-компрессия, фильтрация строк.
-
WebP: использует предсказание блоков, DCT и энтропийное кодирование.
9. Изображение как граф
В некоторых случаях изображение интерпретируется как граф:
-
вершины — пиксели,
-
ребра — связь с соседями,
-
веса — функция разницы интенсивности или цвета.
Это используется в алгоритмах:
-
сегментации (Graph Cut, GrabCut),
-
кластеризации (Watershed),
-
построения суперпикселей (SLIC).
10. Изображения высокого порядка
Математика также применима к:
-
многоспектральным изображениям (спутники, медицина) — где более 3-х каналов,
-
глубинным картам (depth maps) — значение функции I(x, y) — глубина,
-
текстурным картам, нормалям и теням в 3D-графике.
Таким образом, изображение в математическом смысле — это набор данных, представленных в виде тензора, матрицы или функции, для которых применимы методы линейной алгебры, анализа, теории вероятностей, теории информации, теории сигналов и дискретной математики.