Sobes Expert - База вопросов технических собеседований

Что такое изображение с точки зрения математики?

С точки зрения математики изображение можно рассматривать как дискретную двумерную функцию, отображающую координаты пикселя в числовое значение, которое характеризует яркость, цвет или интенсивность в данной точке.

Формально изображение описывается как:

I(x, y) → V,
где

x и y — дискретные координаты пикселя,
I(x, y) — значение функции в точке (x, y),
V — множество возможных значений интенсивности (в grayscale) или векторов (в цветных изображениях).

1. Градации серого (grayscale)

Если изображение — черно-белое (градации серого), то каждая точка (x, y) имеет числовое значение интенсивности:

I(x, y) ∈ [0, 255] в 8-битной шкале,
где:

0 означает чёрный,
255 — белый,
значения между ними — разные оттенки серого.

Математически это:

матрица размера M × N, где M — высота, N — ширина изображения,
каждый элемент этой матрицы — целое число от 0 до 255.

2. Цветное изображение (RGB)

Цветное изображение обычно представлено в модели RGB, где каждая точка имеет три компонента: красную (R), зелёную (G) и синюю (B).

Математически это:

тензор (массив) размером M × N × 3,
каждая компонентная плоскость — отдельная матрица: R(x, y), G(x, y), B(x, y),
значения в каждой из них также принадлежат диапазону [0, 255].

Пример:
Если изображение 100×200 пикселей, то это тензор размера 100 × 200 × 3.

3. Математические представления изображения

Массив (матрица)

Изображение удобно представлять как матрицу A, где:

A[i][j] — яркость пикселя в строке i, столбце j.

Для цветного изображения используются три таких матрицы (или одномерный массив с тремя каналами).

Векторизация

Изображение можно представить как вектор в пространстве ℝ^n, где n = M × N × C:

C — число каналов (1 для grayscale, 3 для RGB),
это полезно при использовании в нейросетях или при обучении моделей (например, PCA, SVM).

Функция плотности

В теории изображений можно рассматривать непрерывные изображения как функции:
f: ℝ² → ℝ — функция, определяющая интенсивность в каждой точке на плоскости.
Цифровое изображение — это дискретизация такой функции.

4. Изображение как сигнал

Сигнальный подход трактует изображение как двумерный дискретный сигнал.
Это позволяет применять:

дискретное преобразование Фурье (DFT),
свёртки (convolutions),
фильтрацию (low-pass, high-pass, edge detection).

Математически это:

представление изображения в частотной области,
использование операций свёртки/корреляции:
(I * K)(x, y) = ΣΣ I(i, j) × K(x-i, y-j),
где K — ядро фильтра (например, оператор Собеля, Гаусса и др.)

5. Математические преобразования изображений

Некоторые важные трансформации:

Аффинные преобразования: сдвиг, поворот, масштаб, отражение
- описываются матрицами 2×3 или 3×3 (в однородных координатах)
Гомография — более общее преобразование перспективы (матрица 3×3)
Морфологические операции: дилатация, эрозия, открытие, замыкание (особенно в бинарных изображениях)
Гистограмма — функция распределения яркостей в изображении

6. Цветовые пространства

Изображения могут быть представлены не только в RGB:

HSV (Hue, Saturation, Value) — полезно для фильтрации по цвету.
YCbCr — используется в сжатии (например, JPEG).
LAB — ближе к восприятию человека, использует нелинейные шкалы.

Математически каждое из этих пространств — это преобразование вида:

(R, G, B) → (H, S, V),
(R, G, B) → (Y, Cb, Cr)
— с помощью линейных или нелинейных матричных преобразований.

7. Дискретизация и квантование

Цифровое изображение возникает после:

дискретизации (преобразование непрерывного изображения в сетку пикселей),
квантования (преобразование значений интенсивности в конечный набор уровней).

Пример: если мы снимаем изображение с аналогового фотоаппарата, сенсор воспринимает непрерывный световой поток. После обработки сигнал преобразуется в цифровую форму с дискретными значениями.

8. Сжатие и представление

Сжатие изображений основано на математике:

JPEG: дискретное косинус-преобразование (DCT), квантование коэффициентов.
PNG: LZ77-компрессия, фильтрация строк.
WebP: использует предсказание блоков, DCT и энтропийное кодирование.

9. Изображение как граф

В некоторых случаях изображение интерпретируется как граф:

вершины — пиксели,
ребра — связь с соседями,
веса — функция разницы интенсивности или цвета.

Это используется в алгоритмах:

сегментации (Graph Cut, GrabCut),
кластеризации (Watershed),
построения суперпикселей (SLIC).

10. Изображения высокого порядка

Математика также применима к:

многоспектральным изображениям (спутники, медицина) — где более 3-х каналов,
глубинным картам (depth maps) — значение функции I(x, y) — глубина,
текстурным картам, нормалям и теням в 3D-графике.

Таким образом, изображение в математическом смысле — это набор данных, представленных в виде тензора, матрицы или функции, для которых применимы методы линейной алгебры, анализа, теории вероятностей, теории информации, теории сигналов и дискретной математики.

08-08-2025

Easy 107 просмотров