Sobes Expert - База вопросов технических собеседований

Что такое дата-лейк и чем он отличается от хранилища данных?

Дата-лейк (Data Lake) — это централизованное хранилище данных, предназначенное для хранения огромных объёмов структурированных, полуструктурированных и неструктурированных данных в их исходном (raw) виде. В отличие от традиционного хранилища данных (Data Warehouse), которое требует предварительной обработки и строгой схемы (schema-on-write), дата-лейк работает по принципу schema-on-read, позволяя анализировать данные в момент обращения к ним, а не во время загрузки.

Основные характеристики Data Lake

Гибкость в типах данных:
- Хранит любые типы данных: CSV, JSON, XML, Parquet, AVRO, изображения, видео, логи, документы и бинарные файлы.
- Поддерживает как структурированные (таблицы), так и неструктурированные (лог-файлы, медиа) данные.
Масштабируемость:
Построен на базе распределённых систем хранения (например, Amazon S3, Hadoop HDFS, Azure Data Lake Storage), что позволяет обрабатывать петабайты информации.
Отложенная схема (schema-on-read):
Структура данных накладывается в момент чтения, а не при загрузке. Это делает хранение более быстрым, но анализ сложнее, так как схема может быть неочевидной или отсутствовать.
Открытость форматов и интеграция с Big Data:
Поддержка Apache Hadoop, Apache Spark, Presto, Hive, Flink, Delta Lake и других инструментов.
Низкая стоимость хранения:
Использование дешёвых дисков или облачного хранения позволяет сохранять данные на долгое время.

Основные характеристики Data Warehouse

Структурированные данные:
Данные тщательно отбираются, очищаются и подготавливаются перед загрузкой (ETL-процесс).
Schema-on-write:
Данные должны соответствовать жёстко заданной схеме при записи. Это гарантирует консистентность, целостность и надёжность.
Производительность:
Оптимизировано под сложные аналитические SQL-запросы, агрегаты и отчёты (OLAP-нагрузки). Может использовать колоночное хранение и индексы.
Сложность изменения схемы:
Изменения структуры таблиц и моделей данных требуют пересмотра всего пайплайна, пересоздания таблиц и повторной загрузки данных.
Высокая стоимость:
Поддержание data warehouse часто дороже из-за лицензионных плат, требований к аппаратуре и ресурсов ETL.

Отличия Data Lake и Data Warehouse

Критерий	Data Lake	Data Warehouse
Типы данных	Структурированные, полуструктурированные, неструктурированные	Только структурированные
---	---	---
Схема	Schema-on-read	Schema-on-write
---	---	---
Стоимость хранения	Низкая	Высокая
---	---	---
Скорость записи данных	Высокая (нет необходимости в трансформации)	Медленнее (из-за трансформации и схемы)
---	---	---
Скорость аналитики	Ниже (без индексирования, схема не задана)	Выше (оптимизировано под запросы)
---	---	---
Гибкость обработки	Высокая (любой формат, любой инструмент)	Ограничена SQL и табличными данными
---	---	---
Используемые технологии	HDFS, Amazon S3, Azure DL, Delta Lake	Redshift, BigQuery, Snowflake, Teradata
---	---	---
Применение	Data science, Machine Learning, логи, IoT	BI-отчёты, отчётность, финансовая аналитика
---	---	---

Использование: когда что применять

Data Lake часто используется для:
- Хранения необработанных данных в их изначальном виде (raw data)
- Машинного обучения и Data Science
- Потоковой обработки (stream processing)
- Хранения архивов и логов
- Первичного сбора данных перед анализом или перед преобразованием в хранилище
Data Warehouse применяется для:
- Создания отчётов для бизнеса (BI)
- Финансовой аналитики
- Построения дашбордов
- Регулярных аналитических запросов

Совмещение Data Lake и Data Warehouse: Data Lakehouse

Современные архитектуры всё чаще используют гибридный подход, называемый Data Lakehouse — это инфраструктура, которая совмещает гибкость и масштабируемость дата-лейка с управляемостью и производительностью хранилищ данных. Платформы вроде Databricks, Delta Lake и Snowflake развиваются именно в этом направлении.

Примеры инструментов

Data Lake:
- Amazon S3
- Azure Data Lake Storage
- Google Cloud Storage
- Apache Hadoop HDFS
- Delta Lake, Apache Iceberg
Data Warehouse:
- Amazon Redshift
- Google BigQuery
- Microsoft Azure Synapse
- Snowflake
- Teradata

Таким образом, дата-лейк служит "базой" для хранения любых данных без необходимости сразу приводить их к жёсткой структуре, а хранилище данных — это специализированное средство для хранения и анализа заранее структурированных, очищенных и агрегированных данных. Обе технологии часто используются совместно в рамках многоуровневой архитектуры данных.

31-07-2025

Easy 224 просмотров