Sobes Expert - База вопросов технических собеседований

Какой стек технологий вы предпочитаете для пайплайнов и почему?

Предпочтительный стек технологий для построения дата-пайплайнов зависит от множества факторов — объёма данных, частоты обновлений, типа источников, требований к надежности, latency и интеграции с другими системами. Тем не менее, существует набор технологий, которые я предпочитаю использовать благодаря их зрелости, гибкости, масштабируемости и поддержке сообщества.

Языки программирования

Python

Наиболее универсальный язык в Data Engineering:

Библиотеки: pandas, sqlalchemy, pyarrow, pyspark, requests, fastavro.
Используется для: написания ETL-логики, обёрток над API, трансформаций, Glue jobs, Airflow DAG’ов, генерации тестов и метаданных.

SQL

Язык трансформаций на уровне Data Warehouse: BigQuery SQL, T-SQL, PostgreSQL, PrestoSQL.
Используется для чистки, агрегирования, джойнов, создания представлений, materialized views и CTE.

Bash

Для легковесных оркестраций, скриптов миграции, запуска cron-задач, управления CLI-инструментами GCP, AWS и Spark.

Хранилища

Data Lake (для сырья и полуобработанных данных):

Amazon S3 — высокая доступность, дешёвое хранилище, поддерживает Parquet, ORC, JSON, Avro.
Google Cloud Storage (GCS) — tight-интеграция с BigQuery, Airflow, Dataflow.
Azure Data Lake Storage Gen2 — иерархическая структура, ACL.

Data Warehouse (для аналитики):

BigQuery — serverless, auto-scaling, простой SQL-интерфейс, встроенный BI, fast analytics.
Snowflake — разделение compute/storage, поддержка semi-structured данных, zero-copy clone.
Amazon Redshift — традиционный MPP, но требует настройки кластеров.
Azure Synapse Analytics — тесная интеграция с Power BI и ADF.

Обработка и трансформации

Apache Spark (PySpark)

Стандарт де-факто для batch/stream ETL, особенно при работе с Parquet/Avro.
Используется в AWS Glue, Databricks, Azure Synapse, EMR, GCP Dataproc.
Подходит для сложных джойнов, window-функций, преобразований данных.

Apache Beam (через Google Dataflow)

Унифицированная модель batch + streaming.
Удобен для создания гибких пайплайнов с инкрементальной логикой и retry.
Используется в high-throughput real-time системах.

dbt (Data Build Tool)

Модель "SQL-as-code" для трансформаций на уровне DWH.
Позволяет документировать, тестировать и управлять зависимостями моделей.
Используется в связке с Snowflake, BigQuery, Redshift.

Оркестрация и планирование

Apache Airflow

Удобная DAG-структура, поддержка task dependency, retries, SLA.
Интеграция с AWS/GCP/Azure, PostgreSQL, MySQL, REST API, Slack.
Используется в Composer (GCP), MWAA (AWS), Astronomer.

Prefect

Современная альтернатива Airflow, ориентированная на Dataflow/Functional подход.
Лучше работает в event-driven архитектуре и более developer-friendly API.

AWS Step Functions / Azure Data Factory

Удобны для low-code сценариев, но ограничены по гибкости.

Стриминг

Kafka / Amazon MSK / Azure Event Hubs / Google Pub/Sub

Используются для ingest событий в реальном времени.
Стек Kafka чаще используется в enterprise-архитектурах с высокой нагрузкой.

Spark Structured Streaming / Apache Flink

Для обработки стриминговых данных, агрегаций по окнам, детектирования событий.
Flink — low-latency, stateful streaming; Spark — для более простых сценариев.

Хранилища метаданных

Data Catalog

AWS Glue Data Catalog — для партиционированных таблиц в S3.
Google Data Catalog — сканирует BigQuery, GCS, Pub/Sub.
Amundsen или Apache Atlas — для самостоятельного управления lineage и описания датасетов.

Форматы данных

Parquet — основной формат хранения в Data Lake: колоночный, сжатый, оптимален для аналитики.
Avro — сериализация для передачи по Kafka или хранения схем.
JSON — semi-structured, но не оптимален для аналитических задач.
Delta Lake / Iceberg / Hudi — ACID на уровне Data Lake (copy-on-write, merge-on-read, time travel, schema evolution).

Вспомогательные инструменты

Great Expectations — для автоматической валидации данных.
Dagster — альтернатива Airflow с типизированными пайплайнами.
Terraform — для IaC (создание S3, IAM, Pub/Sub, Firestore).
Docker + Kubernetes — для контейнеризации пайплайнов и микросервисов.

Логирование и мониторинг

Prometheus + Grafana — для метрик пайплайнов.
ELK Stack / OpenSearch — для логов из Spark/Airflow.
CloudWatch, Stackdriver, Azure Monitor — платформенные решения для мониторинга и алертов.

Почему этот стек?

Масштабируемость: Spark, BigQuery, Snowflake позволяют обрабатывать терабайты данных без ручного масштабирования.
Надежность: Airflow и Beam предоставляют retry, SLA, error-handling.
Гибкость: dbt, Python и SQL позволяют комбинировать декларативный и императивный подходы.
Экономия: использование serverless-компонентов (Athena, BigQuery, Glue) снижает затраты.
Тестируемость и CICD: всё конфигурируется как код — от DAG’ов до инфраструктуры и моделей.

Такой стек позволяет строить как простые пайплайны для отчётности, так и сложные event-driven архитектуры с real-time данными, гарантированной доставкой и контролем качества на каждом этапе.

31-07-2025

Medium 8 просмотров