Sobes Expert - База вопросов технических собеседований

Какие системы мониторинга вы знаете (Prometheus, Zabbix, Grafana и др.)?

Системы мониторинга — обзор популярных инструментов и стеков

Ниже перечислены и кратко описаны основные системы и компоненты наблюдаемости (metrics, logs, tracing, APM, synthetic), которые часто используют в продакшне.

Метрики / TSDB и сбор

Prometheus — de‑facto стандарт для метрик в облачных/контейнерных средах. Поддерживает pull‑модель, экспортеры (node_exporter, cadvisor), гистограммы/summary, Alertmanager для алертов. Хорош для микросервисов и Kubernetes.
Graphite — старый TSDB с простыми временными рядами и визуализацией (Grafana). Применим для простых сценариев.
InfluxDB — TSDB с собственным форматом, часто в составе стека TICK (Telegraf, InfluxDB, Chronograf, Kapacitor). Удобен для high‑throughput метрик.
VictoriaMetrics — масштабируемая замена Prometheus TSDB с высокой скоростью записи и экономией диска.
Cortex / Mimir / Thanos — проекты для горизонтального масштабирования и долгосрочного хранения метрик Prometheus (multi‑tenant, HA, ретеншн).

Визуализация и дашборды

Grafana — универсальный фронтэнд для метрик, логов и трейсинга; поддерживает Prometheus, InfluxDB, Graphite, Elasticsearch, Loki и т.д. Широко используется.
Kibana — визуализация для Elasticsearch (логов и метрик).

Логирование и агрегаторы

ELK/EFK (Elasticsearch + Logstash/Fluentd + Kibana) — популярный стек для логов, мощная индексация и поиск.
Fluentd / Fluent Bit / Filebeat — шипперы логов для агрегаторов.
Loki (Grafana Loki) — «логовая система для прометей» — хранит структурированные логи с метками, дешевле индексирования в ES и отлично интегрируется с Grafana.
Splunk — коммерческий продукт для логов и аналитики (богат функционал, дорого).

Трейсинг и APM

Jaeger / Zipkin — распределённый трейсинг (OpenTracing/OpenTelemetry‑совместимые).
Grafana Tempo — лёгкий бэкенд для трасов, интеграция с Grafana.
OpenTelemetry — стандарт для собирания metrics/logs/traces (агенты, SDK).
New Relic, Dynatrace, Datadog APM — коммерческие APM‑решения с глубоким профайлингом и анализом производительности.

Uptime / synthetic / RUM

UptimeRobot, Pingdom, Uptrends — внешние синтетические проверки доступности сайта/эндпоинтов.
Real User Monitoring (RUM) — средства для измерения опыта реальных пользователей (встраиваемые SDK в браузер/мобильные приложения).

All‑in‑one / SaaS наблюдаемость

Datadog — метрики, логи, APM, synthetic, мониторинг infra и интеграции. Удобен, но платный.
New Relic, Dynatrace, Splunk Observability — комплексные платформы для больших организаций.

Нотификация / инцидент‑менеджмент

Alertmanager (Prometheus) — маршрутизация, дедупликация, эскалация.
PagerDuty, Opsgenie — управление on‑call и эскалациями.

Лёгкие и edge‑решения

Netdata — real‑time мониторинг хостов с минимальной настройкой.
Icinga, Nagios, Zabbix — традиционные системы мониторинга и чеков; Zabbix — мощный, с агентом и триггерами; Nagios/Icinga — классика для инфраструктуры и сенсоров.

Как выбирать

Для Kubernetes + микросервисов: Prometheus + Grafana (+ Alertmanager), дополнить Loki/Tempo и OpenTelemetry.
Для логов с мощным поиском: ELK/EFK или коммерческий Splunk.
Для быстрого старта на хосте: Netdata/Telegraf + InfluxDB + Grafana.
Для организаций, которые не хотят оперировать инфраструктурой: Datadog/New Relic/Dynatrace.
Для больших нагрузок и долгосрочного хранения метрик: VictoriaMetrics / Thanos / Cortex.

Каждый компонент решает свою часть наблюдаемости (метрики, логи, трассы, synthetic и алерты); в продакшне обычно комбинируют несколько инструментов, подбирая их по требованиям масштабируемости, стоимости, интеграций и удобства эксплуатации.

14-08-2025

Easy 283 просмотров