Как построить production-ready кластер Kubernetes с высоким SLA?

Архитектура и размещение

Control plane HA: минимум 3 control-plane/etcd ноды, разнесённые по Fault Domains (AZ/языкам/румам). etcd — odd number (3/5) с TLS, отдельные диски, регулярные снимки (snapshots).
Worker-nodes: несколько node-pools (по типу: general, compute-heavy, gpu, spot) и минимум 3 ноды в каждой зоне для устойчивости к потере зоны.
Мульти-кластер / региональность: для критичного SLA — active-active или active-passive кластеры в нескольких регионах с глобальным LB/Anycast/DNS failover.

Сеть и доступность

CNI с поддержкой NetworkPolicy и масштабируемостью (Cilium/Calico); рассмотреть eBPF для производительности.
kube-proxy в IPVS для L4-производительности.
Ingress: HA Ingress Controller (NGINX/Traefik/Contour) + облачные/он-пром LB с health checks; использовать TLS termination, HTTP/2, timeouts.
MTU, маршрутизация, BGP (для bare-metal) — тестировать сетевые пути и пропускную способность.

Хранилище и данные

CSI драйверы + VolumeSnapshot для PV snapshot-ов.
StatefulSets с отдельными PVC; для БД — managed сервисы или репликация/logical backup (PITR).
Резервные копии PV и etcd, регулярная проверка restore в staging.

Надёжность подов и деплоймента

Readiness/Liveness probes обязательны.
Ресурсы: requests+limits, QoS классы.
PodDisruptionBudget для контролируемых эвикшенов при обновлениях.
Rolling updates + canary/blue-green через Argo Rollouts/Service mesh.
StatefulSets с правильной updateStrategy и anti-affinity.

Автоскейлинг и управление ёмкостью

HPA (метрики на CPU/custom), VPA для right-sizing, Cluster-Autoscaler для node pool autoscaling.
Capacity planning: headroom на узлах, bin-packing, taints/tolerations для критичных ворклоадов.

Безопасность и соответствие

Аутентификация: OIDC/SSO, MFA; аудит (audit logs) в удалённое хранилище.
RBAC — принцип наименьших привилегий; отдельные ServiceAccount для приложений.
Политики безопасности: Pod Security Admission / OPA Gatekeeper — запрет privileged, hostNetwork, hostPath и т.д.
Secrets: KMS-шифрование at rest, Vault / SealedSecrets / SOPS для управления; automount disabled для ненужных Pod’ов.
Image security: подписанные образы (cosign), сканирование (Trivy/Clair) на CI, private registry с ограничениями.

Наблюдаемость и реагирование

Prometheus + Alertmanager + Grafana (HA/replicated/Thanos или Cortex для long-term). node-exporter, kube-state-metrics, cAdvisor.
Centralized логирование (Fluentd/Fluent Bit → Loki/Elasticsearch) и tracing (OpenTelemetry → Jaeger/Tempo).
Recording rules, p95/p99 metrics, корректные alert-rules с для severity/route.
Runbooks и playbooks в виде доступных документов для on-call.

Резервное копирование и DR

Регулярные etcd snapshots, offsite хранение, регенерация контроль-плэйна.
PV snapshots (CSI) + application-consistent back-ups для БД (dump/WAL).
Тестовые восстановления (rehearsal) — автоматизированные и частые.

Операции, апгрейды и тестирование

Zero-downtime апгрейды control-plane и kubelets с использованием drain + PDB.
CI/CD: GitOps (ArgoCD/Flux) для declarative deploys; pipelines с image build → scan → canary → promote.
Chaos engineering (chaos-tooling) и load tests перед релизами.
Мониторинг SLA/SLO, error budget, регулярные ретроспективы инцидентов.

Политики и мульти-тенантность

Namespaces + ResourceQuota + LimitRange.
NetworkPolicy default-deny, namespace-scoped RBAC.
Для жёсткой мульти-тенантности — отдельные кластеры или виртуализация (VMs + kube).

Документация и процессы

Runbooks, on-call playbooks, escalation paths, список ключевых контактов.
Планы на случай катастрофы, RTO/RPO договорены и протестированы.
Чёткие SLA для infra и приложений, alerting и dashboards под SLO.

Организация всех этих слоёв, регулярное тестирование DR/upgrade/chaos, автоматизация (GitOps/CI) и дисциплина (security, observability, runbooks) — ключ к production-ready кластеру с высоким SLA.

14-08-2025

Hard 4 просмотров