Sobes Expert - База вопросов технических собеседований

Какие стратегии disaster recovery вы внедряли?

Я не внедряю решения в реальном мире лично, но ниже — подробный набор проверенных стратегий и практик disaster recovery (DR), которые инженерные и SRE-команды обычно внедряют и эксплуатируют в продакшене.

Цели и критерии

RTO (Recovery Time Objective) — сколько времени допустимо на восстановление.
RPO (Recovery Point Objective) — допустимая потеря данных.
Проектирование DR начинается с согласования RTO/RPO для каждого сервиса и данных.

Классификация стратегий DR (с практическими примерами)

**Backup & Restore (cold recovery)
**
- Полные и инкрементальные бэкапы, snapshotы томов/БД в объектное хранилище (S3/GCS/Blob).
- Подходит при высоких RTO, низкой стоимости. Важна автоматизация restore и тестирование.
**Pilot Light
**
- Ограниченная инфраструктура (минимальный «минимум»): инфраструктура и критичные сервисы готовы, но не масштабируются до продовой нагрузки. При инциденте наращивают и переключают трафик.
- Баланс цена/скорость восстановления для средних RTO.
**Warm Standby
**
- Дубликат окружения работает в меньшей мощности (scaled down). При критике — масштабирование до prod уровня.
- Быстрее, чем cold; дороже, но экономичнее, чем горячий.
**Hot Standby / Active-Active (multi-region)
**
- Полноценные active-active кластеры в нескольких регионах с репликацией данных и GSLB/Anycast. Минимальное RTO, высокая стоимость и сложность (согласованность данных, конфликты).
**DB-ориентированные стратегии
**
- Synchronous replication / Multi-AZ (низкий RPO, применяется в RDBMS/managed DB).
- Asynchronous replication + automated promotion (быстрее и дешевле, есть риск небольшой потери данных).
- PITR (Point-in-Time Recovery) + WAL shipping для восстановления до конкретного момента (защита от логических ошибок/ransomware).
- Delayed replica (отложенная репликация на N часов) — защита от мгновенной порчи данных/ошибочных массовых записей.
**Immutable / Air-gapped backups
**
- Неперезаписываемые, недоступные для prod-сервисов копии (WORM), отдельное хранилище для защиты от ransomware и внутренних угроз.
**Cross-region replication & geo-partitioning
**
- Репликация объектов и BLOB (S3 Replication), базы с multi-region репликацией; для write-heavy систем — шардинг по региону.

Автоматизация, оркестрация и переключение трафика

Infrastructure as Code (Terraform/CloudFormation/ARM) для быстрого восстановления инфраструктуры.
Runbooks + automation scripts (Rundeck/Ansible) для reproducible failover/restore.
Traffic steering: GSLB / Cloud Global LB / Anycast / DNS failover с контролируемым TTL; предусматривать connection draining.
Database promotion: автоматические и проверенные процедуры promote replica → master с шагами валидации (health checks, schema checks).

Защита от специфичных угроз

Ransomware / logical corruption: immutable backups, delayed replicas, регулярные тест-restores.
Human error: role-based access, approval workflows, ограничение production write-access, audit logs.
Region outage: multi-region active-active или warm standby с автоматическим переключением.

Процедуры тестирования и поддержания готовности

Регулярные DR-drills: от частичных failovers до full region failover в контролируемом окне.
Test restores: частичные и полные restore по расписанию; верификация целостности данных и прикладных тестов.
Chaos/Failover GameDays: проверка runbooks, автоматизации и коммуникаций.
Catalog & discovery: централизованный реестр бэкапов (backup catalog), metadata о retention и owner’ах.

Операционные аспекты и коммуникация

Playbooks / Runbooks с точными командами, expected outputs и ролями (IC, Scribe, Communications).
Status page / stakeholder updates и заранее прописанные шаблоны коммуникации.
Audit и compliance: retention-политики, шифрование, логирование доступа к бэкапам.

Валидация целостности и безопасности

Контрольные суммы (checksums), регулярная верификация архива (crc), шифрование at-rest и in-transit.
Ротация ключей и управление доступом (Vault/KMS). Immutable backup + air-gap для критичных данных.

Последовательность восстановления (примерный порядок)

привести в рабочее состояние сетевую/приватную инфраструктуру и DNS/GSLB;
поднять хранилище данных (реплики/бэкапы) и верифицировать;
восстановить critical services (auth, db, cache);
переключить трафик (canary → full) и верифицировать health;
поднять вспомогательные сервисы (batch, analytics) и проверить интеграции.

Метрики и контроль эффективности DR

Observed RTO / RPO в тестах; успешные restore rate; time to validate; % автоматизированных шагов; число найденных отказов при drills; recovery runbook coverage.

Трейд-оффы и экономика

Баланс между стоимостью и требуемым RTO/RPO: hot active-active — дорого; cold backup — дешево, но медленно. Выбирать стратегию сервис-ориентировано.

Заключение не нужен по запросу — метрики для контроля DR:

RPO/RTO (целевые и фактические), restore success %, test frequency, mean time to validate, % critical assets with immutable backups.

14-08-2025

Hard 3 просмотров