Sobes Expert - База вопросов технических собеседований

Что такое инцидент и как он классифицируется?

Инцидент в контексте IT-сервисов и эксплуатации — это любое событие, которое нарушает или потенциально может нарушить нормальную работу системы, сервиса или инфраструктуры, и требует реакции команды. В SRE и ITIL это означает ситуацию, когда сервис работает хуже, чем определено в SLO/SLA, либо есть риск, что он перестанет соответствовать этим целям.

Инциденты фиксируются, чтобы:

быстро восстанавливать работоспособность сервиса;
минимизировать влияние на пользователей и бизнес;
анализировать причины и предотвращать повторения.

Основные признаки инцидента

Сервис недоступен полностью или частично.
Деградация ключевых функций (замедление, ошибки, некорректные ответы).
Превышение установленных порогов SLO/SLI.
Влияние на бизнес-процессы или безопасность данных.
Аварии в инфраструктуре (сетевые сбои, отказ оборудования, ошибки конфигураций).

Классификация по ITIL и SRE-практикам

1. По уровню воздействия (impact)

Low (низкий) — проблема затрагивает ограниченное число пользователей или несущественные функции (например, ошибка в панели администратора без влияния на клиентов).
Medium (средний) — значительная часть пользователей испытывает неудобства, но основные функции работают (например, задержка в отображении данных).
High (высокий) — критические функции недоступны для большого числа пользователей.
Critical (критический) — сервис полностью недоступен или есть серьёзный риск потери данных.

2. По срочности (urgency)

P4 — низкий приоритет: можно отложить до планового окна (например, мелкий баг в UI).
P3 — средний приоритет: нужно решить в течение рабочего дня.
P2 — высокий приоритет: требуется быстрая реакция (несколько часов).
P1 — критический приоритет: немедленная реакция 24/7, весь ресурс команды направлен на устранение.

3. По длительности и прогнозу

Текущий (ongoing) — инцидент всё ещё в процессе устранения.
Интермиттирующий (intermittent) — проблема возникает периодически.
Закрытый (resolved) — устранена причина, проведена проверка и постмортем.

4. По происхождению

Технические сбои — аппаратные отказы, баги в ПО, сбои в конфигурациях, падения сервисов.
Человеческие ошибки — неверное обновление, удаление данных, неправильная настройка.
Внешние факторы — сбои у провайдеров, DDoS-атаки, проблемы в дата-центре.
Плановые работы с ошибками — инциденты, возникшие во время/после обновлений.

5. По типу в SRE-категоризации

Outage — полный отказ сервиса.
Degradation — деградация производительности (увеличение latency, рост error rate).
Security incident — нарушение или угроза безопасности.
Capacity incident — нехватка ресурсов (CPU, память, диски, сетевой канал).
Dependency incident — сбой внешнего или внутреннего зависимого сервиса.

Связанные понятия

Major Incident — особо значимый инцидент (P1 или P0), требующий немедленной мобилизации команды, часто с привлечением руководства.
Postmortem — разбор инцидента после его устранения, включающий анализ первопричины (root cause analysis), хронологию, последствия и действия по предотвращению повторений.
Error budget burn — ситуация, когда инцидент приводит к быстрому расходу error budget, что ограничивает возможность выпускать новые изменения.

14-08-2025

Easy 222 просмотров