Что такое инцидент и как он классифицируется?
Инцидент в контексте IT-сервисов и эксплуатации — это любое событие, которое нарушает или потенциально может нарушить нормальную работу системы, сервиса или инфраструктуры, и требует реакции команды. В SRE и ITIL это означает ситуацию, когда сервис работает хуже, чем определено в SLO/SLA, либо есть риск, что он перестанет соответствовать этим целям.
Инциденты фиксируются, чтобы:
-
быстро восстанавливать работоспособность сервиса;
-
минимизировать влияние на пользователей и бизнес;
-
анализировать причины и предотвращать повторения.
Основные признаки инцидента
-
Сервис недоступен полностью или частично.
-
Деградация ключевых функций (замедление, ошибки, некорректные ответы).
-
Превышение установленных порогов SLO/SLI.
-
Влияние на бизнес-процессы или безопасность данных.
-
Аварии в инфраструктуре (сетевые сбои, отказ оборудования, ошибки конфигураций).
Классификация по ITIL и SRE-практикам
1. По уровню воздействия (impact)
-
Low (низкий) — проблема затрагивает ограниченное число пользователей или несущественные функции (например, ошибка в панели администратора без влияния на клиентов).
-
Medium (средний) — значительная часть пользователей испытывает неудобства, но основные функции работают (например, задержка в отображении данных).
-
High (высокий) — критические функции недоступны для большого числа пользователей.
-
Critical (критический) — сервис полностью недоступен или есть серьёзный риск потери данных.
2. По срочности (urgency)
-
P4 — низкий приоритет: можно отложить до планового окна (например, мелкий баг в UI).
-
P3 — средний приоритет: нужно решить в течение рабочего дня.
-
P2 — высокий приоритет: требуется быстрая реакция (несколько часов).
-
P1 — критический приоритет: немедленная реакция 24/7, весь ресурс команды направлен на устранение.
3. По длительности и прогнозу
-
Текущий (ongoing) — инцидент всё ещё в процессе устранения.
-
Интермиттирующий (intermittent) — проблема возникает периодически.
-
Закрытый (resolved) — устранена причина, проведена проверка и постмортем.
4. По происхождению
-
Технические сбои — аппаратные отказы, баги в ПО, сбои в конфигурациях, падения сервисов.
-
Человеческие ошибки — неверное обновление, удаление данных, неправильная настройка.
-
Внешние факторы — сбои у провайдеров, DDoS-атаки, проблемы в дата-центре.
-
Плановые работы с ошибками — инциденты, возникшие во время/после обновлений.
5. По типу в SRE-категоризации
-
Outage — полный отказ сервиса.
-
Degradation — деградация производительности (увеличение latency, рост error rate).
-
Security incident — нарушение или угроза безопасности.
-
Capacity incident — нехватка ресурсов (CPU, память, диски, сетевой канал).
-
Dependency incident — сбой внешнего или внутреннего зависимого сервиса.
Связанные понятия
-
Major Incident — особо значимый инцидент (P1 или P0), требующий немедленной мобилизации команды, часто с привлечением руководства.
-
Postmortem — разбор инцидента после его устранения, включающий анализ первопричины (root cause analysis), хронологию, последствия и действия по предотвращению повторений.
-
Error budget burn — ситуация, когда инцидент приводит к быстрому расходу error budget, что ограничивает возможность выпускать новые изменения.