Что такое инцидент и как он классифицируется?

Инцидент в контексте IT-сервисов и эксплуатации — это любое событие, которое нарушает или потенциально может нарушить нормальную работу системы, сервиса или инфраструктуры, и требует реакции команды. В SRE и ITIL это означает ситуацию, когда сервис работает хуже, чем определено в SLO/SLA, либо есть риск, что он перестанет соответствовать этим целям.

Инциденты фиксируются, чтобы:

  • быстро восстанавливать работоспособность сервиса;

  • минимизировать влияние на пользователей и бизнес;

  • анализировать причины и предотвращать повторения.

Основные признаки инцидента

  • Сервис недоступен полностью или частично.

  • Деградация ключевых функций (замедление, ошибки, некорректные ответы).

  • Превышение установленных порогов SLO/SLI.

  • Влияние на бизнес-процессы или безопасность данных.

  • Аварии в инфраструктуре (сетевые сбои, отказ оборудования, ошибки конфигураций).

Классификация по ITIL и SRE-практикам

1. По уровню воздействия (impact)

  • Low (низкий) — проблема затрагивает ограниченное число пользователей или несущественные функции (например, ошибка в панели администратора без влияния на клиентов).

  • Medium (средний) — значительная часть пользователей испытывает неудобства, но основные функции работают (например, задержка в отображении данных).

  • High (высокий) — критические функции недоступны для большого числа пользователей.

  • Critical (критический) — сервис полностью недоступен или есть серьёзный риск потери данных.

2. По срочности (urgency)

  • P4 — низкий приоритет: можно отложить до планового окна (например, мелкий баг в UI).

  • P3 — средний приоритет: нужно решить в течение рабочего дня.

  • P2 — высокий приоритет: требуется быстрая реакция (несколько часов).

  • P1 — критический приоритет: немедленная реакция 24/7, весь ресурс команды направлен на устранение.

3. По длительности и прогнозу

  • Текущий (ongoing) — инцидент всё ещё в процессе устранения.

  • Интермиттирующий (intermittent) — проблема возникает периодически.

  • Закрытый (resolved) — устранена причина, проведена проверка и постмортем.

4. По происхождению

  • Технические сбои — аппаратные отказы, баги в ПО, сбои в конфигурациях, падения сервисов.

  • Человеческие ошибки — неверное обновление, удаление данных, неправильная настройка.

  • Внешние факторы — сбои у провайдеров, DDoS-атаки, проблемы в дата-центре.

  • Плановые работы с ошибками — инциденты, возникшие во время/после обновлений.

5. По типу в SRE-категоризации

  • Outage — полный отказ сервиса.

  • Degradation — деградация производительности (увеличение latency, рост error rate).

  • Security incident — нарушение или угроза безопасности.

  • Capacity incident — нехватка ресурсов (CPU, память, диски, сетевой канал).

  • Dependency incident — сбой внешнего или внутреннего зависимого сервиса.

Связанные понятия

  • Major Incident — особо значимый инцидент (P1 или P0), требующий немедленной мобилизации команды, часто с привлечением руководства.

  • Postmortem — разбор инцидента после его устранения, включающий анализ первопричины (root cause analysis), хронологию, последствия и действия по предотвращению повторений.

  • Error budget burn — ситуация, когда инцидент приводит к быстрому расходу error budget, что ограничивает возможность выпускать новые изменения.