Incident Management & Resilienz
Das Thema Incident Management und Resilienz befasst sich mit der Identifikation, dem Management und der Wiederherstellung von Systemen nach Vorfällen.
- Wissensbereiche
- /Themenbereiche
- /Segmente
- /Bausteine
Erkennung & Alarmierung
Dieses Segment behandelt Mechanismen zur frühzeitigen Erkennung von Incidents sowie deren Alarmierung. Dazu gehören Signale, Schwellenwerte, Eskalationslogiken und Benachrichtigungswege. Der Fokus liegt auf rechtzeitiger Wahrnehmung von Störungen, nicht auf deren Behebung.
Alerting
Ein Prozess zur Überwachung und Benachrichtigung bei kritischen Ereignissen.
Incident Detection
Konzept zur systematischen Erkennung von Betriebsstörungen, Leistungsabweichungen und Sicherheitsvorfällen basierend auf Observability-Signalen und definierten Alarmkriterien.
On-Call
Organisierte Bereitschaft von Teams zur Reaktion auf Vorfälle und Betriebsstörungen außerhalb regulärer Arbeitszeiten. Zweck sind schnelle Wiederherstellung, Minimierung von Ausfallzeiten und klare Eskalationspfade.