Incident Management & Resilienz
Das Thema Incident Management und Resilienz befasst sich mit der Identifikation, dem Management und der Wiederherstellung von Systemen nach Vorfällen.
- Wissensbereiche
- /Themenbereiche
- /Segmente
- /Bausteine
Alerting
Ein Prozess zur Überwachung und Benachrichtigung bei kritischen Ereignissen.
Incident Detection
Konzept zur systematischen Erkennung von Betriebsstörungen, Leistungsabweichungen und Sicherheitsvorfällen basierend auf Observability-Signalen und definierten Alarmkriterien.
On-Call
Organisierte Bereitschaft von Teams zur Reaktion auf Vorfälle und Betriebsstörungen außerhalb regulärer Arbeitszeiten. Zweck sind schnelle Wiederherstellung, Minimierung von Ausfallzeiten und klare Eskalationspfade.
Incident-Klassifikation
Systematische Regeln zur Einordnung und Priorisierung von Betriebsvorfällen zur Steuerung von Eskalation und Ressourcen.
Service-Impact
Analyse und Bewertung, wie Zwischenfälle oder Leistungsprobleme die Funktionalität eines Dienstes beeinflussen.
Severity Levels
Kategorisiert Auswirkungen und Dringlichkeit von Vorfällen, um Prioritäten, Eskalationen und Reaktionszeiten im Betrieb zu steuern.
Continuous Improvement
Ein fortlaufender, systematischer Prozess zur Identifikation und Umsetzung von Verbesserungen in Produkten, Prozessen und Organisationen. Fokus auf iterative Zyklen, datenbasierte Entscheidungen und teamgetriebene Maßnahmen.
Postmortem
Formalisierte Nachanalyse eines Vorfalls zur Fehlerursachenklärung, Dokumentation und Ableitung von Verbesserungen.
Ursachen Analyse (RCA)
Ein strukturierter Ansatz zur Identifizierung der Grundursachen von Problemen.
Incident Management Process
Prozess zur strukturierten Erkennung, Eskalation und Behebung von IT-Störungen mit definierten Rollen, Kommunikationswegen und Nachbearbeitung.
Incident Command System (ICS)
Das Incident Command System (ICS) ist ein standardisiertes Führungs- und Koordinationsmodell zur Steuerung von Notfällen und komplexen Einsätzen über Behörden- und Organisationsgrenzen hinweg.
Incident Response
Geordneter Prozess zur Erkennung, Analyse und Eindämmung von Sicherheitsvorfällen sowie zur Wiederherstellung normaler Betriebszustände.
Graceful Degradation
Architekturprinzip, das Kernfunktionen bei Teilausfällen bewahrt, indem weniger kritische Features eingeschränkt werden.
Redundanz
Strategie zur Erhöhung von Verfügbarkeit und Fehlertoleranz durch zusätzliche Komponenten, Replikation und Ausfallüberbrückung.
Resilience Engineering
Ein systemorientiertes Konzept zur Gestaltung und Steuerung robuster, anpassungsfähiger Systeme, um Dienstgüte trotz Störungen zu sichern.
Business Continuity Management (BCM)
BCM ist ein strategischer Ansatz, der die Fortführung kritischer Geschäftsprozesse bei Störungen sicherstellt. Es verbindet Risikoanalyse, Notfallplanung und Wiederanlauf mit Governance und Tests.
Notfallwiederherstellung (Disaster Recovery)
Strategien, Prozesse und technische Maßnahmen zur Wiederherstellung von IT-Systemen und Daten nach größeren Ausfällen oder Katastrophen.
Recovery Point Objective (RPO)
RPO definiert den maximal tolerierbaren Datenverlust in zeitlicher Hinsicht und dient als Maß für Backup‑ und Replikationsanforderungen.
Recovery Time Objective (RTO)
RTO definiert die maximal tolerierbare Zeitspanne, innerhalb derer ein IT‑Dienst nach einem Ausfall wiederhergestellt sein muss, um Geschäftsverlust zu begrenzen.