Katalog
concept#Beobachtbarkeit#Zuverlässigkeit#DevOps#Plattform

Incident-Klassifikation

Systematische Regeln zur Einordnung und Priorisierung von Betriebsvorfällen zur Steuerung von Eskalation und Ressourcen.

Incident Classification bezeichnet systematische Regeln zur Einordnung und Priorisierung von Vorfällen nach Schweregrad, Auswirkung und Dringlichkeit.
Etabliert
Mittel

Klassifikation

  • Mittel
  • Organisatorisch
  • Organisation
  • Fortgeschritten

Technischer Kontext

Incident-Management-Tools (z. B. PagerDuty, Opsgenie)Ticketing- und ITSM-Systeme (z. B. ServiceNow)Monitoring- und Observability-Plattformen (z. B. Prometheus, Grafana)

Prinzipien & Ziele

Klar definierte Kriterien für jede PrioritätsstufeSchnelle, reproduzierbare Triage-ProzesseTransparente Eskalations- und Kommunikationswege
Betrieb
Unternehmen, Domäne, Team

Use Cases & Szenarien

Kompromisse

  • Falsche Priorisierung beeinträchtigt kritische Services
  • Inkonsequente Anwendung zwischen Teams reduziert Nutzen
  • Zu hohe Komplexität der Regeln hemmt schnelle Entscheidungen
  • Einfache, nachvollziehbare Kriterien statt komplexer Scores
  • Automatische Vorschläge kombiniert mit menschlicher Prüfung
  • Regelmäßige Kalibrierung anhand von Postmortem-Ergebnissen

I/O & Ressourcen

  • Monitoring-Alerts und Log-Daten
  • SLA- und Geschäftsanforderungen
  • Kontakt- und On-Call-Rollenverzeichnis
  • Kategorisierte Incident-Tickets mit Priorität
  • Eskalations- und Kommunikationsanweisungen
  • Metriken für Reporting und Postmortems

Beschreibung

Incident Classification bezeichnet systematische Regeln zur Einordnung und Priorisierung von Vorfällen nach Schweregrad, Auswirkung und Dringlichkeit. Sie unterstützt schnelle Entscheidungswege, Eskalationspfade und Ressourcenzuweisung während des Betriebs. Konsistente Klassifizierung verbessert Reaktionszeiten, Postmortems und bildet die Grundlage für Metriken, Automatisierung und Verantwortlichkeiten über Teams hinweg.

  • Schnellere Reaktionszeiten durch klare Priorisierung
  • Bessere Ressourcenzuweisung und Verantwortlichkeit
  • Vergleichbare Metriken für Postmortems und Trendanalysen

  • Statische Regeln können dynamische Kontexte nicht immer abbilden
  • Erfordert Pflege und regelmäßige Anpassung der Kriterien
  • Überklassifizierung kann zu unnötigen Eskalationen führen

  • Mean Time to Acknowledge (MTTA)

    Durchschnittszeit bis zur ersten Bestätigung eines Incidents.

  • Mean Time to Resolve (MTTR)

    Durchschnittszeit bis zur Wiederherstellung des Services.

  • Anteil korrekt klassifizierter Vorfälle

    Prozentsatz der Incidents, die nach Nachanalyse korrekt eingestuft wurden.

Klassifikation nach Nutzerimpact

Vorfallskategorien basierend auf der Anzahl betroffener Nutzer und Dauer.

SLA-orientierte Priorisierung

Priorisierung, die SLAs für geschäftskritische Pfade priorisiert.

Security-Flagging

Erweiterung der Klassifikation um Sicherheitskennzeichen und gesonderte Workflows.

1

Definition von Prioritätsstufen und klaren Kriterien

2

Integration der Regeln in Ticketing- und Alerting-Workflows

3

Regelmäßige Schulung und Review der Klassifikationsregeln

⚠️ Technische Schulden & Engpässe

  • Veraltete Klassifikationsregeln, die nicht modernisiert wurden
  • Hardcodierte Mappings in Integrationen
  • Fehlende Messung von Klassifikationsqualität
Manuelle TriageUnklare VerantwortlichkeitenInkonsistente Klassifikationsregeln
  • Klassifizierung allein zur Verschiebung von Verantwortlichkeit nutzen
  • Automatisierte Klassifizierung ohne Qualitätskontrolle
  • Regeländerungen ohne Kommunikation an betroffene Teams
  • Verlust von Kontext durch reine Metrik-basierte Regeln
  • Übergeneralisierung von Sonderfällen in Standardregeln
  • Fehlende Anpassung an Geschäftszeiten und Kundensegmente
Grundkenntnisse in Monitoring und LoggingErfahrung in Incident-Triage und KommunikationVerständnis von SLAs und Geschäftsprioritäten
Schnelle Fehlerdetektion und -kommunikationVerlässliche Metriken für Zuverlässigkeit und SLA-TrackingKlare Verantwortlichkeiten und Eskalationspfade
  • Abhängigkeit von zuverlässigen Monitoring-Daten
  • Einhaltung von Compliance- und Datenschutzanforderungen
  • Begrenzte Ressourcen im On-Call-Betrieb