Postmortem
Formalisierte Nachanalyse eines Vorfalls zur Fehlerursachenklärung, Dokumentation und Ableitung von Verbesserungen.
Klassifikation
- KomplexitätMittel
- AuswirkungOrganisatorisch
- EntscheidungstypOrganisation
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Wiederholung ohne Umsetzung der Maßnahmen.
- Schuldzuweisungen und Demotivation von Teams.
- Sensible Informationen werden unzureichend geschützt.
- Blameless-Ansatz etablieren zur Förderung offener Kommunikation.
- Kurze Timeline zuerst, dann tiefergehende Analysen bei Bedarf.
- Ergebnisse in bestehende Prozesse und Playbooks integrieren.
I/O & Ressourcen
- System- und Anwendungs-Logs
- Monitoring- und Tracing-Metriken
- Incident-Timeline und beteiligte Personen
- Root-Cause-Analyse-Bericht
- Maßnahmenplan mit Besitzern und Terminen
- Gelerntes für Playbooks und Prozesse
Beschreibung
Ein Postmortem ist eine strukturierte Nachanalyse nach Störungen oder fehlerhaften Releases. Es dokumentiert Ursachen, Auswirkungen und Maßnahmen, fördert eine lernende Kultur und hilft, wiederkehrende Probleme zu vermeiden. Ziel ist die nachhaltige Verbesserung von Prozessen und Systemzuverlässigkeit.
✔Vorteile
- Verbesserte Systemstabilität durch gezielte Gegenmaßnahmen.
- Wissenstransfer und organisatorisches Lernen.
- Reduktion wiederkehrender Vorfälle.
✖Limitationen
- Erfolg hängt von Offenheit und Unternehmenskultur ab.
- Aufwändig bei komplexen oder schlecht dokumentierten Systemen.
- Kann oberflächlich bleiben ohne klare Follow-up-Prozesse.
Trade-offs
Metriken
- Mean Time to Recovery (MTTR)
Mittlere Zeit bis zur Wiederherstellung eines Services nach einem Vorfall.
- Anzahl wiederkehrender Vorfälle
Zählt Vorfälle mit gleicher Ursache innerhalb eines definierten Zeitraums.
- Umsetzungsquote empfohlener Maßnahmen
Prozentsatz der Postmortem-Empfehlungen, die termingerecht umgesetzt wurden.
Beispiele & Implementierungen
Incident-Analyse: Auth-Service-Ausfall
Dokumentiertes Postmortem mit Timeline, RCA und drei Follow-up-Tasks zur Stabilisierung.
Fehlgeschlagener Rollout rückgängig gemacht
Postmortem zeigte fehlende Canary-Checks; Deployment-Prozess wurde angepasst.
Monatliche Risiko-Review
Regelmäßige Zusammenfassung von Postmortems zur Identifikation systemischer Schwachstellen.
Implementierungsschritte
Vorlage und Timeline definieren; Verantwortliche benennen.
Datensammlung: Logs, Metriken und Kommunikationsprotokolle.
Gemeinsame Analyse-Session; Ursachen und Maßnahmen ableiten.
Maßnahmen in Backlogs einpflegen und Fortschritt verfolgen.
⚠️ Technische Schulden & Engpässe
Tech Debt
- Unzureichende Observability erschwert RCA.
- Veraltete Runbooks und fehlende Playbooks.
- Kurzfristige Hotfixes ohne nachhaltige Lösung.
Bekannte Engpässe
Beispiele für Missbrauch
- Postmortem als Sanktionsinstrument in Performance-Gesprächen.
- Nur symbolische Postmortems ohne echte Datenauswertung.
- Interne Details öffentlich machen ohne Risikoabschätzung.
Typische Fallen
- Zu späte Durchführung führt zu unsicheren Erinnerungen.
- Mangelnde Priorisierung der abgeleiteten Maßnahmen.
- Fehlende Messung des Effekts umgesetzter Maßnahmen.
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Zeitdruck nach kritischen Vorfällen
- • Datenschutz und Compliance-Anforderungen
- • Begrenzte Ressourcen für tiefe Analysen