Error Budget Policy
Regelwerk, das die tolerierbare Fehlerquote eines Dienstes definiert und die organisatorischen Maßnahmen bei Überschreitung festlegt.
Klassifikation
- KomplexitätMittel
- AuswirkungOrganisatorisch
- EntscheidungstypOrganisation
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Falsche oder schlecht definierte SLIs verzerren Entscheidungen
- Übermäßige Bürokratie durch zu rigide Policies
- Teams umgehen Policies durch ungenügende Messung
- Kleine, leicht messbare SLOs wählen
- Automatisierte Alerts basierend auf Burnrate verwenden
- Regelmäßige Reviews und Policy-Anpassungen durchführen
I/O & Ressourcen
- Definition von SLOs, SLIs und Zeitfenstern
- Zuverlässige Monitoring-Daten und Dashboards
- Governance- und Escalation-Richtlinien
- Entscheidungen zu Releases, Rollbacks oder Drosselungen
- Priorisierte Stabilitätsmaßnahmen
- Transparente Reports für Stakeholder
Beschreibung
Eine Error Budget Policy definiert, wie viel Zuverlässigkeitsverlust ein Dienst innerhalb eines Zeitraums tolerieren darf und welche organisatorischen Maßnahmen bei Überschreitung greifen. Sie verbindet SLOs mit Entscheidungsregeln für Releases, Priorisierung und Incident Response. Damit werden Risiken messbar gemacht und Governanceprozesse verankert.
✔Vorteile
- Balance zwischen Zuverlässigkeit und Geschwindigkeit
- Klarere Entscheidungsgrundlage für Releases
- Fördert datengetriebene Governance und Verantwortlichkeit
✖Limitationen
- Abhängig von qualitativem Monitoring und verlässlichen SLIs
- Kann in sehr kurzen Zeitfenstern zu konservativen Entscheidungen führen
- Erfordert disziplinierte Pflege von SLO-Definitionen
Trade-offs
Metriken
- SLO-Compliance-Rate
Anteil der Zeit, in der das SLO erfüllt wurde; zentrale Erfolgskontrolle.
- Error-Burnrate
Geschwindigkeit, mit der das Fehlerbudget verbraucht wird; Frühwarnindikator.
- MTTR (Mean Time To Repair)
Durchschnittliche Wiederherstellungszeit nach einem Incident; misst Reaktionsfähigkeit.
Beispiele & Implementierungen
Google SRE Praxisbeispiel
Google verwendet Error Budgets zur Balance zwischen Zuverlässigkeit und Feature-Tempo in ihren Diensten.
Kleines Produktteam
Startup definiert einfache SLOs und blockiert Releases bei Budgetüberschreitung während Peak-Phasen.
E-Commerce-Plattform
Team priorisiert Bugfixes über neue Features, wenn die Error-Burnrate ein kritisches Level erreicht.
Implementierungsschritte
SLOs und SLIs für kritische Nutzerpfade definieren
Monitoring-Pipelines und Dashboards aufbauen
Policy-Regeln für Burnrate-Schwellen und Aktionen festlegen
Integrationen zu CI/CD und Incident-Management konfigurieren
⚠️ Technische Schulden & Engpässe
Tech Debt
- Unvollständige Instrumentierung führt zu unsicheren SLI-Werten
- Manuelle Reports statt automatisierter Dashboards
- Veraltete Runbooks und Eskalationspfade
Bekannte Engpässe
Beispiele für Missbrauch
- SLOs zu hoch ansetzen, um Störungen zu verschleiern
- Fehlerbudget ignorieren und trotzdem Releases forcieren
- SLIs aus nicht-repräsentativen Testdaten ableiten
Typische Fallen
- Verwechslung von SLA (vertraglich) und SLO (intern)
- Zu viele oder zu komplexe SLIs wählen
- Keine automatisierten Messungen vorhanden
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Technische Fähigkeit zur Messung relevanter SLIs
- • Organisatorische Zustimmung zu SLO-Werten
- • Rechtliche oder Compliance-Anforderungen für Verfügbarkeit