concept#Zuverlässigkeit#Governance#DevOps#Observability

Error Budget Policy

Regelwerk, das die tolerierbare Fehlerquote eines Dienstes definiert und die organisatorischen Maßnahmen bei Überschreitung festlegt.

Eine Error Budget Policy definiert, wie viel Zuverlässigkeitsverlust ein Dienst innerhalb eines Zeitraums tolerieren darf und welche organisatorischen Maßnahmen bei Überschreitung greifen.

Reifegrad

Etabliert

Cognitive LoadMittel

Klassifikation

KomplexitätMittel
AuswirkungOrganisatorisch
EntscheidungstypOrganisation
OrganisationsreifeFortgeschritten

Technischer Kontext

Integrationen

Monitoring-Systeme (z. B. Prometheus, Grafana)Incident-Management (z. B. PagerDuty, Opsgenie)CI/CD-Pipelines für Release-Gating

Prinzipien & Ziele

Prinzipien

SLOs sind die Grundlage für jede Error-Budget-Entscheidung.Klare Eskalations- und Freigaberegeln verbinden Technik und Governance.Messbarkeit und Transparenz schaffen Vertrauen und Handlungsfähigkeit.

Value Stream

Betrieb

Organisationsebene

Domäne, Team

Use Cases & Szenarien

Use Cases

Szenarien

Kompromisse

Risiken

Falsche oder schlecht definierte SLIs verzerren Entscheidungen
Übermäßige Bürokratie durch zu rigide Policies
Teams umgehen Policies durch ungenügende Messung

Best Practices

Kleine, leicht messbare SLOs wählen
Automatisierte Alerts basierend auf Burnrate verwenden
Regelmäßige Reviews und Policy-Anpassungen durchführen

I/O & Ressourcen

Eingaben

Definition von SLOs, SLIs und Zeitfenstern
Zuverlässige Monitoring-Daten und Dashboards
Governance- und Escalation-Richtlinien

Ausgaben

Entscheidungen zu Releases, Rollbacks oder Drosselungen
Priorisierte Stabilitätsmaßnahmen
Transparente Reports für Stakeholder

Ressourcen

Beschreibung

Eine Error Budget Policy definiert, wie viel Zuverlässigkeitsverlust ein Dienst innerhalb eines Zeitraums tolerieren darf und welche organisatorischen Maßnahmen bei Überschreitung greifen. Sie verbindet SLOs mit Entscheidungsregeln für Releases, Priorisierung und Incident Response. Damit werden Risiken messbar gemacht und Governanceprozesse verankert.

✔Vorteile

Balance zwischen Zuverlässigkeit und Geschwindigkeit
Klarere Entscheidungsgrundlage für Releases
Fördert datengetriebene Governance und Verantwortlichkeit

✖Limitationen

Abhängig von qualitativem Monitoring und verlässlichen SLIs
Kann in sehr kurzen Zeitfenstern zu konservativen Entscheidungen führen
Erfordert disziplinierte Pflege von SLO-Definitionen

Trade-offs

Metriken

SLO-Compliance-Rate
Anteil der Zeit, in der das SLO erfüllt wurde; zentrale Erfolgskontrolle.
Error-Burnrate
Geschwindigkeit, mit der das Fehlerbudget verbraucht wird; Frühwarnindikator.
MTTR (Mean Time To Repair)
Durchschnittliche Wiederherstellungszeit nach einem Incident; misst Reaktionsfähigkeit.

Beispiele & Implementierungen

Google SRE Praxisbeispiel

Google verwendet Error Budgets zur Balance zwischen Zuverlässigkeit und Feature-Tempo in ihren Diensten.

Kleines Produktteam

Startup definiert einfache SLOs und blockiert Releases bei Budgetüberschreitung während Peak-Phasen.

E-Commerce-Plattform

Team priorisiert Bugfixes über neue Features, wenn die Error-Burnrate ein kritisches Level erreicht.

Implementierungsschritte

SLOs und SLIs für kritische Nutzerpfade definieren

Monitoring-Pipelines und Dashboards aufbauen

Policy-Regeln für Burnrate-Schwellen und Aktionen festlegen

Integrationen zu CI/CD und Incident-Management konfigurieren

⚠️ Technische Schulden & Engpässe

Tech Debt

Unvollständige Instrumentierung führt zu unsicheren SLI-Werten
Manuelle Reports statt automatisierter Dashboards
Veraltete Runbooks und Eskalationspfade

Bekannte Engpässe

Mangelnde SLI-QualitätFehlende Dashboard- oder Reporting-PipelinesUnklare Eskalationsprozesse

Beispiele für Missbrauch

SLOs zu hoch ansetzen, um Störungen zu verschleiern
Fehlerbudget ignorieren und trotzdem Releases forcieren
SLIs aus nicht-repräsentativen Testdaten ableiten

Typische Fallen

Verwechslung von SLA (vertraglich) und SLO (intern)
Zu viele oder zu komplexe SLIs wählen
Keine automatisierten Messungen vorhanden

Erforderliche Fähigkeiten

Kenntnis von SRE-Prinzipien und SLO-DesignMonitoring- und Observability-FähigkeitenOrganisatorische Kommunikation und Governance-Erfahrung

Drivers (Architectural Drivers)

Verfügbarkeit von Monitoring- und Observability-ToolsKlare Servicebesitzer und VerantwortlichkeitenAutomatisierbarkeit von Release- und Gate-Entscheidungen

Constraints

• Technische Fähigkeit zur Messung relevanter SLIs
• Organisatorische Zustimmung zu SLO-Werten
• Rechtliche oder Compliance-Anforderungen für Verfügbarkeit