Operations
Überblick über Aktivitäten und Praxis zur Aufrechterhaltung, Überwachung und Weiterentwicklung von IT‑Services und Infrastruktur.
Klassifikation
- KomplexitätMittel
- AuswirkungOrganisatorisch
- EntscheidungstypOrganisation
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Überautomatisierung kann Komplexität und Intransparenz erzeugen
- Fehlende SLOs führen zu inkonsistenten Prioritäten
- Unzureichende Dokumentation erhöht MTTD/MTTR
- Kleine, getestete Releases (Canary/Blue‑Green)
- Blameless Postmortems mit klaren Aktionspunkten
- SLO‑getriebene Priorisierung von Arbeiten
I/O & Ressourcen
- Monitoring‑Daten und Telemetrie
- Service‑Level‑Ziele (SLOs) und SLAs
- Automatisierte CI/CD‑Pipelines
- Betriebsdokumentation und Runbooks
- Monitoring‑Dashboards und Alerts
- Postmortems und Verbesserungsmaßnahmen
Beschreibung
Operations umfasst die organisatorischen, technischen und prozessualen Aktivitäten zur Aufrechterhaltung, Überwachung und Weiterentwicklung von IT‑Services. Es verbindet Incident‑Handling, Release‑Management, Kapazitätsplanung und Infrastrukturautomatisierung, um Verfügbarkeit und Stabilität sicherzustellen. Es berücksichtigt Automatisierung, Messbarkeit und kontinuierliche Verbesserung als zentrale Ziele.
✔Vorteile
- Höhere Verfügbarkeit und Stabilität der Services
- Schnellere Reaktion auf Incidents und geringere Ausfallzeiten
- Bessere Planbarkeit durch Kapazitäts‑ und Kostenkontrolle
✖Limitationen
- Erfordert organisatorische Abstimmung und Verantwortlichkeiten
- Initialer Aufwand für Automatisierung und Observability
- Nicht alle Legacy‑Systeme lassen sich leicht automatisieren
Trade-offs
Metriken
- MTTR
Mittlere Wiederherstellungszeit nach Ausfällen.
- Verfügbarkeit (Uptime)
Prozentsatz der Zeit, in der ein Service verfügbar ist.
- SLO‑Erfüllungsrate
Anteil der Zeit, in der definierte SLOs eingehalten werden.
Beispiele & Implementierungen
SRE‑Ansatz bei einem Zahlungsdienstleister
Etablierung von SLOs, Fehlerbudget‑Politiken und On‑Call‑Rotationen zur Verbesserung der Verfügbarkeit.
Automatisiertes Rollout in Kubernetes
CI/CD‑Pipeline mit Canary‑Deployments, automatischen Health‑Checks und Rollbacks.
Incident‑Postmortem in SaaS‑Startup
Kultur für blameless Postmortems etablieren und daraus präventive Maßnahmen ableiten.
Implementierungsschritte
Basis‑Monitoring und Telemetrie einführen
Runbooks, SLAs/SLOs und On‑Call‑Prozesse definieren
Schrittweise Automatisierung kritischer Abläufe
⚠️ Technische Schulden & Engpässe
Tech Debt
- Nicht‑automatisierte Deployments
- Fehlende strukturierte Logs und Traces
- Überalterte Betriebsdokumentation
Bekannte Engpässe
Beispiele für Missbrauch
- Automatisierung ohne Monitoring einführen
- SLOs setzen, aber nicht messen
- On‑call‑Rollen ohne ausreichende Schulung
Typische Fallen
- Fokus nur auf Tools statt auf Prozesse und Kultur
- Übermäßiger Optimierungsdruck ohne Fehlerbudget
- Ignorieren von Kosten bei Skalierungsentscheidungen
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Regulatorische Vorgaben und Compliance
- • Budget‑ und Personalgrenzen
- • Technische Altlasten (Legacy)