Katalog
concept#Zuverlässigkeit#Architektur#DevOps#Observability

Fallback-Strategien

Konzept zur Definition alternativer Verhaltensweisen, wenn primäre Funktionen ausfallen, um Verfügbarkeit und Nutzererfahrung zu sichern.

Fallback-Strategien definieren alternative Verhaltensweisen, wenn primäre Funktionen ausfallen, um Ausfallzeiten zu minimieren und Nutzbarkeit zu erhalten.
Etabliert
Mittel

Klassifikation

  • Mittel
  • Technisch
  • Architektur
  • Fortgeschritten

Technischer Kontext

Monitoring- und Alerting-Systeme (z. B. Prometheus)Service-Mesh oder API-Gateway für RoutingCaching-Schichten (Redis, CDN)

Prinzipien & Ziele

Minimal funktionsfähiges Verhalten priorisierenFehler erkennen, isolieren und degradiert liefernTransparente Metriken und Alerting für Fallback-Ereignisse
Umsetzung
Unternehmen, Domäne, Team

Use Cases & Szenarien

Kompromisse

  • Ständige Nutzung von Fallbacks maskiert tiefere Fehler
  • Datainkonsistenzen durch degradierte Antworten
  • Übermäßige Komplexität führt zu Wartungsproblemen
  • Preferiere einfache, vorhersehbare Defaults
  • Instrumentiere Fallbacks mit klaren Metriken und Logs
  • Teste degradierte Szenarien regelmäßig (Chaos-Tests)

I/O & Ressourcen

  • Definition von Service-SLA und Fehler-Schwellen
  • Verfügbare Fallback-Inhalte oder -Routen
  • Monitoring- und Health-Check-Daten
  • Geändertes Verhalten der API oder UI (degradiert)
  • Fallback-Events in Logs und Metriken
  • Benachrichtigungen an Betrieb und Verantwortliche

Beschreibung

Fallback-Strategien definieren alternative Verhaltensweisen, wenn primäre Funktionen ausfallen, um Ausfallzeiten zu minimieren und Nutzbarkeit zu erhalten. Sie umfassen Muster wie Graceful Degradation, Circuit Breaker oder Default Responses und werden auf Architektur- und Implementierungsebene eingesetzt, um Systemzuverlässigkeit und Wiederherstellbarkeit zu verbessern.

  • Reduzierte Downtime und besserer Nutzererhalt
  • Erhöhte Systemresilienz gegenüber Abhängigkeiten
  • Bessere Fehlerdiagnose durch explizite Fallback-Logs

  • Fallback kann eingeschränkte Funktionalität liefern
  • Falsche Defaults können inkonsistente Zustände erzeugen
  • Komplexität der Implementierung bei vielen Abhängigkeiten

  • Fallback-Rate

    Anteil der Anfragen, die in einen Fallback-Pfad fallen.

  • Mean Time To Recover (MTTR)

    Durchschnittliche Zeit zur Wiederherstellung der Primärfunktion.

  • User-Impact-Score

    Messung des erlebten Nutzerschadens durch Fallback-Ereignisse.

Graceful Degradation bei Content-Rendering

Frontend reduziert Bildqualität und lädt Text zuerst, um Kernfunktionen verfügbar zu halten.

Circuit Breaker für Third-Party-API

Service schützt sich gegen wiederholte API-Fehler durch Öffnen des Circuit Breakers und Rückfall auf Cache.

Fallback-Content bei Offline-Modus

Mobile App zeigt lokal gespeicherte Inhalte und eine Offline-Meldung, wenn Netz nicht verfügbar ist.

1

Identifiziere kritische Pfade und Abhängigkeiten.

2

Definiere Fallback-Verhalten und Metriken pro Pfad.

3

Implementiere Muster (Retry, Circuit Breaker, Cache) mit Tests.

4

Überwache Fallback-Ereignisse und iteriere Regeln basierend auf Metriken.

⚠️ Technische Schulden & Engpässe

  • Ad-hoc Fallback-Implementierungen ohne Tests
  • Unklare Ownership für Fallback-Logik
  • Veraltete Default-Werte, die nicht aktualisiert werden
single-point-of-failurelatezenz-sensitive-pfadestateful-dependencies
  • Unerkannte permanente Nutzung eines Fallback-Caches
  • Einsatz von Defaults, die falsche geschäftliche Entscheidungen zulassen
  • Nicht getestete Fallback-Pfade in Produktion
  • Zu breite Fallback-Regeln, die falsche Daten liefern
  • Fehlendes Alerting bei häufigen Fallbacks
  • Vernachlässigung der Rücksynchronisation nach Ausfall
Kenntnis von Resilience-Patterns (Circuit Breaker, Retry)Monitoring- und Observability-FähigkeitenErfahrung mit Fehlerszenarien und Chaos-Testing
Erwartete Verfügbarkeit und SLAsAbhängigkeiten von externen DienstenErforderliche Nutzererfahrung unter Fehlerbedingungen
  • Begrenzte Cache-Kapazität für Fallback-Daten
  • Regulatorische Anforderungen an Datenkonsistenz
  • Netzwerk- und Latenzbedingungen