Redundanz
Strategie zur Erhöhung von Verfügbarkeit und Fehlertoleranz durch zusätzliche Komponenten, Replikation und Ausfallüberbrückung.
Klassifikation
- KomplexitätMittel
- AuswirkungTechnisch
- EntscheidungstypArchitektur
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Split-Brain-Situationen bei unzureichender Koordination
- Kostenexplosion bei unkontrollierter Überprovisionierung
- Ungetestete Failover-Pfade führen zu Ausfällen
- Automatisiertes Testen von Failover-Szenarien
- Dokumentierte Recovery-Runbooks und Verantwortlichkeiten
- Messbare SLAs und kontinuierliche Überwachung
I/O & Ressourcen
- Anforderungen an Verfügbarkeit und RTO/RPO
- Inventar der kritischen Komponenten und Abhängigkeiten
- Budget- und Betriebsrestriktionen
- Redundanz-Architekturentwurf mit Fallback-Pfaden
- Test- und Monitoring-Pläne für Failover-Szenarien
- Metriken und SLAs zur Verfügbarkeitsmessung
Beschreibung
Redundanz bezeichnet das bewusste Vorhalten von zusätzlichen Komponenten oder Kapazitäten, um Ausfälle abzufangen und Verfügbarkeit zu erhöhen. Sie umfasst aktive und passive Replikation, räumliche Verteilung und Fallback-Strategien; Auswahl und Granularität beeinflussen Kosten, Konsistenz und Wiederherstellungszeit. Planung, Monitoring und regelmäßige Tests sind entscheidend, um redundante Systeme wirkungsvoll und kosteneffizient zu betreiben.
✔Vorteile
- Erhöhte Verfügbarkeit und geringere Ausfallzeiten
- Bessere Fehlertoleranz und Geschäftsfortführung
- Planbare Recovery-Zeiten durch deterministische Fallbacks
✖Limitationen
- Erhöhte Kosten durch zusätzliche Hardware/Instanzen
- Komplexität bei Konsistenz und Synchronisation
- Fehlkonfiguration kann false sense of security erzeugen
Trade-offs
Metriken
- Verfügbarkeit (Uptime)
Prozentualer Anteil der Zeit, in der das System funktionsfähig ist.
- Mean Time To Recover (MTTR)
Durchschnittliche Zeit bis zur Wiederherstellung nach einem Ausfall.
- Failover-Erfolgsrate
Anteil erfolgreicher automatischer oder manueller Failover-Vorgänge.
Beispiele & Implementierungen
Datenbank-Replica-Cluster
Primär/sekundär-Replikation zur Minimierung von Ausfallzeiten und schneller Wiederherstellung.
Load-Balanced Microservice-Farm
Mehrere stateless Service-Instanzen hinter einem Load-Balancer für horizontale Skalierung und Redundanz.
Geo-redundante Storage-Archive
Daten über Regionen hinweg repliziert, um Verlust bei regionalen Ausfällen zu verhindern.
Implementierungsschritte
Analyse von Anforderungen und Identifikation kritischer Pfade
Entwurf redundanter Topologien und Failover-Strategien
Implementierung von Replikation, Load-Balancing und Health-Checks
Regelmäßige Tests, Monitoring-Konfiguration und Dokumentation
⚠️ Technische Schulden & Engpässe
Tech Debt
- Ungetestete oder manuelle Failover-Mechanismen
- Legacy-Replikationslösungen mit geringer Observability
- Unklare Ownership für Backup- und Recovery-Prozesse
Bekannte Engpässe
Beispiele für Missbrauch
- Replizieren sensibler Daten ohne Datenschutzprüfung
- Einsatz redundanter Hardware ohne Monitoring
- Mehrere Failover-Schichten ohne klaren Ownership-Prozess
Typische Fallen
- Nicht berücksichtigte Latenz bei georeplizierter Replikation
- Komplexe Synchronisationslogik erzeugt Fehlerquellen
- Fehlende Tests für selten eintretende Fehlerfälle
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Budgetrestriktionen für zusätzliche Ressourcen
- • Netzwerk-Latenz zwischen Replikationsstandorten
- • Regulatorische Anforderungen an Datenlokation