Observability & Monitoring
Observability und Monitoring sind entscheidend für das Verständnis und die Verwaltung komplexer Systeme.
- Wissensbereiche
- /Themenbereiche
- /Segmente
- /Bausteine
Alerting
Ein Prozess zur Überwachung und Benachrichtigung bei kritischen Ereignissen.
Incident Management
Ein systematischer Ansatz zur Identifizierung und Behebung von Vorfällen in IT-Umgebungen.
On-Call
Organisierte Bereitschaft von Teams zur Reaktion auf Vorfälle und Betriebsstörungen außerhalb regulärer Arbeitszeiten. Zweck sind schnelle Wiederherstellung, Minimierung von Ausfallzeiten und klare Eskalationspfade.
Error Budget Policy
Regelwerk, das die tolerierbare Fehlerquote eines Dienstes definiert und die organisatorischen Maßnahmen bei Überschreitung festlegt.
Observability Practice
Ein konzeptioneller Leitfaden zur systematischen Erfassung, Korrelation und Analyse von Telemetrie (Metriken, Traces, Logs) zur schnellen Fehlerdiagnose und Leistungsoptimierung.
Service Level Objective (SLO)
Ein Service Level Objective (SLO) definiert spezifische Leistungserwartungen für einen Dienst.
Instrumentation
Strategische Erfassung von Telemetrie innerhalb von Software und Infrastruktur zur Messbarkeit von Verhalten, Performance und Betriebsgeschehen.
Telemetry Collection
Konzept zur systematischen Erfassung und Weiterleitung von Metriken, Logs und Traces zur Unterstützung von Observability und Betrieb.
OpenTelemetry
Offener Standard und Toolset zur Instrumentierung und Sammlung von Traces, Metriken und Logs über SDKs, Collector und Exporter.
Logs
Zeitlich geordnete Aufzeichnungen von Ereignissen und Zuständen zur Fehlerdiagnose, Überwachung und forensischen Analyse.
Metriken
Metriken helfen dabei, die Leistung und Effizienz von Prozessen zu messen und zu analysieren.
Verteiltes Tracing
Technik zur Nachverfolgung und Korrelation von Anfragen über mehrere Dienste, um Performance-Probleme und Fehlerursachen in verteilten Systemen sichtbar zu machen.
Dependency Mapping
Systematische Erfassung und Visualisierung von Abhängigkeiten zwischen Komponenten, Services und Teams zur Unterstützung von Architektur- und Entscheidungsprozessen.
Service Map
Visuelle Darstellung von Services und ihren Laufzeit-Abhängigkeiten zur Analyse von Kommunikation, Impact und Fehlerquellen.
Verteiltes Tracing
Technik zur Nachverfolgung und Korrelation von Anfragen über mehrere Dienste, um Performance-Probleme und Fehlerursachen in verteilten Systemen sichtbar zu machen.
Datenvisualisierung
Datenvisualisierung ist die grafische Darstellung von Daten, um Muster, Trends und Informationen sichtbar zu machen.
Observability Dashboard
Zentrales Dashboard zur Visualisierung und Analyse von Telemetrie (Metriken, Logs, Traces) zur schnellen Fehlerdiagnose und Performance-Überwachung.
Grafana
Grafana ist ein Open-Source-Tool zur Visualisierung und Analyse von Daten.