Netzwerküberwachung
Kontinuierliche Überwachung von Netzwerken zur Erkennung von Ausfällen, Leistungsproblemen und Sicherheitsvorfällen.
Klassifikation
- KomplexitätMittel
- AuswirkungTechnisch
- EntscheidungstypArchitektur
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Alarmmüdigkeit durch zu viele irrelevante Notifications.
- Sicherheitsrisiken bei ungesicherten Monitoring-Schnittstellen.
- Fehlentscheidungen bei unvollständiger oder verzerrter Datengrundlage.
- Sinnvolle Baselines vor Alarmsetzung definieren.
- Alert-Routing nach Oncall-Rollen und Eskalationsregeln einrichten.
- Retention-Policy abgestimmt auf Compliance und Analysebedarf festlegen.
I/O & Ressourcen
- SNMP-/gNMI-Zugänge zu Netzwerkgeräten
- Flow-Daten (NetFlow, sFlow, IPFIX)
- Topologie- und Inventar-Informationen
- Dashboards mit Metriken und Trendansichten
- Konfigurierbare Alerts und Eskalationspfade
- Regelmäßige Kapazitäts- und Incident-Reports
Beschreibung
Netzwerküberwachung ist die fortlaufende Beobachtung von Netzwerkkomponenten, Verbindungen und Datenverkehr zur Erkennung von Störungen, Messung der Performance und Sicherstellung der Verfügbarkeit. Sie umfasst Metrik-Erfassung, Alerting und Visualisierung für Fehlerbehebung und Kapazitätsplanung. Es ist ein zentraler Bestandteil der Betriebsführung moderner IT-Infrastrukturen.
✔Vorteile
- Früherkennung von Ausfällen und schnellere Wiederherstellungszeiten.
- Datengetriebene Kapazitätsplanung und Kostenoptimierung.
- Verbesserte Incident-Response und dokumentierte SLAs.
✖Limitationen
- Blindheit bei fehlender Telemetrie oder nicht-instrumentierten Geräten.
- Hoher Datenaufwand bei Retention großer Metrik- und Flow-Datenmengen.
- Falsch-positive Alerts bei zu grober Schwellendefinition.
Trade-offs
Metriken
- Paketverlust
Anteil verlorener Pakete über eine Verbindung; wichtig für Dienstqualität.
- Latenz (Round-Trip Time)
Zeit, die Pakete für Hin- und Rückweg benötigen; Indikator für Verzögerungen.
- Interface-Auslastung
Prozentuale Nutzung einer Netzwerkschnittstelle im Zeitverlauf.
Beispiele & Implementierungen
ISP: End-to-End-Verfügbarkeitsüberwachung
Ein Internetanbieter überwacht Backbone-Links und Peering-Punkte mit aktiven und passiven Checks zur SLA-Sicherung.
Unternehmensnetz: Sicherheitsmonitoring via Flow-Analyse
Ein Unternehmen nutzt NetFlow/IPFIX zur Erkennung lateral bewegender Angreifer und zur Integration mit SIEM.
Data Center: Kapazitätsplanung mit Langzeitmetriken
Ein Rechenzentrum aggregiert Interface- und Switch-Metriken, um vorbereitend Hardware-Upgrades zu planen.
Implementierungsschritte
Bestandsaufnahme: Geräte, Schnittstellen und KPIs erfassen.
Datenquellen anbinden: SNMP, Flow, Exporter konfigurieren.
Speicherung und Retention definieren; Metrik-Aggregationen planen.
Dashboards und Alerts implementieren, Schwellwerte feinjustieren.
Regelmäßige Review-Zyklen einführen und Playbooks testen.
⚠️ Technische Schulden & Engpässe
Tech Debt
- Veraltete Exporter/Agents, die nicht alle modernen Metriken liefern.
- Monolithische DB-Speicherung ohne Partitionierung für Retention.
- Unstrukturierte Alert-Regeln, die kaum dokumentiert sind.
Bekannte Engpässe
Beispiele für Missbrauch
- Alerts nur auf absolute Schwellwerte setzen, ohne Kontext zu berücksichtigen.
- Nur synthetische Checks ohne echte Telemetrie nutzen.
- Monitoring als nachträgliche Aufgabe, nicht in Design-Phase berücksichtigen.
Typische Fallen
- Unzureichende Zeitfenster für Baseline-Ermittlung führen zu Fehlalarmsensitivität.
- Vertrauen auf einzelne Metrik ohne Kreuzvalidierung mit Flows oder Logs.
- Fehlende Tests von Alarm-Playbooks vor Produktionseinführung.
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Beschränkte Budget- und Storage-Ressourcen
- • Legacy-Geräte mit limitierten Protokollen
- • Netzwerkzugriffsbeschränkungen und Firewall-Policies