Big Data Processing
Konzept für skalierbare Verarbeitung großer, heterogener Datensätze zur Gewinnung verwertbarer Erkenntnisse in Batch- und Streaming-Szenarien.
Klassifikation
- KomplexitätHoch
- AuswirkungTechnisch
- EntscheidungstypArchitektur
- OrganisationsreifeReif
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Datenqualität und Inkonsistenzen führen zu falschen Erkenntnissen.
- Kostenexplosion durch ungezügelte Skalierung in der Cloud.
- Unzureichende Governance verursacht Compliance- und Sicherheitsprobleme.
- Schema-Evolution und Versionierung früh definieren.
- Idempotente Verarbeitung und klare Fehlerbehandlung implementieren.
- Observability, SLAs und Kostenmetriken von Anfang an messen.
I/O & Ressourcen
- Rohdaten aus Produktionssystemen oder externen Quellen
- Metadaten, Schemas und Qualitätsanforderungen
- Rechen- und Speicherressourcen (Cluster, Cloud-Konten)
- Aufbereitete Datensets für Analysen und Modelle
- Echtzeit-Metriken, Alerts und Dashboards
- Archivierte Roh- und Transformations-Artefakte mit Lineage
Beschreibung
Big-Data-Processing umfasst Techniken und Architekturen zum Erfassen, Speichern, Transformieren und Analysieren sehr großer, heterogener Datensätze, um verwertbare Erkenntnisse zu gewinnen. Es beinhaltet Batch- und Stream-Verarbeitung, verteilte Speicherung und Rechenmuster sowie häufig Cloud-gestützte Data-Lakes, Orchestrierung und Governance über Technik- und Analyse-Teams hinweg.
✔Vorteile
- Skalierbare Verarbeitung großer Datenmengen für tiefere Einblicke.
- Unterstützung sowohl für Batch- als auch für Echtzeitanalysen.
- Bessere Entscheidungsgrundlage durch integrierte Datenplattformen.
✖Limitationen
- Hoher Aufwand für Betrieb, Kostenoptimierung und Governance.
- Komplexe Datenintegration und Schema-Management über Quellen hinweg.
- Latenzgrenzen bei anspruchsvollen Echtzeit-Anforderungen.
Trade-offs
Metriken
- Durchsatz (Events/s oder GB/s)
Misst die Menge an verarbeiteten Daten pro Zeiteinheit.
- End-to-End-Latenz
Zeit von Ereigniseingang bis zur Verfügbarkeit im Zielsystem.
- Kosten pro verarbeiteter Einheit
Monetäre Aufwände in Relation zum verarbeiteten Datenvolumen.
Beispiele & Implementierungen
Echtzeit-Analyse bei einem Telekommunikationsanbieter
Ein Provider setzt Streaming-Pipelines zur Erkennung von Netzwerkproblemen und automatischen Alarmierungen ein.
Data Lakehouse für Finanzanalysen
Finanzunternehmen integriert Batch-ETL und OLAP-Queries in einem gemeinsamen Lakehouse für Risikoreports.
Feature-Engineering-Pipelines bei einem E-Commerce
E-Commerce platziert verteilte Aggregationen zur Erstellung konsistenter Feature-Sets für Empfehlungen.
Implementierungsschritte
Assess: Anforderungen, Datenquellen und SLAs analysieren.
Design: Architektur für Storage, Compute und Orchestrierung entwerfen.
Build: Pipelines, Tests und Monitoring implementieren.
Operate: Kosten, Sicherheit und Governance im Tagesbetrieb steuern.
⚠️ Technische Schulden & Engpässe
Tech Debt
- Ad-hoc-Schemas ohne Versionierung und dokumentierte Migrationen.
- Temporäre Workarounds statt skalierbarer Partitionierungsstrategie.
- Fehlende Automatisierung für Tests und Deployments von Pipelines.
Bekannte Engpässe
Beispiele für Missbrauch
- Einsatz großer Cluster zur Behebung schlecht optimierter SQL-Abfragen.
- Kurzfristige Speicherung sensitiver Daten in offenen Buckets.
- Vernachlässigung von Kostenprognosen bei Cloud-Workloads.
Typische Fallen
- Unterschätzung der Kosten und des Betriebsaufwands bei Skalierung.
- Fehlende Tests für Datenqualität in Offline- und Streaming-Pfaden.
- Nichtberücksichtigung von Datenschutzanforderungen (z. B. PII).
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Budgetgrenzen für Cloud-Dienste und Speicher
- • Regulatorische Anforderungen an Datenspeicherung
- • Inkompatible Quelldatenformate und fehlende Metadaten