Big Data
Big Data bezeichnet Methoden und Technologien zur Speicherung, Verarbeitung und Analyse sehr großer, heterogener Datenmengen zur Gewinnung verwertbarer Erkenntnisse.
Klassifikation
- KomplexitätHoch
- AuswirkungTechnisch
- EntscheidungstypArchitektur
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Datenschutzverletzungen und rechtliche Konsequenzen
- Falsche Interpretation von Korrelationen als Kausalität
- Verlust der Datenqualität bei schlechter Aufbereitung
- Frühe Einrichtung eines Metadatencatalogs
- Automatisiertes Monitoring und Kostenüberwachung
- Datenqualität messen und kontinuierlich verbessern
I/O & Ressourcen
- Rohdaten aus produktiven Quellen
- Infrastruktur für Speicherung und Verarbeitung
- Metadaten und Datenkataloge
- Analytische Datensätze und Berichte
- APIs und Datenservices für Anwendungen
- Modelldatensätze für maschinelle Lernverfahren
Beschreibung
Big Data bezeichnet Methoden, Technologien und organisatorische Konzepte zur Verarbeitung sehr großer, heterogener und schnell wachsender Datenmengen. Es umfasst Speicherung, Verarbeitung, Integration und Analyse, um verwertbare Einsichten zu gewinnen. Es berücksichtigt auch Infrastrukturanforderungen, Automatisierung und operative Kosten.
✔Vorteile
- Ermöglicht tiefe Einblicke aus großen heterogenen Datensätzen
- Unterstützt datengetriebene Entscheidungen und Automatisierung
- Skalierbare Analysen für historische und Echtzeit-Daten
✖Limitationen
- Hohe Infrastruktur- und Betriebskosten
- Komplexität bei Integration heterogener Quellen
- Erfordert spezialisierte Skills und Prozesse
Trade-offs
Metriken
- Durchsatz (Events/s oder GB/s)
Misst die Datenmenge, die pro Zeiteinheit verarbeitet wird.
- Latenz (ms/sek)
Zeit zwischen Eingang eines Datenelements und dessen Verarbeitungsfertigstellung.
- Kosten pro Terabyte
Gesamtkosten für Speicherung und Verarbeitung pro Datenmenge.
Beispiele & Implementierungen
Log-Analyse bei E-Commerce
Verarbeitung von Server- und Clickstream-Logs zur Erkennung von Betrug und Optimierung der Conversion-Rate.
Sensor-Daten in der Fertigung
Streaming-Analysen von Maschinenmetriken zur vorausschauenden Wartung und Reduktion von Ausfallzeiten.
Kundensegmentierung mittels historischer Transaktionsdaten
Batch-Analysen großer Transaktionsdatensätze zur Erkennung von Kundenmustern und personalisierten Angeboten.
Implementierungsschritte
Ziele und Metriken definieren
Datenquellen inventarisieren und Prioritäten setzen
Infrastruktur- und Architekturentscheidungen treffen und Proof-of-Concepts durchführen
⚠️ Technische Schulden & Engpässe
Tech Debt
- Unstrukturierte Schemata ohne Dokumentation
- Temporäre Skripte statt wartbarer Pipelines
- Fehlendes Metadatensystem und fehlende Data Lineage
Bekannte Engpässe
Beispiele für Missbrauch
- Ungeprüfte Freigabe personenbezogener Daten an Analysten
- Optimierung nur auf Durchsatz, ohne Qualitätskontrollen
- Migration grosser Datenmengen ohne Testing der Integrität
Typische Fallen
- Überschätzung der Datenqualität in Altsystemen
- Ignorieren gesetzlicher Aufbewahrungspflichten
- Vernachlässigung von Observability in Datenpipelines
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Regulatorische Anforderungen (z. B. DSGVO)
- • Budget- und Betriebsaufwand
- • Legacy-Systeme und inkompatible Formate