concept#Daten#Analyse#Architektur#Plattform

Big Data

Big Data bezeichnet Methoden und Technologien zur Speicherung, Verarbeitung und Analyse sehr großer, heterogener Datenmengen zur Gewinnung verwertbarer Erkenntnisse.

Big Data bezeichnet Methoden, Technologien und organisatorische Konzepte zur Verarbeitung sehr großer, heterogener und schnell wachsender Datenmengen.

Reifegrad

Etabliert

Cognitive LoadHoch

Klassifikation

KomplexitätHoch
AuswirkungTechnisch
EntscheidungstypArchitektur
OrganisationsreifeFortgeschritten

Technischer Kontext

Integrationen

Apache Kafka für StreamingApache Spark für Batch- und StreamverarbeitungData-Warehouse- und BI-Tools

Prinzipien & Ziele

Prinzipien

Skalierbarkeit horizontal planenSchema-on-read zur flexiblen IntegrationDaten-Governance und Datenschutz als integraler Bestandteil

Value Stream

Umsetzung

Organisationsebene

Unternehmen, Domäne, Team

Use Cases & Szenarien

Use Cases

Szenarien

Kompromisse

Risiken

Datenschutzverletzungen und rechtliche Konsequenzen
Falsche Interpretation von Korrelationen als Kausalität
Verlust der Datenqualität bei schlechter Aufbereitung

Best Practices

Frühe Einrichtung eines Metadatencatalogs
Automatisiertes Monitoring und Kostenüberwachung
Datenqualität messen und kontinuierlich verbessern

I/O & Ressourcen

Eingaben

Rohdaten aus produktiven Quellen
Infrastruktur für Speicherung und Verarbeitung
Metadaten und Datenkataloge

Ausgaben

Analytische Datensätze und Berichte
APIs und Datenservices für Anwendungen
Modelldatensätze für maschinelle Lernverfahren

Ressourcen

Beschreibung

Big Data bezeichnet Methoden, Technologien und organisatorische Konzepte zur Verarbeitung sehr großer, heterogener und schnell wachsender Datenmengen. Es umfasst Speicherung, Verarbeitung, Integration und Analyse, um verwertbare Einsichten zu gewinnen. Es berücksichtigt auch Infrastrukturanforderungen, Automatisierung und operative Kosten.

✔Vorteile

Ermöglicht tiefe Einblicke aus großen heterogenen Datensätzen
Unterstützt datengetriebene Entscheidungen und Automatisierung
Skalierbare Analysen für historische und Echtzeit-Daten

✖Limitationen

Hohe Infrastruktur- und Betriebskosten
Komplexität bei Integration heterogener Quellen
Erfordert spezialisierte Skills und Prozesse

Trade-offs

Metriken

Durchsatz (Events/s oder GB/s)
Misst die Datenmenge, die pro Zeiteinheit verarbeitet wird.
Latenz (ms/sek)
Zeit zwischen Eingang eines Datenelements und dessen Verarbeitungsfertigstellung.
Kosten pro Terabyte
Gesamtkosten für Speicherung und Verarbeitung pro Datenmenge.

Beispiele & Implementierungen

Log-Analyse bei E-Commerce

Verarbeitung von Server- und Clickstream-Logs zur Erkennung von Betrug und Optimierung der Conversion-Rate.

Sensor-Daten in der Fertigung

Streaming-Analysen von Maschinenmetriken zur vorausschauenden Wartung und Reduktion von Ausfallzeiten.

Kundensegmentierung mittels historischer Transaktionsdaten

Batch-Analysen großer Transaktionsdatensätze zur Erkennung von Kundenmustern und personalisierten Angeboten.

Implementierungsschritte

Ziele und Metriken definieren

Datenquellen inventarisieren und Prioritäten setzen

Infrastruktur- und Architekturentscheidungen treffen und Proof-of-Concepts durchführen

⚠️ Technische Schulden & Engpässe

Tech Debt

Unstrukturierte Schemata ohne Dokumentation
Temporäre Skripte statt wartbarer Pipelines
Fehlendes Metadatensystem und fehlende Data Lineage

Bekannte Engpässe

SpeicherkostenNetzwerkbandbreiteDatenqualität

Beispiele für Missbrauch

Ungeprüfte Freigabe personenbezogener Daten an Analysten
Optimierung nur auf Durchsatz, ohne Qualitätskontrollen
Migration grosser Datenmengen ohne Testing der Integrität

Typische Fallen

Überschätzung der Datenqualität in Altsystemen
Ignorieren gesetzlicher Aufbewahrungspflichten
Vernachlässigung von Observability in Datenpipelines

Erforderliche Fähigkeiten

Datenengineering und verteilte SystemeDatenmodellierung und ETL/ELTDaten-Governance und Datenschutzkenntnisse

Drivers (Architectural Drivers)

Datenvolumen und WachstumsrateDatenvielfalt und IntegrationsbedarfLatenzanforderungen und Durchsatz

Constraints

• Regulatorische Anforderungen (z. B. DSGVO)
• Budget- und Betriebsaufwand
• Legacy-Systeme und inkompatible Formate