Katalog
concept#Daten#Analyse#Architektur#Plattform

Big Data

Big Data bezeichnet Methoden und Technologien zur Speicherung, Verarbeitung und Analyse sehr großer, heterogener Datenmengen zur Gewinnung verwertbarer Erkenntnisse.

Big Data bezeichnet Methoden, Technologien und organisatorische Konzepte zur Verarbeitung sehr großer, heterogener und schnell wachsender Datenmengen.
Etabliert
Hoch

Klassifikation

  • Hoch
  • Technisch
  • Architektur
  • Fortgeschritten

Technischer Kontext

Apache Kafka für StreamingApache Spark für Batch- und StreamverarbeitungData-Warehouse- und BI-Tools

Prinzipien & Ziele

Skalierbarkeit horizontal planenSchema-on-read zur flexiblen IntegrationDaten-Governance und Datenschutz als integraler Bestandteil
Umsetzung
Unternehmen, Domäne, Team

Use Cases & Szenarien

Kompromisse

  • Datenschutzverletzungen und rechtliche Konsequenzen
  • Falsche Interpretation von Korrelationen als Kausalität
  • Verlust der Datenqualität bei schlechter Aufbereitung
  • Frühe Einrichtung eines Metadatencatalogs
  • Automatisiertes Monitoring und Kostenüberwachung
  • Datenqualität messen und kontinuierlich verbessern

I/O & Ressourcen

  • Rohdaten aus produktiven Quellen
  • Infrastruktur für Speicherung und Verarbeitung
  • Metadaten und Datenkataloge
  • Analytische Datensätze und Berichte
  • APIs und Datenservices für Anwendungen
  • Modelldatensätze für maschinelle Lernverfahren

Beschreibung

Big Data bezeichnet Methoden, Technologien und organisatorische Konzepte zur Verarbeitung sehr großer, heterogener und schnell wachsender Datenmengen. Es umfasst Speicherung, Verarbeitung, Integration und Analyse, um verwertbare Einsichten zu gewinnen. Es berücksichtigt auch Infrastrukturanforderungen, Automatisierung und operative Kosten.

  • Ermöglicht tiefe Einblicke aus großen heterogenen Datensätzen
  • Unterstützt datengetriebene Entscheidungen und Automatisierung
  • Skalierbare Analysen für historische und Echtzeit-Daten

  • Hohe Infrastruktur- und Betriebskosten
  • Komplexität bei Integration heterogener Quellen
  • Erfordert spezialisierte Skills und Prozesse

  • Durchsatz (Events/s oder GB/s)

    Misst die Datenmenge, die pro Zeiteinheit verarbeitet wird.

  • Latenz (ms/sek)

    Zeit zwischen Eingang eines Datenelements und dessen Verarbeitungsfertigstellung.

  • Kosten pro Terabyte

    Gesamtkosten für Speicherung und Verarbeitung pro Datenmenge.

Log-Analyse bei E-Commerce

Verarbeitung von Server- und Clickstream-Logs zur Erkennung von Betrug und Optimierung der Conversion-Rate.

Sensor-Daten in der Fertigung

Streaming-Analysen von Maschinenmetriken zur vorausschauenden Wartung und Reduktion von Ausfallzeiten.

Kundensegmentierung mittels historischer Transaktionsdaten

Batch-Analysen großer Transaktionsdatensätze zur Erkennung von Kundenmustern und personalisierten Angeboten.

1

Ziele und Metriken definieren

2

Datenquellen inventarisieren und Prioritäten setzen

3

Infrastruktur- und Architekturentscheidungen treffen und Proof-of-Concepts durchführen

⚠️ Technische Schulden & Engpässe

  • Unstrukturierte Schemata ohne Dokumentation
  • Temporäre Skripte statt wartbarer Pipelines
  • Fehlendes Metadatensystem und fehlende Data Lineage
SpeicherkostenNetzwerkbandbreiteDatenqualität
  • Ungeprüfte Freigabe personenbezogener Daten an Analysten
  • Optimierung nur auf Durchsatz, ohne Qualitätskontrollen
  • Migration grosser Datenmengen ohne Testing der Integrität
  • Überschätzung der Datenqualität in Altsystemen
  • Ignorieren gesetzlicher Aufbewahrungspflichten
  • Vernachlässigung von Observability in Datenpipelines
Datenengineering und verteilte SystemeDatenmodellierung und ETL/ELTDaten-Governance und Datenschutzkenntnisse
Datenvolumen und WachstumsrateDatenvielfalt und IntegrationsbedarfLatenzanforderungen und Durchsatz
  • Regulatorische Anforderungen (z. B. DSGVO)
  • Budget- und Betriebsaufwand
  • Legacy-Systeme und inkompatible Formate