Katalog
concept#Daten#Architektur#Plattform

Data Lake

Zentrales, skalierbares Repository für rohe und heterogene Daten in nativen Formaten zur Unterstützung von Analysen und Integrationen.

Ein Data Lake ist ein zentrales Repository, das große Mengen roher, heterogener Daten in ihren nativen Formaten speichert und so vielfältige Analysen, Machine‑Learning‑Workflows und operative Integrationen unterstützt.
Etabliert
Hoch

Klassifikation

  • Hoch
  • Technisch
  • Architektur
  • Fortgeschritten

Technischer Kontext

Cloud‑Objektspeicher (z. B. Azure Blob, S3)ETL/ELT‑Werkzeuge (z. B. Spark, Databricks)Metadaten‑Kataloge (z. B. Apache Atlas, Glue)

Prinzipien & Ziele

Trenne Speicherung und Verarbeitung, um Skalierung unabhängig zu ermöglichen.Betreibe einen Metadatenkatalog zur Unterstützung von Auffindbarkeit und Governance.Definiere klare Zugriffs‑ und Lebenszyklusregeln, um Compliance und Kosten zu steuern.
Umsetzung
Unternehmen, Domäne

Use Cases & Szenarien

Kompromisse

  • Ungenaue oder fehlende Metadaten erschweren Wiederverwendung.
  • Unzureichende Zugriffskontrollen führen zu Sicherheits‑ und Compliance‑Verstößen.
  • Monolithische Nutzung ohne Abgrenzung blockiert Team‑Autonomie.
  • Frühzeitig Metadaten‑ und Katalogstrategien definieren.
  • Datenzugriff feingranular über Rollen steuern.
  • Speicher‑Tiering und automatische Archivierung einsetzen.

I/O & Ressourcen

  • Quell‑Datenfeeds (Batch und Stream)
  • Metadaten‑Quellen und Dateninventar
  • Richtlinien für Zugriff und Aufbewahrung
  • Rohdatenarchiv
  • Bereinigte und formatierte Datensätze
  • Metadatenkatalog und Provenance‑Informationen

Beschreibung

Ein Data Lake ist ein zentrales Repository, das große Mengen roher, heterogener Daten in ihren nativen Formaten speichert und so vielfältige Analysen, Machine‑Learning‑Workflows und operative Integrationen unterstützt. Er setzt auf Schema‑on‑Read, flexible Ingestion und trennt Speicherung von Rechenkapazität. Governance, Metadatenerfassung und Lifecycle‑Regeln sind essenziell, um Datenqualität, Auffindbarkeit und kontrollierte Nutzung zu gewährleisten.

  • Hohe Flexibilität beim Ingest heterogener Datenformate.
  • Skalierbare Speicherung großer Datenmengen zu vergleichsweise geringen Kosten.
  • Unterstützung vielfältiger Analyse‑ und ML‑Anwendungsfälle durch Rohdatenzugang.

  • Ohne Governance droht Datenchaos und mangelnde Datenqualität.
  • Performance für interaktive Abfragen erfordert zusätzliche Optimierungen.
  • Kosten können unkontrolliert wachsen ohne Lifecycle‑Management.

  • Speicherkosten pro Terabyte

    Monetäre Kosten zur Speicherung pro Terabyte über definierte Perioden.

  • Time‑to‑value für Datensets

    Zeit vom Eintreffen der Daten bis zur Nutzbarkeit in Analysen oder ML.

  • Prozentsatz datenbestandener Metadaten

    Anteil der Datensätze, die mit vollständigen Metadaten und Provenance‑Infos versehen sind.

Globaler E‑Commerce‑Data Lake

Ein Retailunternehmen konsolidiert Clickstream, Bestellungen und Logdaten für personalisierte Empfehlungen und Analysen.

Finanzdienstleister für Compliance‑Archiv

Banken nutzen den Data Lake zur revisionssicheren Langzeitarchivierung und Prüfpfad‑Erhaltung.

IoT‑Plattform mit Zeitreihendaten

Ein Hersteller speichert Telemetrie aus verteilten Geräten zur Analyse und Predictive Maintenance.

1

Bestandsaufnahme der Datenquellen und Definition von Zielen.

2

Architekturentscheidungen: Storage, Metadaten, Zugriffskontrollen.

3

Implementierung von Ingestion‑Pipelines und Metadatencatalog.

4

Einführung von Lifecycle‑Policies, Monitoring und Kostenkontrolle.

⚠️ Technische Schulden & Engpässe

  • Nicht standardisierte Dateiformate ohne Konvertierungsstrategie.
  • Fehlende oder unvollständige Metadatenkataloge.
  • Ad hoc Schemata und Transformationslogik in Benutzer‑Scripts.
Ingest‑ThroughputMetadaten‑ManagementQuery‑Performance
  • Speichern sensibler Daten ohne Verschlüsselung oder Zugriffskontrolle.
  • Nutzung als langfristiges Ersatzarchiv für alle Rohdaten ohne Klassifikation.
  • Direktes Querying großer Rohdatenbestände ohne optimierte Formate.
  • Unklare Verantwortlichkeiten für Datenqualität und Pflege.
  • Fehlende Automatisierung beim Lifecycle‑Management.
  • Überschätzung der Out‑of‑the‑box‑Fähigkeiten von Cloud‑Anbietern.
Datenarchitektur und SpeichermodelleDatenpipelines und StreamingDaten‑Governance und Sicherheit
Skalierbarkeit der SpeicherungDatenintegration heterogener QuellenGovernance, Sicherheit und Compliance
  • Budget für Speicher und Verarbeitung
  • Vorhandene Datenschutz‑ und Compliance‑Vorgaben
  • Technische Integrationsfähigkeit bestehender Systeme