Data Lake
Zentrales, skalierbares Repository für rohe und heterogene Daten in nativen Formaten zur Unterstützung von Analysen und Integrationen.
Klassifikation
- KomplexitätHoch
- AuswirkungTechnisch
- EntscheidungstypArchitektur
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Ungenaue oder fehlende Metadaten erschweren Wiederverwendung.
- Unzureichende Zugriffskontrollen führen zu Sicherheits‑ und Compliance‑Verstößen.
- Monolithische Nutzung ohne Abgrenzung blockiert Team‑Autonomie.
- Frühzeitig Metadaten‑ und Katalogstrategien definieren.
- Datenzugriff feingranular über Rollen steuern.
- Speicher‑Tiering und automatische Archivierung einsetzen.
I/O & Ressourcen
- Quell‑Datenfeeds (Batch und Stream)
- Metadaten‑Quellen und Dateninventar
- Richtlinien für Zugriff und Aufbewahrung
- Rohdatenarchiv
- Bereinigte und formatierte Datensätze
- Metadatenkatalog und Provenance‑Informationen
Beschreibung
Ein Data Lake ist ein zentrales Repository, das große Mengen roher, heterogener Daten in ihren nativen Formaten speichert und so vielfältige Analysen, Machine‑Learning‑Workflows und operative Integrationen unterstützt. Er setzt auf Schema‑on‑Read, flexible Ingestion und trennt Speicherung von Rechenkapazität. Governance, Metadatenerfassung und Lifecycle‑Regeln sind essenziell, um Datenqualität, Auffindbarkeit und kontrollierte Nutzung zu gewährleisten.
✔Vorteile
- Hohe Flexibilität beim Ingest heterogener Datenformate.
- Skalierbare Speicherung großer Datenmengen zu vergleichsweise geringen Kosten.
- Unterstützung vielfältiger Analyse‑ und ML‑Anwendungsfälle durch Rohdatenzugang.
✖Limitationen
- Ohne Governance droht Datenchaos und mangelnde Datenqualität.
- Performance für interaktive Abfragen erfordert zusätzliche Optimierungen.
- Kosten können unkontrolliert wachsen ohne Lifecycle‑Management.
Trade-offs
Metriken
- Speicherkosten pro Terabyte
Monetäre Kosten zur Speicherung pro Terabyte über definierte Perioden.
- Time‑to‑value für Datensets
Zeit vom Eintreffen der Daten bis zur Nutzbarkeit in Analysen oder ML.
- Prozentsatz datenbestandener Metadaten
Anteil der Datensätze, die mit vollständigen Metadaten und Provenance‑Infos versehen sind.
Beispiele & Implementierungen
Globaler E‑Commerce‑Data Lake
Ein Retailunternehmen konsolidiert Clickstream, Bestellungen und Logdaten für personalisierte Empfehlungen und Analysen.
Finanzdienstleister für Compliance‑Archiv
Banken nutzen den Data Lake zur revisionssicheren Langzeitarchivierung und Prüfpfad‑Erhaltung.
IoT‑Plattform mit Zeitreihendaten
Ein Hersteller speichert Telemetrie aus verteilten Geräten zur Analyse und Predictive Maintenance.
Implementierungsschritte
Bestandsaufnahme der Datenquellen und Definition von Zielen.
Architekturentscheidungen: Storage, Metadaten, Zugriffskontrollen.
Implementierung von Ingestion‑Pipelines und Metadatencatalog.
Einführung von Lifecycle‑Policies, Monitoring und Kostenkontrolle.
⚠️ Technische Schulden & Engpässe
Tech Debt
- Nicht standardisierte Dateiformate ohne Konvertierungsstrategie.
- Fehlende oder unvollständige Metadatenkataloge.
- Ad hoc Schemata und Transformationslogik in Benutzer‑Scripts.
Bekannte Engpässe
Beispiele für Missbrauch
- Speichern sensibler Daten ohne Verschlüsselung oder Zugriffskontrolle.
- Nutzung als langfristiges Ersatzarchiv für alle Rohdaten ohne Klassifikation.
- Direktes Querying großer Rohdatenbestände ohne optimierte Formate.
Typische Fallen
- Unklare Verantwortlichkeiten für Datenqualität und Pflege.
- Fehlende Automatisierung beim Lifecycle‑Management.
- Überschätzung der Out‑of‑the‑box‑Fähigkeiten von Cloud‑Anbietern.
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Budget für Speicher und Verarbeitung
- • Vorhandene Datenschutz‑ und Compliance‑Vorgaben
- • Technische Integrationsfähigkeit bestehender Systeme