Data Warehousing
Zentrales Architekturkonzept zur Sammlung, Integration und Historisierung von Unternehmensdaten für Analyse und Reporting.
Klassifikation
- KomplexitätHoch
- AuswirkungGeschäftlich
- EntscheidungstypArchitektur
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Dateninkonsistenzen bei unzureichender Governance
- Übermäßige Zentralisierung kann Agilität einschränken
- Kostenexplosion bei unkontrolliertem Storage- und Compute-Wachstum
- Iterative Einführung: Kernbereiche zuerst, Ausweitung schrittweise
- Automatisiertes Datenqualitätsmonitoring einführen
- Klare Verantwortlichkeiten für Datenprodukte definieren
I/O & Ressourcen
- Quelltransaktionen aus operativen Systemen
- Stammdaten und Referenztabellen
- Metadaten, Schemadefinitionen und Business-Glossar
- Bereinigte Fakt- und Dimensionstabellen
- Data Marts und Abfrage-optimierte Sichten
- Berichte, Dashboards und analytische Datensätze
Beschreibung
Data Warehousing ist ein Architekturkonzept zur zentralen Sammlung, Integration und Historisierung großer Unternehmensdaten aus verschiedenen Quellen. Es unterstützt Analyse, Berichtswesen und datengetriebene Entscheidungen durch strukturierte, optimierte Schemas, ETL/ELT-Prozesse und semantische Modelle. Typische Implementierungen nutzen Data Marts, Stern- oder Schneeflockenschemata sowie spezialisierte Warehouse-Systeme.
✔Vorteile
- Konsistente, bereinigte Datenbasis für Analysen
- Verbesserte Performance für Reporting-Workloads
- Unterstützung historischer Analysen und Compliance
✖Limitationen
- Hoher Initialaufwand für Modellierung und ETL/ELT-Pipelines
- Mögliche Verzögerung zwischen Quelle und Warehouse (Latenz)
- Skalierung großer, heterogener Datensätze erfordert Planung
Trade-offs
Metriken
- Abfrage-Latenz (P95)
Zeit, in der 95% der Abfragen beantwortet werden; wichtig für Nutzererfahrung.
- ETL-Durchlaufzeit
Gesamtdauer der Datenlade- und Transformationsprozesse; beeinflusst Datenfrische.
- Kosten pro TB und Query
Monetäre Metriken zur Bewertung von Speicher- und Abfragekosten.
Beispiele & Implementierungen
Retail Data Warehouse für Verkaufsanalysen
Zentrales Warehouse integriert POS, Online-Shop und Lagerdaten zur Analyse von Absatztrends und Sortimentseffizienz.
Finanz-Reporting-Plattform
Konsolidiertes Finanzdatenset ermöglicht Monats-, Quartals- und Jahresabschlüsse mit einheitlicher Datenbasis.
Marketing-Attributions-Warehouse
Zusammenführung von Kampagnendaten und Web-Events zur Attribution und Kampagnenoptimierung.
Implementierungsschritte
Stakeholder-Workshops zur Festlegung von Zielen und KPIs
Quelleninventar erstellen und Datenprofiling durchführen
Logisches und physisches Datenmodell entwerfen
ETL/ELT-Pipelines implementieren und automatisieren
Monitoring, Tests und Rollout-Planung abschließen
⚠️ Technische Schulden & Engpässe
Tech Debt
- Legacy-ETL-Skripte ohne Tests und Dokumentation
- Ad-hoc Partitionierung und fehlende Indexstrategie
- Monolithische Schemata ohne Modularisierung in Data Marts
Bekannte Engpässe
Beispiele für Missbrauch
- Warehouse als Ersatz für operative OLTP-Systeme benutzen
- Direktes Laden roher, unbereinigter Daten ohne Profiling
- Fehlende Archivierungsstrategie führt zu unbezahlbaren Kosten
Typische Fallen
- Unklare Ownership der Datenprodukte
- Unterschätzung des Betriebsaufwands für ETL-Pipelines
- Vernachlässigung von Sicherheit und Zugriffssteuerung
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Verfügbarkeit und Qualität der Quellsystemdaten
- • Budget für Storage und Rechenkapazität
- • Compliance- und Datenschutzanforderungen