Dimensionales Modellieren
Ein pragmatischer Ansatz zur Modellierung von Data-Warehouse-Daten, der Fakten- und Dimensionstabellen zur effizienten Analyse und Abfrageoptimierung strukturiert.
Klassifikation
- KomplexitätMittel
- AuswirkungTechnisch
- EntscheidungstypArchitektur
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Falsche Festlegung des Grains führt zu inkonsistenten oder irreparablen Datenmodellen.
- Unkoordinierte konforme Dimensionen verursachen Inkonsistenzen zwischen Datamarts.
- Übermäßige Denormalisierung kann ETL-Komplexität und Fehleranfälligkeit erhöhen.
- Definiere Grain früh und dokumentiere ihn eindeutig.
- Nutze konforme Dimensionen für domänenübergreifende Konsistenz.
- Behandle Slowly Changing Dimensions explizit und konsistent.
I/O & Ressourcen
- Quellsystem-Tabellen und CSV/Log-Feeds
- Fachliche Berichtsanfragen und Metrikdefinitionen
- Datenkatalog und Domänenbegriffs-Glossar
- Faktentabellen mit definiertem Grain
- Dimensionstabellen (konform oder domänenspezifisch)
- Dokumentation zu Grain, Keys und SCD-Strategien
Beschreibung
Dimensionales Modellieren ist ein pragmatisches Modellierungsparadigma für analytische Datenbanken und Data Warehouses. Es organisiert Daten in Fakten- und Dimensionstabellen (Stern- oder Schneeflockenschema) zur Optimierung von Abfragen, Analysefreundlichkeit und Verständlichkeit. Typische Themen sind Grain, konforme Dimensionen und Slowly Changing Dimensions. Es unterstützt schnelle Aggregationen und klare Berichtspfaddefinitionen.
✔Vorteile
- Verbesserte Abfrageperformance durch einfache Joins und optimierte Aggregationen.
- Bessere Verständlichkeit für Fachanwender und BI-Entwickler.
- Erleichtert inkrementelle Ladeprozesse und Aggregationsstrategien.
✖Limitationen
- Kann zu Redundanz führen und erhöhten Speicherverbrauch verursachen.
- Nicht ideal für stark transaktionale OLTP-Szenarien.
- Komplexe Slowly Changing Dimensions erfordern zusätzlichen Implementierungsaufwand.
Trade-offs
Metriken
- Abfrage-Latenz (p95)
95. Perzentil der Abfrageantwortzeit auf Analyseabfragen.
- ETL-Dauer
Gesamtdauer der täglichen/periodischen Ladeprozesse.
- Storage pro Faktentabelle
Speicherverbrauch einzelner Faktentabellen zur Kostenabschätzung.
Beispiele & Implementierungen
Klassisches Sternschema für Retail
Faktentabelle Verkäufe mit Dimensionen Produkt, Zeit, Filiale und Kunde zur schnellen Aggregation von Umsätzen.
Schneeflockenschema zur Reduktion von Redundanz
Dimensionen in normierter Form, wenn Attribut-Hierarchien groß sind und Speicheroptimierung erforderlich ist.
Konforme Dimensionen für bereichsübergreifende Reports
Gemeinsame Kundendimension, die in Sales-, Marketing- und Finanzdatamarts wiederverwendet wird.
Implementierungsschritte
Stakeholder-Workshops zur Erfassung von Metriken und Analysefällen.
Definition des Grains für jede geplante Faktentabelle.
Entwurf der Dimensionen und Entscheidung über Konformität.
Implementierung von ETL/ELT-Prozessen inklusive SCD-Strategien.
Testen, Validieren mit Fachbereichen und Performance-Optimierung.
⚠️ Technische Schulden & Engpässe
Tech Debt
- Temporäre Denormalisierungen ohne spätere Refaktorisierung.
- Fehlende Dokumentation zu Grain und Schlüsselbeziehungen.
- Ad-hoc erstellte lokale Dimensionen ohne Konformitätsprüfung.
Bekannte Engpässe
Beispiele für Missbrauch
- Verwendung dimensionaler Modelle für stark transaktionale Workloads ohne Anpassungen.
- Erstellen vieler schmaler Fakten ohne klare Grain-Definition.
- Fehlende Koordination bei gemeinsamen Dimensionen zwischen Teams.
Typische Fallen
- Unter- oder Überspezifizierung des Grains, die spätere Korrekturen erschwert.
- Unterschätzung des Aufwands für SCD-Implementierung.
- Keine Governance für konforme Dimensionen etablieren.
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Vorhandene Quellsysteme mit eingeschränkter Historie
- • Begrenzte Rechen- oder Speicherressourcen
- • Regulatorische Anforderungen an Datenaufbewahrung