Katalog
concept#Daten#Analytics#Architektur#Integration#Plattform

Data Warehousing

Zentrales Architekturkonzept zur Sammlung, Integration und Historisierung von Unternehmensdaten für Analyse und Reporting.

Data Warehousing ist ein Architekturkonzept zur zentralen Sammlung, Integration und Historisierung großer Unternehmensdaten aus verschiedenen Quellen.
Etabliert
Hoch

Klassifikation

  • Hoch
  • Geschäftlich
  • Architektur
  • Fortgeschritten

Technischer Kontext

ERP- und CRM-Systeme (z. B. SAP, Salesforce)Streaming- und Event-PlattformenBI-Tools und Analyseplattformen (z. B. Power BI, Tableau)

Prinzipien & Ziele

Single Source of Truth: Zentrale, konsolidierte DatenbasisTrennung von Speicherung und Analyse: optimierte Formate für AbfragenGovernance und Metadaten: Nachvollziehbarkeit und Qualität sichern
Umsetzung
Unternehmen, Domäne, Team

Use Cases & Szenarien

Kompromisse

  • Dateninkonsistenzen bei unzureichender Governance
  • Übermäßige Zentralisierung kann Agilität einschränken
  • Kostenexplosion bei unkontrolliertem Storage- und Compute-Wachstum
  • Iterative Einführung: Kernbereiche zuerst, Ausweitung schrittweise
  • Automatisiertes Datenqualitätsmonitoring einführen
  • Klare Verantwortlichkeiten für Datenprodukte definieren

I/O & Ressourcen

  • Quelltransaktionen aus operativen Systemen
  • Stammdaten und Referenztabellen
  • Metadaten, Schemadefinitionen und Business-Glossar
  • Bereinigte Fakt- und Dimensionstabellen
  • Data Marts und Abfrage-optimierte Sichten
  • Berichte, Dashboards und analytische Datensätze

Beschreibung

Data Warehousing ist ein Architekturkonzept zur zentralen Sammlung, Integration und Historisierung großer Unternehmensdaten aus verschiedenen Quellen. Es unterstützt Analyse, Berichtswesen und datengetriebene Entscheidungen durch strukturierte, optimierte Schemas, ETL/ELT-Prozesse und semantische Modelle. Typische Implementierungen nutzen Data Marts, Stern- oder Schneeflockenschemata sowie spezialisierte Warehouse-Systeme.

  • Konsistente, bereinigte Datenbasis für Analysen
  • Verbesserte Performance für Reporting-Workloads
  • Unterstützung historischer Analysen und Compliance

  • Hoher Initialaufwand für Modellierung und ETL/ELT-Pipelines
  • Mögliche Verzögerung zwischen Quelle und Warehouse (Latenz)
  • Skalierung großer, heterogener Datensätze erfordert Planung

  • Abfrage-Latenz (P95)

    Zeit, in der 95% der Abfragen beantwortet werden; wichtig für Nutzererfahrung.

  • ETL-Durchlaufzeit

    Gesamtdauer der Datenlade- und Transformationsprozesse; beeinflusst Datenfrische.

  • Kosten pro TB und Query

    Monetäre Metriken zur Bewertung von Speicher- und Abfragekosten.

Retail Data Warehouse für Verkaufsanalysen

Zentrales Warehouse integriert POS, Online-Shop und Lagerdaten zur Analyse von Absatztrends und Sortimentseffizienz.

Finanz-Reporting-Plattform

Konsolidiertes Finanzdatenset ermöglicht Monats-, Quartals- und Jahresabschlüsse mit einheitlicher Datenbasis.

Marketing-Attributions-Warehouse

Zusammenführung von Kampagnendaten und Web-Events zur Attribution und Kampagnenoptimierung.

1

Stakeholder-Workshops zur Festlegung von Zielen und KPIs

2

Quelleninventar erstellen und Datenprofiling durchführen

3

Logisches und physisches Datenmodell entwerfen

4

ETL/ELT-Pipelines implementieren und automatisieren

5

Monitoring, Tests und Rollout-Planung abschließen

⚠️ Technische Schulden & Engpässe

  • Legacy-ETL-Skripte ohne Tests und Dokumentation
  • Ad-hoc Partitionierung und fehlende Indexstrategie
  • Monolithische Schemata ohne Modularisierung in Data Marts
ETL-LaufzeitenAbfrage-Performance bei komplexen JoinsMetadaten- und Governance-Prozesse
  • Warehouse als Ersatz für operative OLTP-Systeme benutzen
  • Direktes Laden roher, unbereinigter Daten ohne Profiling
  • Fehlende Archivierungsstrategie führt zu unbezahlbaren Kosten
  • Unklare Ownership der Datenprodukte
  • Unterschätzung des Betriebsaufwands für ETL-Pipelines
  • Vernachlässigung von Sicherheit und Zugriffssteuerung
Datenmodellierung (Star/Snowflake Schema)ETL/ELT-Entwicklung und Pipeline-DesignDaten-Governance und Qualitätsmanagement
Datenkonsistenz und Referentielle IntegritätAbfrageperformance und LatenzanforderungenSkalierbarkeit und Kostenoptimierung
  • Verfügbarkeit und Qualität der Quellsystemdaten
  • Budget für Storage und Rechenkapazität
  • Compliance- und Datenschutzanforderungen