Datenqualität
Konzept zur Sicherstellung und Steuerung der Qualität von Daten durch Messgrößen, Governance und Verbesserungsprozesse.
Klassifikation
- KomplexitätMittel
- AuswirkungGeschäftlich
- EntscheidungstypOrganisation
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Fokussierung auf messbare Metriken statt auf tatsächlichen Wert
- Übermäßige Hürden, die Innovation und Geschwindigkeit bremsen
- Fehlende Akzeptanz bei Fachbereichen führt zu Umgehungslösungen
- Beginnen mit wenigen, geschäftsrelevanten Metriken
- Automatisierte Tests in CI/CD integrieren
- Eigentum und SLAs pro Datenprodukt definieren
I/O & Ressourcen
- Datenquellen und ihre Schemas
- Business-Regeln und Akzeptanzkriterien
- Metadaten und Data Lineage
- Qualitätsmetriken und Dashboards
- Alerts und Fehlerberichte
- Verbesserte Datenprodukte und Contracts
Beschreibung
Data Quality beschreibt die Eignung von Daten für spezifische Verwendungszwecke durch Merkmale wie Genauigkeit, Vollständigkeit, Konsistenz und Aktualität. Das Konzept umfasst Methoden zur Messung, Governance, Data Lineage und Prozesse zur Verbesserung. Es ist zentral für vertrauenswürdige Analysen, Prozesse und automatisierte Entscheidungen.
✔Vorteile
- Erhöhte Zuverlässigkeit von Analysen und Berichten
- Reduzierte Fehlerkosten in operativen Prozessen
- Bessere Entscheidungsgrundlage für das Management
✖Limitationen
- Erfordert organisatorische Abstimmung und Ownership
- Vollständige Fehlerfreiheit ist oft nicht erreichbar
- Messung und Automatisierung haben initiale Implementierungskosten
Trade-offs
Metriken
- Vollständigkeitsrate
Anteil der Datensätze mit vollständig ausgefüllten Pflichtfeldern.
- Genauigkeitsquote
Anteil der Werte, die gegen autoritative Quellen validiert sind.
- Frische/Latenz
Zeit seit der letzten Aktualisierung relevanter Datenfelder.
Beispiele & Implementierungen
Konsolidierung Kundenstammdaten
Harmonisierung von IDs und Adressen, Anreicherung fehlender Angaben, Einführung von Duplikaterkennung.
BI-Dashboard mit Qualitäts-Freigabetor
Dashboards werden nur veröffentlicht, wenn Kernmetriken wie Vollständigkeit und Aktualität bestimmte Schwellen erfüllen.
Datenvertrauen für ML-Modelle
Kontinuierliche Monitoring-Pipelines prüfen Daten drift, fehlende Labels und Inkonsistenzen vor Training und Inferenz.
Implementierungsschritte
Initiales Assessment und Definition von Kernmetriken
Einführung von Monitoring- und Validierungs-Pipelines
Operationalisierung von Data Contracts und Governance-Prozessen
⚠️ Technische Schulden & Engpässe
Tech Debt
- Ad-hoc-Korrekturskripte ohne Tests
- Fehlende Data Lineage für historische Korrekturen
- Veraltete Validierungsregeln nach Systemänderungen
Bekannte Engpässe
Beispiele für Missbrauch
- Metrik 'Vollständigkeit' wird isoliert optimiert, obwohl kritische Felder fehlen
- Automatische Löschung verdächtiger Datensätze ohne Review
- Governance-Regeln verhindern schnelle notwendige Korrekturen
Typische Fallen
- Vertrauen in einzelne Metriken statt ganzheitlicher Bewertung
- Ignorieren von Kontext und Domänenlogik bei Validierungen
- Überspezifikation von Regeln, die schwer wartbar sind
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Datenschutz- und Compliance-Vorgaben
- • Begrenzte Ressourcen für Datenpflege
- • Heterogene Systemlandschaft