Katalog
concept#Daten#Daten-Governance#Analyse#Integration

Datenqualität

Konzept zur Sicherstellung und Steuerung der Qualität von Daten durch Messgrößen, Governance und Verbesserungsprozesse.

Data Quality beschreibt die Eignung von Daten für spezifische Verwendungszwecke durch Merkmale wie Genauigkeit, Vollständigkeit, Konsistenz und Aktualität.
Etabliert
Mittel

Klassifikation

  • Mittel
  • Geschäftlich
  • Organisation
  • Fortgeschritten

Technischer Kontext

Data Catalogs (z. B. Amundsen, DataHub)Daten-Pipelines (z. B. Airflow, dbt)Monitoring- und Observability-Tools

Prinzipien & Ziele

Messbare Qualitätsmetriken definieren und verantwortenDaten-Governance und Data Contracts etablierenFeedback- und Korrekturschleifen in Prozesse integrieren
Iteration
Unternehmen, Domäne, Team

Use Cases & Szenarien

Kompromisse

  • Fokussierung auf messbare Metriken statt auf tatsächlichen Wert
  • Übermäßige Hürden, die Innovation und Geschwindigkeit bremsen
  • Fehlende Akzeptanz bei Fachbereichen führt zu Umgehungslösungen
  • Beginnen mit wenigen, geschäftsrelevanten Metriken
  • Automatisierte Tests in CI/CD integrieren
  • Eigentum und SLAs pro Datenprodukt definieren

I/O & Ressourcen

  • Datenquellen und ihre Schemas
  • Business-Regeln und Akzeptanzkriterien
  • Metadaten und Data Lineage
  • Qualitätsmetriken und Dashboards
  • Alerts und Fehlerberichte
  • Verbesserte Datenprodukte und Contracts

Beschreibung

Data Quality beschreibt die Eignung von Daten für spezifische Verwendungszwecke durch Merkmale wie Genauigkeit, Vollständigkeit, Konsistenz und Aktualität. Das Konzept umfasst Methoden zur Messung, Governance, Data Lineage und Prozesse zur Verbesserung. Es ist zentral für vertrauenswürdige Analysen, Prozesse und automatisierte Entscheidungen.

  • Erhöhte Zuverlässigkeit von Analysen und Berichten
  • Reduzierte Fehlerkosten in operativen Prozessen
  • Bessere Entscheidungsgrundlage für das Management

  • Erfordert organisatorische Abstimmung und Ownership
  • Vollständige Fehlerfreiheit ist oft nicht erreichbar
  • Messung und Automatisierung haben initiale Implementierungskosten

  • Vollständigkeitsrate

    Anteil der Datensätze mit vollständig ausgefüllten Pflichtfeldern.

  • Genauigkeitsquote

    Anteil der Werte, die gegen autoritative Quellen validiert sind.

  • Frische/Latenz

    Zeit seit der letzten Aktualisierung relevanter Datenfelder.

Konsolidierung Kundenstammdaten

Harmonisierung von IDs und Adressen, Anreicherung fehlender Angaben, Einführung von Duplikaterkennung.

BI-Dashboard mit Qualitäts-Freigabetor

Dashboards werden nur veröffentlicht, wenn Kernmetriken wie Vollständigkeit und Aktualität bestimmte Schwellen erfüllen.

Datenvertrauen für ML-Modelle

Kontinuierliche Monitoring-Pipelines prüfen Daten drift, fehlende Labels und Inkonsistenzen vor Training und Inferenz.

1

Initiales Assessment und Definition von Kernmetriken

2

Einführung von Monitoring- und Validierungs-Pipelines

3

Operationalisierung von Data Contracts und Governance-Prozessen

⚠️ Technische Schulden & Engpässe

  • Ad-hoc-Korrekturskripte ohne Tests
  • Fehlende Data Lineage für historische Korrekturen
  • Veraltete Validierungsregeln nach Systemänderungen
Fehlende MetadatenInkompatible DatenformateLegacy-Quellsysteme
  • Metrik 'Vollständigkeit' wird isoliert optimiert, obwohl kritische Felder fehlen
  • Automatische Löschung verdächtiger Datensätze ohne Review
  • Governance-Regeln verhindern schnelle notwendige Korrekturen
  • Vertrauen in einzelne Metriken statt ganzheitlicher Bewertung
  • Ignorieren von Kontext und Domänenlogik bei Validierungen
  • Überspezifikation von Regeln, die schwer wartbar sind
Datenmodellierung und Metadaten-ManagementDatenengineering und Pipeline-ImplementierungDomänenwissen zur Definition von Business-Regeln
Nachvollziehbarkeit der DatenherkunftMessbarkeit und Monitoring von QualitätsmetrikenGovernance und Verantwortlichkeiten
  • Datenschutz- und Compliance-Vorgaben
  • Begrenzte Ressourcen für Datenpflege
  • Heterogene Systemlandschaft