Katalog
method#Daten#Analytics#Daten-Governance#Integration

Data Cleaning

Systematisches Verfahren zur Bereinigung von Daten: Identifikation, Korrektur und Entfernung fehlerhafter, unvollständiger oder inkonsistenter Einträge.

Data Cleaning ist ein strukturiertes Verfahren zur Identifikation, Korrektur und Entfernung fehlerhafter, unvollständiger oder inkonsistenter Daten in Datensätzen.
Etabliert
Mittel

Klassifikation

  • Mittel
  • Technisch
  • Design
  • Fortgeschritten

Technischer Kontext

Relationale Datenbanken (z. B. PostgreSQL)Data Warehouse / Lake (z. B. Snowflake, S3)ETL/ELT-Tools und Workflow-Orchestratoren

Prinzipien & Ziele

Transparenz: alle Transformationen und Regeln dokumentierenIterativ vorgehen: kleine sichere Schritte mit ValidierungVerantwortung: Domänenwissen für Regeln einbinden
Umsetzung
Unternehmen, Domäne, Team

Use Cases & Szenarien

Kompromisse

  • Überbereinigung kann relevante Informationen verlieren
  • Fehlende Nachvollziehbarkeit bei unzureichender Dokumentation
  • Falsche Regeln führen zu inkonsistenten Ergebnissen
  • Versionierte Regeln und Transformationen verwalten
  • Testdaten und Regressionssuites für Bereinigungen pflegen
  • Ergebnisse und Entscheidungen dokumentieren für Auditierbarkeit

I/O & Ressourcen

  • Rohdaten aus mehreren Quellen
  • Schemadefinitionen und Feldmetadaten
  • Domänenregeln und Qualitätsanforderungen
  • Bereinigte und standardisierte Datensätze
  • Data Quality Reports und Metriken
  • Audit-Logs und Transformation-Mappings

Beschreibung

Data Cleaning ist ein strukturiertes Verfahren zur Identifikation, Korrektur und Entfernung fehlerhafter, unvollständiger oder inkonsistenter Daten in Datensätzen. Es umfasst Validierung, Standardisierung, Dublettenerkennung, Datenprofiling und fehlende Wertebehandlung sowie regelbasierte Transformationen. Ziel ist eine zuverlässige, dokumentierte Datenbasis für Analysen, ML-Modelle und operative Prozesse; es reduziert Risiken und verbessert Entscheidungen.

  • Erhöhte Zuverlässigkeit von Analysen und Berichten
  • Reduktion operativer Fehler durch saubere Daten
  • Bessere Entscheidungsgrundlagen und automatisierbare Prozesse

  • Nicht alle Fehler sind automatisierbar oder endgültig behebbar
  • Erfordert Pflege von Regeln und Mapping
  • Skalierung großer, heterogener Datenmengen ist aufwändig

  • Fehlerquote vor/nach Bereinigung

    Prozentualer Anteil erkannter und korrigierter Fehler im Datensatz.

  • Anzahl behandelte Dubletten

    Anzahl zusammengeführter oder entfernter Duplikate.

  • Durchlaufzeit der Bereinigung

    Zeitbedarf für Bereinigungsprozesse pro Datensatz oder Batch.

OpenRefine für Ad-hoc-Bereinigung

Interaktives Tool zur schnellen Normalisierung und Transformation kleiner bis mittlerer Datensätze.

ETL-Pipeline mit Validationsschichten

Automatisierte Bereinigung als Teil eines ETL-Prozesses mit Prüf- und Korrekturschritten.

Stammdatenmatching via Regeln und ML-Scoring

Kombination aus regelbasierter Vorverarbeitung und ML-basiertem Matching für komplexe Dublettenfälle.

1

Datenprofiling durchführen, um Hauptprobleme zu identifizieren

2

Qualitätsregeln und Transformationen definieren

3

Automatisierte Pipeline implementieren und Monitoring einrichten

⚠️ Technische Schulden & Engpässe

  • Unvollständige Dokumentation von Transformationen
  • Harterkodierte Regeln in Legacy-Skripten
  • Fehlende automatisierte Tests für Bereinigungslogik
Fehlende Standardisierung von FormatenUnzureichende MetadatenManueller Review als Engpass
  • Entfernen aller Nullwerte ohne Kontextprüfung
  • Generische Dublettenerkennung ohne Domänenlogik
  • Überschreiben historischer Daten ohne Audit-Log
  • Unterschätzen des Aufwands für Regelpflege
  • Zu enge Validierungsregeln, die legitime Werte ausschließen
  • Ignorieren von Performance-Implikationen bei großen Datenmengen
Kenntnisse in Datenmodellierung und SQLVerständnis von Domänenregeln und Business-LogikErfahrung mit Datenprofiling- und Bereinigungstools
Datenqualität und VertrauenswürdigkeitSkalierbarkeit der BereinigungsprozesseNachvollziehbarkeit und Auditfähigkeit
  • Datenschutz- und Compliance-Anforderungen
  • Beschränkungen durch Quellsysteme und Schnittstellen
  • Rechen- und Speicherressourcen bei großen Datenmengen