Data Cleaning
Systematisches Verfahren zur Bereinigung von Daten: Identifikation, Korrektur und Entfernung fehlerhafter, unvollständiger oder inkonsistenter Einträge.
Klassifikation
- KomplexitätMittel
- AuswirkungTechnisch
- EntscheidungstypDesign
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Überbereinigung kann relevante Informationen verlieren
- Fehlende Nachvollziehbarkeit bei unzureichender Dokumentation
- Falsche Regeln führen zu inkonsistenten Ergebnissen
- Versionierte Regeln und Transformationen verwalten
- Testdaten und Regressionssuites für Bereinigungen pflegen
- Ergebnisse und Entscheidungen dokumentieren für Auditierbarkeit
I/O & Ressourcen
- Rohdaten aus mehreren Quellen
- Schemadefinitionen und Feldmetadaten
- Domänenregeln und Qualitätsanforderungen
- Bereinigte und standardisierte Datensätze
- Data Quality Reports und Metriken
- Audit-Logs und Transformation-Mappings
Beschreibung
Data Cleaning ist ein strukturiertes Verfahren zur Identifikation, Korrektur und Entfernung fehlerhafter, unvollständiger oder inkonsistenter Daten in Datensätzen. Es umfasst Validierung, Standardisierung, Dublettenerkennung, Datenprofiling und fehlende Wertebehandlung sowie regelbasierte Transformationen. Ziel ist eine zuverlässige, dokumentierte Datenbasis für Analysen, ML-Modelle und operative Prozesse; es reduziert Risiken und verbessert Entscheidungen.
✔Vorteile
- Erhöhte Zuverlässigkeit von Analysen und Berichten
- Reduktion operativer Fehler durch saubere Daten
- Bessere Entscheidungsgrundlagen und automatisierbare Prozesse
✖Limitationen
- Nicht alle Fehler sind automatisierbar oder endgültig behebbar
- Erfordert Pflege von Regeln und Mapping
- Skalierung großer, heterogener Datenmengen ist aufwändig
Trade-offs
Metriken
- Fehlerquote vor/nach Bereinigung
Prozentualer Anteil erkannter und korrigierter Fehler im Datensatz.
- Anzahl behandelte Dubletten
Anzahl zusammengeführter oder entfernter Duplikate.
- Durchlaufzeit der Bereinigung
Zeitbedarf für Bereinigungsprozesse pro Datensatz oder Batch.
Beispiele & Implementierungen
OpenRefine für Ad-hoc-Bereinigung
Interaktives Tool zur schnellen Normalisierung und Transformation kleiner bis mittlerer Datensätze.
ETL-Pipeline mit Validationsschichten
Automatisierte Bereinigung als Teil eines ETL-Prozesses mit Prüf- und Korrekturschritten.
Stammdatenmatching via Regeln und ML-Scoring
Kombination aus regelbasierter Vorverarbeitung und ML-basiertem Matching für komplexe Dublettenfälle.
Implementierungsschritte
Datenprofiling durchführen, um Hauptprobleme zu identifizieren
Qualitätsregeln und Transformationen definieren
Automatisierte Pipeline implementieren und Monitoring einrichten
⚠️ Technische Schulden & Engpässe
Tech Debt
- Unvollständige Dokumentation von Transformationen
- Harterkodierte Regeln in Legacy-Skripten
- Fehlende automatisierte Tests für Bereinigungslogik
Bekannte Engpässe
Beispiele für Missbrauch
- Entfernen aller Nullwerte ohne Kontextprüfung
- Generische Dublettenerkennung ohne Domänenlogik
- Überschreiben historischer Daten ohne Audit-Log
Typische Fallen
- Unterschätzen des Aufwands für Regelpflege
- Zu enge Validierungsregeln, die legitime Werte ausschließen
- Ignorieren von Performance-Implikationen bei großen Datenmengen
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Datenschutz- und Compliance-Anforderungen
- • Beschränkungen durch Quellsysteme und Schnittstellen
- • Rechen- und Speicherressourcen bei großen Datenmengen