Data Preprocessing
Vorbereitung und Standardisierung von Rohdaten durch Reinigung, Transformation und Normalisierung zur Verbesserung von Analysen und Modellen.
Klassifikation
- KomplexitätMittel
- AuswirkungTechnisch
- EntscheidungstypDesign
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Bias-Einführung durch falsche Datenbereinigung
- Überanpassung bei zu starkem Feature-Engineering
- Skalierungsprobleme bei großen Datenvolumen
- Transformationen als wiederverwendbare Bausteine kapseln
- Sorgfältige Versionierung von Schemata und Pipelines
- Automatisierte Tests für Datenqualität einführen
I/O & Ressourcen
- Rohdatensätze aus verschiedenen Quellen
- Schemadefinitionen und Metadaten
- Qualitätsregeln und Validierungsspezifikationen
- Bereinigte und standardisierte Datensätze
- Berechnete Features und Transformationslogs
- Validierungsberichte und Metriken
Beschreibung
Data Preprocessing bereitet Rohdaten für Analyse und Modellierung vor, indem es Bereinigung, Transformation und Normalisierung umfasst. Es reduziert Rauschen, behebt fehlende Werte und standardisiert Formate, um konsistente Eingaben für Algorithmen und Reports zu gewährleisten. Häufig angewendet in Datenpipelines und ML-Workflows.
✔Vorteile
- Verbesserte Genauigkeit von Analysen und Modellen
- Konsistente Datenformate über Systeme hinweg
- Frühzeitige Fehlererkennung und geringerer Nacharbeitsaufwand
✖Limitationen
- Aufwand für Entwicklung und Pflege der Pipelines
- Verlust von Informationen bei unsachgemäßen Transformationen
- Fehlinterpretation durch unangemessene Imputation
Trade-offs
Metriken
- Anteil bereinigter Datensätze
Prozentsatz der Datensätze, die die Validierungsregeln passieren.
- Fehlerquote nach Vorverarbeitung
Anzahl der fehlerhaften Einträge pro Million nach Verarbeitung.
- Laufzeit der Pipeline
Durchschnittliche Zeit zur Verarbeitung eines Datenvolumens.
Beispiele & Implementierungen
E-Commerce Verkaufsanalyse
Vereinheitlichung von Transaktionsdaten und Entfernung von Duplikaten vor Monatsreporting.
Sensor-Daten-Vorverarbeitung
Glättung und Imputation von Messwerten in IoT-Datenstrom.
Kundensegmentierung
Feature-Berechnung und Skalierung von Kundenmerkmalen vor Clustering.
Implementierungsschritte
Anforderungen und Qualitätsregeln definieren.
Pipelines modular implementieren und versionieren.
Monitoring, Tests und Reproduzierbarkeit sicherstellen.
⚠️ Technische Schulden & Engpässe
Tech Debt
- Hartkodierte Mappings und fehlende Tests
- Alte Transformationen ohne Refactoring
- Mangelnde Observability und Logging
Bekannte Engpässe
Beispiele für Missbrauch
- Übertriebene Imputation ohne Domänenprüfung
- Entfernen kritischer Werte als 'Rauschen' ohne Analyse
- Verwendung von Trainingsdaten zur Auswahl von Transformationsregeln
Typische Fallen
- Verlust von Informationen durch aggressive Normalisierung
- Still undokumentierte Eckenfälle in der Pipeline
- Unbemerkte Drift in Quellformaten
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Verfügbarkeit und Qualität der Quell-Daten
- • Datenschutz- und Compliance-Anforderungen
- • Begrenzte Rechenressourcen in produktiven Umgebungen