Cross-Industry Standard Process for Data Mining (CRISP‑DM)
CRISP‑DM ist ein etabliertes, phasenbasiertes Vorgehensmodell für Data‑Mining‑Projekte zur Strukturierung von Arbeit, Ergebnissen und Verantwortlichkeiten.
Klassifikation
- KomplexitätMittel
- AuswirkungGeschäftlich
- EntscheidungstypOrganisation
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Überspezifikation der Phasen führt zu Dokumentationsaufwand ohne Mehrwert.
- Ignorieren von Data‑Governance führt zu Compliance‑ und Qualitätsproblemen.
- Fehlende Stakeholder‑Einbindung kann zu falschen Problemstellungen führen.
- Frühe Einbindung von Business‑Stakeholdern zur Zielvalidierung.
- Automatisierte Datenqualitätschecks in jeder Iteration.
- Klare Übergaben und Dokumentation zwischen Phasen sichern.
I/O & Ressourcen
- Business‑Ziele und Akzeptanzkriterien
- Rohdaten aus relevanten Quellen
- Domänenwissen und Experteninput
- Dokumentiertes Projektziel und Erfolgskriterien
- Vorbereitete Trainings‑ und Testdatensätze
- Validiertes Modell und Rollout‑Plan
Beschreibung
CRISP‑DM ist ein iteratives, branchenneutrales Prozessmodell für Data‑Mining‑Projekte. Es beschreibt sechs Phasen — Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation und Deployment — zur Strukturierung von Arbeit, Rollen und Artefakten. Teams nutzen es, um Ziele zu klären, Risiken zu reduzieren und Modelle iterativ zu entwickeln.
✔Vorteile
- Standardisierte Struktur reduziert Planungs‑ und Kommunikationsaufwand.
- Fördert Reproduzierbarkeit und dokumentierte Übergaben zwischen Teams.
- Hilft, Business‑Risiken frühzeitig zu identifizieren und zu mindern.
✖Limitationen
- Nicht preskriptiv für technische Implementierungen oder Tools.
- Kann in stark agilen Umgebungen als zu sequenziell empfunden werden.
- Behandelt nicht detailliert die Operationalisierung (MLOps) moderner Modelle.
Trade-offs
Metriken
- Modellgenauigkeit
Messung der Vorhersagequalität anhand geeigneter Metriken (z. B. AUC, F1).
- Time‑to‑Value
Zeit vom Projektstart bis zur messbaren Nutzung durch das Business.
- Datenbereitstellungsrate
Anteil der benötigten Datenquellen, die in ausreichender Qualität verfügbar sind.
Beispiele & Implementierungen
Versicherungs‑Schadenklassifikation
Anwendung von CRISP‑DM zur Strukturierung eines Projekts zur automatischen Klassifikation von Schadensmeldungen.
Einzelhandels‑Nachfrageprognose
Iterative Phasen zur Bereinigung historischer Verkaufsdaten, Modellierung und Rollout in Filialplanung.
Telekommunikations‑Kundensegmentierung
Segmentierungskampagne, die CRISP‑DM nutzt, um Features zu entwickeln und Kampagnen zielgerichtet zu testen.
Implementierungsschritte
Kickoff: Business‑Ziele, Stakeholder und Erfolgskriterien klären.
Dateninventur: Quellen identifizieren und erste Qualitätstests durchführen.
Datenaufbereitung: Missing values, Konsistenz und Feature‑Engineering.
Modellierung: Modelle auswählen, trainieren und vergleichen.
Evaluation: Modelle gegen Business‑Kriterien und Robustheit prüfen.
Deployment & Monitoring: Rollout planen, Monitoring und Feedback einrichten.
⚠️ Technische Schulden & Engpässe
Tech Debt
- Ad hoc ETL‑Skripte ohne Wiederverwendbarkeit oder Tests.
- Unzureichende Datenkatalogisierung und Metadatenpflege.
- Kein Monitoring für Modellperformanz nach Deployment.
Bekannte Engpässe
Beispiele für Missbrauch
- Phasenrigidität: Jede Phase wird abgeschlossen, bevor die nächste beginnt, ohne Iteration.
- Nur technische Metriken betrachten, Business‑Impact ignorieren.
- Datenprojekte ohne Governance starten und später Compliance‑Probleme haben.
Typische Fallen
- Zu frühe Festlegung auf ein Modell ohne ausreichende Validierung.
- Unklare Erfolgskriterien führen zu Zielkonflikten.
- Vernachlässigung der Produktionsanforderungen im Prototypenstadium.
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Beschränkter Zugang zu historischen oder sensiblen Daten.
- • Zeitliche Vorgaben durch operative Stakeholder.
- • Begrenzte Ressourcen für Datenaufbereitung und Infrastruktur.