Katalog
method#Daten#Analyse#Lieferung#Governance

Cross-Industry Standard Process for Data Mining (CRISP‑DM)

CRISP‑DM ist ein etabliertes, phasenbasiertes Vorgehensmodell für Data‑Mining‑Projekte zur Strukturierung von Arbeit, Ergebnissen und Verantwortlichkeiten.

CRISP‑DM ist ein iteratives, branchenneutrales Prozessmodell für Data‑Mining‑Projekte.
Etabliert
Mittel

Klassifikation

  • Mittel
  • Geschäftlich
  • Organisation
  • Fortgeschritten

Technischer Kontext

Jupyter Notebooks für Exploration und PrototypingDatenplattformen (z. B. Data Warehouse, Lake)CI/CD‑Tools zur Automatisierung von Deployments

Prinzipien & Ziele

Phasenorientierung: Klare Trennung und Rückkopplung zwischen Phasen.Iteratives Arbeiten: Wiederholtes Verfeinern von Daten, Modellen und Anforderungen.Geschäftsgetriebenheit: Datenprojekte an konkreten Business‑Zielen ausrichten.
Erkundung
Domäne, Team

Use Cases & Szenarien

Kompromisse

  • Überspezifikation der Phasen führt zu Dokumentationsaufwand ohne Mehrwert.
  • Ignorieren von Data‑Governance führt zu Compliance‑ und Qualitätsproblemen.
  • Fehlende Stakeholder‑Einbindung kann zu falschen Problemstellungen führen.
  • Frühe Einbindung von Business‑Stakeholdern zur Zielvalidierung.
  • Automatisierte Datenqualitätschecks in jeder Iteration.
  • Klare Übergaben und Dokumentation zwischen Phasen sichern.

I/O & Ressourcen

  • Business‑Ziele und Akzeptanzkriterien
  • Rohdaten aus relevanten Quellen
  • Domänenwissen und Experteninput
  • Dokumentiertes Projektziel und Erfolgskriterien
  • Vorbereitete Trainings‑ und Testdatensätze
  • Validiertes Modell und Rollout‑Plan

Beschreibung

CRISP‑DM ist ein iteratives, branchenneutrales Prozessmodell für Data‑Mining‑Projekte. Es beschreibt sechs Phasen — Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation und Deployment — zur Strukturierung von Arbeit, Rollen und Artefakten. Teams nutzen es, um Ziele zu klären, Risiken zu reduzieren und Modelle iterativ zu entwickeln.

  • Standardisierte Struktur reduziert Planungs‑ und Kommunikationsaufwand.
  • Fördert Reproduzierbarkeit und dokumentierte Übergaben zwischen Teams.
  • Hilft, Business‑Risiken frühzeitig zu identifizieren und zu mindern.

  • Nicht preskriptiv für technische Implementierungen oder Tools.
  • Kann in stark agilen Umgebungen als zu sequenziell empfunden werden.
  • Behandelt nicht detailliert die Operationalisierung (MLOps) moderner Modelle.

  • Modellgenauigkeit

    Messung der Vorhersagequalität anhand geeigneter Metriken (z. B. AUC, F1).

  • Time‑to‑Value

    Zeit vom Projektstart bis zur messbaren Nutzung durch das Business.

  • Datenbereitstellungsrate

    Anteil der benötigten Datenquellen, die in ausreichender Qualität verfügbar sind.

Versicherungs‑Schadenklassifikation

Anwendung von CRISP‑DM zur Strukturierung eines Projekts zur automatischen Klassifikation von Schadensmeldungen.

Einzelhandels‑Nachfrageprognose

Iterative Phasen zur Bereinigung historischer Verkaufsdaten, Modellierung und Rollout in Filialplanung.

Telekommunikations‑Kundensegmentierung

Segmentierungskampagne, die CRISP‑DM nutzt, um Features zu entwickeln und Kampagnen zielgerichtet zu testen.

1

Kickoff: Business‑Ziele, Stakeholder und Erfolgskriterien klären.

2

Dateninventur: Quellen identifizieren und erste Qualitätstests durchführen.

3

Datenaufbereitung: Missing values, Konsistenz und Feature‑Engineering.

4

Modellierung: Modelle auswählen, trainieren und vergleichen.

5

Evaluation: Modelle gegen Business‑Kriterien und Robustheit prüfen.

6

Deployment & Monitoring: Rollout planen, Monitoring und Feedback einrichten.

⚠️ Technische Schulden & Engpässe

  • Ad hoc ETL‑Skripte ohne Wiederverwendbarkeit oder Tests.
  • Unzureichende Datenkatalogisierung und Metadatenpflege.
  • Kein Monitoring für Modellperformanz nach Deployment.
DatenqualitätStakeholder‑AlignmentOperationalisierung
  • Phasenrigidität: Jede Phase wird abgeschlossen, bevor die nächste beginnt, ohne Iteration.
  • Nur technische Metriken betrachten, Business‑Impact ignorieren.
  • Datenprojekte ohne Governance starten und später Compliance‑Probleme haben.
  • Zu frühe Festlegung auf ein Modell ohne ausreichende Validierung.
  • Unklare Erfolgskriterien führen zu Zielkonflikten.
  • Vernachlässigung der Produktionsanforderungen im Prototypenstadium.
Datenanalyse und Feature‑EngineeringStatistik und ModellbewertungDomänenwissen und Stakeholder‑Kommunikation
Datenqualität und VerfügbarkeitGovernance und Compliance‑AnforderungenErwarteter Business‑Nutzen und ROI
  • Beschränkter Zugang zu historischen oder sensiblen Daten.
  • Zeitliche Vorgaben durch operative Stakeholder.
  • Begrenzte Ressourcen für Datenaufbereitung und Infrastruktur.