method#Daten#Analyse#Lieferung#Governance

Cross-Industry Standard Process for Data Mining (CRISP‑DM)

CRISP‑DM ist ein etabliertes, phasenbasiertes Vorgehensmodell für Data‑Mining‑Projekte zur Strukturierung von Arbeit, Ergebnissen und Verantwortlichkeiten.

CRISP‑DM ist ein iteratives, branchenneutrales Prozessmodell für Data‑Mining‑Projekte.

Reifegrad

Etabliert

Cognitive LoadMittel

Klassifikation

KomplexitätMittel
AuswirkungGeschäftlich
EntscheidungstypOrganisation
OrganisationsreifeFortgeschritten

Technischer Kontext

Integrationen

Jupyter Notebooks für Exploration und PrototypingDatenplattformen (z. B. Data Warehouse, Lake)CI/CD‑Tools zur Automatisierung von Deployments

Prinzipien & Ziele

Prinzipien

Phasenorientierung: Klare Trennung und Rückkopplung zwischen Phasen.Iteratives Arbeiten: Wiederholtes Verfeinern von Daten, Modellen und Anforderungen.Geschäftsgetriebenheit: Datenprojekte an konkreten Business‑Zielen ausrichten.

Value Stream

Erkundung

Organisationsebene

Domäne, Team

Use Cases & Szenarien

Use Cases

Szenarien

Kompromisse

Risiken

Überspezifikation der Phasen führt zu Dokumentationsaufwand ohne Mehrwert.
Ignorieren von Data‑Governance führt zu Compliance‑ und Qualitätsproblemen.
Fehlende Stakeholder‑Einbindung kann zu falschen Problemstellungen führen.

Best Practices

Frühe Einbindung von Business‑Stakeholdern zur Zielvalidierung.
Automatisierte Datenqualitätschecks in jeder Iteration.
Klare Übergaben und Dokumentation zwischen Phasen sichern.

I/O & Ressourcen

Eingaben

Business‑Ziele und Akzeptanzkriterien
Rohdaten aus relevanten Quellen
Domänenwissen und Experteninput

Ausgaben

Dokumentiertes Projektziel und Erfolgskriterien
Vorbereitete Trainings‑ und Testdatensätze
Validiertes Modell und Rollout‑Plan

Ressourcen

Beschreibung

CRISP‑DM ist ein iteratives, branchenneutrales Prozessmodell für Data‑Mining‑Projekte. Es beschreibt sechs Phasen — Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation und Deployment — zur Strukturierung von Arbeit, Rollen und Artefakten. Teams nutzen es, um Ziele zu klären, Risiken zu reduzieren und Modelle iterativ zu entwickeln.

✔Vorteile

Standardisierte Struktur reduziert Planungs‑ und Kommunikationsaufwand.
Fördert Reproduzierbarkeit und dokumentierte Übergaben zwischen Teams.
Hilft, Business‑Risiken frühzeitig zu identifizieren und zu mindern.

✖Limitationen

Nicht preskriptiv für technische Implementierungen oder Tools.
Kann in stark agilen Umgebungen als zu sequenziell empfunden werden.
Behandelt nicht detailliert die Operationalisierung (MLOps) moderner Modelle.

Trade-offs

Metriken

Modellgenauigkeit
Messung der Vorhersagequalität anhand geeigneter Metriken (z. B. AUC, F1).
Time‑to‑Value
Zeit vom Projektstart bis zur messbaren Nutzung durch das Business.
Datenbereitstellungsrate
Anteil der benötigten Datenquellen, die in ausreichender Qualität verfügbar sind.

Beispiele & Implementierungen

Versicherungs‑Schadenklassifikation

Anwendung von CRISP‑DM zur Strukturierung eines Projekts zur automatischen Klassifikation von Schadensmeldungen.

Einzelhandels‑Nachfrageprognose

Iterative Phasen zur Bereinigung historischer Verkaufsdaten, Modellierung und Rollout in Filialplanung.

Telekommunikations‑Kundensegmentierung

Segmentierungskampagne, die CRISP‑DM nutzt, um Features zu entwickeln und Kampagnen zielgerichtet zu testen.

Implementierungsschritte

Kickoff: Business‑Ziele, Stakeholder und Erfolgskriterien klären.

Dateninventur: Quellen identifizieren und erste Qualitätstests durchführen.

Datenaufbereitung: Missing values, Konsistenz und Feature‑Engineering.

Modellierung: Modelle auswählen, trainieren und vergleichen.

Evaluation: Modelle gegen Business‑Kriterien und Robustheit prüfen.

Deployment & Monitoring: Rollout planen, Monitoring und Feedback einrichten.

⚠️ Technische Schulden & Engpässe

Tech Debt

Ad hoc ETL‑Skripte ohne Wiederverwendbarkeit oder Tests.
Unzureichende Datenkatalogisierung und Metadatenpflege.
Kein Monitoring für Modellperformanz nach Deployment.

Bekannte Engpässe

DatenqualitätStakeholder‑AlignmentOperationalisierung

Beispiele für Missbrauch

Phasenrigidität: Jede Phase wird abgeschlossen, bevor die nächste beginnt, ohne Iteration.
Nur technische Metriken betrachten, Business‑Impact ignorieren.
Datenprojekte ohne Governance starten und später Compliance‑Probleme haben.

Typische Fallen

Zu frühe Festlegung auf ein Modell ohne ausreichende Validierung.
Unklare Erfolgskriterien führen zu Zielkonflikten.
Vernachlässigung der Produktionsanforderungen im Prototypenstadium.

Erforderliche Fähigkeiten

Datenanalyse und Feature‑EngineeringStatistik und ModellbewertungDomänenwissen und Stakeholder‑Kommunikation

Drivers (Architectural Drivers)

Datenqualität und VerfügbarkeitGovernance und Compliance‑AnforderungenErwarteter Business‑Nutzen und ROI

Constraints

• Beschränkter Zugang zu historischen oder sensiblen Daten.
• Zeitliche Vorgaben durch operative Stakeholder.
• Begrenzte Ressourcen für Datenaufbereitung und Infrastruktur.