Machine Learning Operations (MLOps)
MLOps verbindet ML-Entwicklung, Produktion und Betrieb durch Prozesse, Automatisierung und Governance, um Modelle zuverlässig zu betreiben.
Klassifikation
- KomplexitätHoch
- AuswirkungOrganisatorisch
- EntscheidungstypOrganisation
- OrganisationsreifeFortgeschritten
Technischer Kontext
Prinzipien & Ziele
Use Cases & Szenarien
Kompromisse
- Unzureichendes Monitoring führt zu schleichendem Qualitätsverlust
- Überautomatisierung ohne Governance erhöht Ausfallrisiko
- Datenzugriffs- oder Datenschutzverletzungen
- Versioniere alles (Code, Daten, Modelle, Konfiguration)
- Automatisiere Tests auf Daten-, Modell- und Integrations-Ebene
- Definiere klare Metriken und Alarmgrenzen für Produktion
I/O & Ressourcen
- Trainings- und Produktionsdaten
- Modelldefinitionen und Hyperparameter
- Infrastruktur- und Deployment-Configs
- Produktiv betriebene Modellendpoints
- Monitoring- und Audit-Dashboards
- Versionierte Artefakte und Metadaten
Beschreibung
Machine Learning Operations (MLOps) beschreibt Praktiken zur Verbindung von Modellentwicklung, Bereitstellung und Betrieb. Es vereint Datenengineering, CI/CD, Monitoring und Governance, um Modelle produktiv, reproduzierbar und skalierbar zu betreiben. Es adressiert organisatorische Prozesse und technische Infrastruktur.
✔Vorteile
- Schnellere, reproduzierbare Bereitstellungen von Modellen
- Verbesserte Überwachung und Drift-Erkennung
- Bessere Governance und Nachvollziehbarkeit
✖Limitationen
- Hoher initialer Integrationsaufwand
- Benötigt spezialisierte Fähigkeiten
- Komplexität bei heterogenen Datenquellen
Trade-offs
Metriken
- Deployment-Frequenz
Anzahl der Modellbereitstellungen pro Zeiteinheit.
- Modell-Performance
Geschäftsrelevante Metriken wie Präzision, Recall oder AUC im Produktivbetrieb.
- MTTR für Modelle
Durchschnittliche Zeit zur Wiederherstellung nach Modell- oder Pipelinefehlern.
Beispiele & Implementierungen
E‑Commerce-Plattform — Live-Empfehlungen
Rollout von Empfehlungsmodellen mit Canary-Deployments und Echtzeit-Monitoring.
Finanzdienstleister — Betrugserkennung
Kontinuierliche Validierung und Retraining zur Minimierung falscher Positiver.
SaaS-Anbieter — Automatisierte Feature-Pipelines
Versionierung von Features, Tests und reproduzierbare Trainingsläufe als Standard.
Implementierungsschritte
Definition von Rollen, Verantwortlichkeiten und SLAs
Aufbau von Versionierung für Daten, Modelle und Pipelines
Einrichtung von CI/CD, Monitoring und Retraining-Loops
⚠️ Technische Schulden & Engpässe
Tech Debt
- Nicht versionierte Modelle und Feature-Sets
- Monolithische Pipelines ohne Modularität
- Fehlende Rollback- und Canary-Strategien
Bekannte Engpässe
Beispiele für Missbrauch
- Modelle ohne Monitoring direkt in Produktion stellen
- Retraining nur auf Basis der letzten Labels ohne Validierung
- Governance ignorieren und kritische Daten offen halten
Typische Fallen
- Genauigkeit als alleiniges Qualitätskriterium verwenden
- Modelldrift erst erkennen, wenn Businesskennzahlen leiden
- Datenabhängigkeiten unterschätzen
Erforderliche Fähigkeiten
Drivers (Architectural Drivers)
Constraints
- • Regulatorische Anforderungen und Datenschutz
- • Begrenzte Verfügbarkeit von ML-Fachkräften
- • Heterogene Infrastrukturlandschaft