Katalog
concept#ML#DevOps#Daten#Governance#Plattform

Machine Learning Operations (MLOps)

MLOps verbindet ML-Entwicklung, Produktion und Betrieb durch Prozesse, Automatisierung und Governance, um Modelle zuverlässig zu betreiben.

Machine Learning Operations (MLOps) beschreibt Praktiken zur Verbindung von Modellentwicklung, Bereitstellung und Betrieb.
Aufstrebend
Hoch

Klassifikation

  • Hoch
  • Organisatorisch
  • Organisation
  • Fortgeschritten

Technischer Kontext

Kubernetes / Container-OrchestrierungCI/CD-Systeme (z. B. GitHub Actions, GitLab CI)Monitoring- und Observability-Tools (z. B. Prometheus)

Prinzipien & Ziele

Versioniere Daten, Modelle und PipelinesAutomatisiere Tests und ValidierungTrenne Infrastruktur von Geschäftslogik
Iteration
Unternehmen, Domäne, Team

Use Cases & Szenarien

Kompromisse

  • Unzureichendes Monitoring führt zu schleichendem Qualitätsverlust
  • Überautomatisierung ohne Governance erhöht Ausfallrisiko
  • Datenzugriffs- oder Datenschutzverletzungen
  • Versioniere alles (Code, Daten, Modelle, Konfiguration)
  • Automatisiere Tests auf Daten-, Modell- und Integrations-Ebene
  • Definiere klare Metriken und Alarmgrenzen für Produktion

I/O & Ressourcen

  • Trainings- und Produktionsdaten
  • Modelldefinitionen und Hyperparameter
  • Infrastruktur- und Deployment-Configs
  • Produktiv betriebene Modellendpoints
  • Monitoring- und Audit-Dashboards
  • Versionierte Artefakte und Metadaten

Beschreibung

Machine Learning Operations (MLOps) beschreibt Praktiken zur Verbindung von Modellentwicklung, Bereitstellung und Betrieb. Es vereint Datenengineering, CI/CD, Monitoring und Governance, um Modelle produktiv, reproduzierbar und skalierbar zu betreiben. Es adressiert organisatorische Prozesse und technische Infrastruktur.

  • Schnellere, reproduzierbare Bereitstellungen von Modellen
  • Verbesserte Überwachung und Drift-Erkennung
  • Bessere Governance und Nachvollziehbarkeit

  • Hoher initialer Integrationsaufwand
  • Benötigt spezialisierte Fähigkeiten
  • Komplexität bei heterogenen Datenquellen

  • Deployment-Frequenz

    Anzahl der Modellbereitstellungen pro Zeiteinheit.

  • Modell-Performance

    Geschäftsrelevante Metriken wie Präzision, Recall oder AUC im Produktivbetrieb.

  • MTTR für Modelle

    Durchschnittliche Zeit zur Wiederherstellung nach Modell- oder Pipelinefehlern.

E‑Commerce-Plattform — Live-Empfehlungen

Rollout von Empfehlungsmodellen mit Canary-Deployments und Echtzeit-Monitoring.

Finanzdienstleister — Betrugserkennung

Kontinuierliche Validierung und Retraining zur Minimierung falscher Positiver.

SaaS-Anbieter — Automatisierte Feature-Pipelines

Versionierung von Features, Tests und reproduzierbare Trainingsläufe als Standard.

1

Definition von Rollen, Verantwortlichkeiten und SLAs

2

Aufbau von Versionierung für Daten, Modelle und Pipelines

3

Einrichtung von CI/CD, Monitoring und Retraining-Loops

⚠️ Technische Schulden & Engpässe

  • Nicht versionierte Modelle und Feature-Sets
  • Monolithische Pipelines ohne Modularität
  • Fehlende Rollback- und Canary-Strategien
Datenqualität und -verfügbarkeitModell-Drift und ÜberwachungslückenBereitstellungs- und Latenzengpässe
  • Modelle ohne Monitoring direkt in Produktion stellen
  • Retraining nur auf Basis der letzten Labels ohne Validierung
  • Governance ignorieren und kritische Daten offen halten
  • Genauigkeit als alleiniges Qualitätskriterium verwenden
  • Modelldrift erst erkennen, wenn Businesskennzahlen leiden
  • Datenabhängigkeiten unterschätzen
Datenengineering und Feature-EngineeringMaschinelles Lernen und ModellvalidierungDevOps-Fähigkeiten: Infrastruktur, CI/CD, SRE
Reproduzierbarkeit von TrainingsläufenSkalierbarkeit von Trainings- und Inferenz-WorkloadsSicherheit und Compliance bei Daten und Modellen
  • Regulatorische Anforderungen und Datenschutz
  • Begrenzte Verfügbarkeit von ML-Fachkräften
  • Heterogene Infrastrukturlandschaft