Katalog
concept#Maschinelles Lernen#Plattform#DevOps#Sicherheit

Selbstgehostete Modelle

Bereitstellung und Betrieb von ML-/KI-Modellen auf eigener Infrastruktur statt in managed Cloud-Diensten, mit Fokus auf Kontrolle, Datenschutz, Latenz und Compliance.

Self-hosted Models beschreibt die Bereitstellung und den Betrieb von KI/ML-Modellen auf eigener Infrastruktur statt bei Cloud-Anbietern.
Aufstrebend
Hoch

Klassifikation

  • Hoch
  • Technisch
  • Architektur
  • Fortgeschritten

Technischer Kontext

CI/CD-Systeme (z. B. GitLab CI, Jenkins)Monitoring-Stack (z. B. Prometheus, Grafana)Secret-Management und IAM

Prinzipien & Ziele

Datenhoheit: Rohdaten und Modelle unter kontrollierter Verwaltung halten.Isolierung: Netzwerke und Zugriffsrechte klar segmentieren.Automatisierung: Deployments, Tests und Rollbacks automatisieren.
Betrieb
Domäne, Team

Use Cases & Szenarien

Kompromisse

  • Unzureichende Patches oder veraltete Komponenten führen zu Sicherheitslücken.
  • Fehlende Automatisierung erhöht Fehleranfälligkeit bei Rollouts.
  • Fehlende Betriebsressourcen können zu Ausfallzeiten führen.
  • Modellartefakte versionieren und signieren.
  • Automatisierte Tests und Canary-Rollouts nutzen.
  • Ressourcen-Metriken kontinuierlich überwachen und anpassen.

I/O & Ressourcen

  • Trainierte und versionierte Modellartefakte
  • Zugriffs- und Berechtigungsanforderungen
  • Test- und Validierungsdatensätze
  • Bereitgestellte Modellendpunkte
  • Monitoring- und Audit-Logs
  • Versionierte Deployments mit Rollback-Möglichkeit

Beschreibung

Self-hosted Models beschreibt die Bereitstellung und den Betrieb von KI/ML-Modellen auf eigener Infrastruktur statt bei Cloud-Anbietern. Der Fokus liegt auf Datenhoheit, Latenzoptimierung, Compliance und vollständiger Kontrolle über Modelle, Ressourcen und Integrationen. Betrieb, Monitoring und Updates müssen organisatorisch verankert sein.

  • Volle Kontrolle über Modelle, Updates und Zugriffssteuerung.
  • Verbesserte Datenschutz- und Compliance-Möglichkeiten.
  • Geringere Latenz durch lokale Inferenz und optimierte Netzwerke.

  • Hoher Betriebsaufwand für Infrastruktur und Monitoring.
  • Skalierung kann teurer und komplexer als Cloud-Lösungen sein.
  • Verantwortung für Sicherheit und Compliance liegt vollständig beim Betreiber.

  • Latenz pro Anfrage

    Mittlere und p95-Latenz der Inferenzanfragen, gemessen unter Produktionslast.

  • Verfügbarkeit

    Prozentuale Systemverfügbarkeit des Modell-Serving-Stacks innerhalb eines Zeitraums.

  • Fehlerrate bei Vorhersagen

    Anteil fehlerhafter oder abweichender Vorhersagen gegenüber Validierungsdaten.

Inhouse-Banking Inferenzplattform

Bank betreibt Modelle zur Betrugserkennung vollständig on-premise wegen regulatorischer Vorgaben.

Gesundheitsdaten-Analyse im Krankenhausnetz

Krankenhaus betreibt Bildklassifikationsmodelle lokal, um Patientendaten zu schützen.

Edge-Inferenz für Produktionsanlagen

Fertigung nutzt lokal deployte Modelle für Echtzeit-Fehlererkennung ohne Cloud-Latenz.

1

Anforderungen und Compliance-Kriterien definieren.

2

Infrastruktur (Netzwerk, Hardware) bereitstellen und segmentieren.

3

CI/CD-Pipeline für Modell-Tests und Deployments aufbauen.

4

Monitoring, Logging und Alerting einführen.

5

Rollback- und Notfallpläne testen.

⚠️ Technische Schulden & Engpässe

  • Nicht standardisierte Modellformate erschweren Portabilität.
  • Manuelle Betriebsprozesse führen zu inkonsistenten Deployments.
  • Alte Bibliotheken und Images erhöhen Sicherheitsrisiken.
Hardware-Ressourcen (GPU/TPU)Betriebs- und Support-KapazitätNetzwerk- und Speicherleistung
  • Modelle ohne Datensparsamkeit mit sensiblen Rohdaten betreiben.
  • Skalierung manuell und reaktiv statt automatisiert umzusetzen.
  • Sicherheitsupdates aus Kostengründen zu lange aufzuschieben.
  • Unterschätzung des Betriebsaufwands für Hardware und Software.
  • Fehlende Nachvollziehbarkeit bei Modelländerungen.
  • Annahmen über Skalierbarkeit ohne Lasttests.
Betrieb von verteilten Systemen und OrchestrierungKenntnisse in Modell-Serving und InferenzoptimierungSicherheits- und Compliance-Fachwissen
Datenhoheit und regulatorische AnforderungenLatenzanforderungen und Echtzeit-InferenzBetriebliche Verfügbarkeit und Wartbarkeit
  • Vorhandene Rechenkapazität und Beschaffungszyklen
  • Organisatorische Verantwortlichkeiten für Sicherheit
  • Budget für Infrastruktur und Wartung