Einführung in Kubernetes und MLOps: Herausforderungen und Vorteile

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Willkommen zu dieser Serie über den Aufbau und die Einrichtung einer skalierbaren Infrastruktur für maschinelles Lernen in einer Kubernetes-Umgebung. In dieser Reihe werden wir verschiedene Themen im Zusammenhang mit der Entwicklung, Bereitstellung und Verwaltung von Modellen für maschinelles Lernen auf einem Kubernetes-Cluster behandeln.

Skalierbare Infrastruktur für maschinelles Lernen: Best Practices

Machine Learning Operations, allgemein bekannt als MLOps, bezieht sich auf die Praktiken und Techniken, die zur Verwaltung des Lebenszyklus von Modellen für maschinelles Lernen verwendet werden. Die skalierbare Betriebsinfrastruktur für maschinelles Lernen ermöglicht es Unternehmen, Modelle in großem Maßstab zu erstellen, bereitzustellen und zu verwalten, wodurch die Investitionsrendite (ROI) ihrer datenwissenschaftlichen Bemühungen erhöht wird.

Zu den Vorteilen einer skalierbaren MLOps-Infrastruktur gehören:

Schnellere Markteinführung von Modellen für maschinelles Lernen
Verbesserte Skalierbarkeit und Flexibilität für Workflows für maschinelles Lernen
Konsistente und wiederholbare Modellbereitstellungen
Verbesserte Zusammenarbeit zwischen Datenwissenschaftlern und IT-Betriebsteams
Verbesserte Modellgenauigkeit und Zuverlässigkeit

Airbnb investierte von Anfang an viel in die Einrichtung einer skalierbaren MLOps-Praxis. Das Unternehmen verwendete Modelle für maschinelles Lernen, um seine Algorithmen für das Suchranking mithilfe der nutzerdatengesteuerten Suche zu verbessern. Dies führte zu einem besseren Sucherlebnis und einem geschätzten Anstieg der Buchungen um 10%. Airbnb nutzte auch Modelle für maschinelles Lernen, um seinen Nutzern personalisierte Empfehlungen zu geben, was dazu beitrug, das Nutzererlebnis und die Nutzerbindung zu verbessern!

Herausforderungen bei der Einrichtung der MLOps-Infrastruktur

Unternehmen, die sich bei der Einrichtung ihrer ML-Trainings- und Bereitstellungsinfrastruktur auf virtuelle Maschinen (VMs) verlassen, sei es auf AWS, Google Cloud Platform (GCP) oder Microsoft Azure, stehen möglicherweise vor mehreren Herausforderungen:

Skalierbarkeit: VMs haben begrenzte Skalierbarkeitsoptionen, und Unternehmen müssen möglicherweise zusätzliche Instanzen manuell konfigurieren, um die Last zu bewältigen, was zu Leistungsproblemen und erhöhten Kosten führt.
Verwaltung der Ressourcen: VMs müssen für die Ressourcenzuweisung manuell konfiguriert werden, und Unternehmen müssen möglicherweise die für ihre ML-Workloads benötigten Ressourcen abschätzen. Dies kann zu einer Unterauslastung der Ressourcen oder zu Ressourcenbeschränkungen führen, was sich auf die Leistung der ML-Modelle auswirken kann.
Versionskontrolle: Die Verwaltung verschiedener Versionen von ML-Modellen kann bei der Verwendung von VMs eine Herausforderung sein. Unternehmen müssen möglicherweise verschiedene Versionen des Modells manuell verwalten, was zeitaufwändig und fehleranfällig sein kann.
Sicherheit: Virtuelle Maschinen können Sicherheitslücken aufweisen, und Unternehmen müssen möglicherweise Sicherheitsfunktionen wie Firewalls und Systeme zur Erkennung von Eindringlingen manuell konfigurieren, um ihre ML-Modelle und Daten zu schützen.
Überwachung und Protokollierung: Die Überwachung der Leistung von ML-Modellen und der zugrunde liegenden Infrastruktur in einer VM-basierten Infrastruktur kann eine Herausforderung sein, und es kann schwierig werden, den Status einzelner Komponenten zu verfolgen, Engpässe zu identifizieren und Probleme zu beheben.

Kubernetes in MLOps

Kubernetes ist eine beliebte Open-Source-Container-Orchestrierungsplattform, die die Bereitstellung, Skalierung und Verwaltung von containerisierten Anwendungen automatisiert. Sie bietet eine einheitliche API und eine deklarative Konfiguration, die das Management von containerisierten Workloads vereinfacht und es Unternehmen ermöglicht, eine skalierbare, belastbare und portable Infrastruktur für das Training und den Einsatz von ML-Modellen aufzubauen. Kubernetes bietet mehrere Vorteile gegenüber reinen VMs, darunter eine bessere Ressourcennutzung, eine vereinfachte Versionskontrolle und eine effiziente Skalierung. Darüber hinaus bietet Kubernetes integrierte Sicherheitsfunktionen sowie zentralisierte Überwachungs- und Protokollierungsfunktionen, mit denen Unternehmen die Sicherheit und Zuverlässigkeit ihrer ML-Infrastruktur gewährleisten können. Kubernetes ist eine hervorragende Wahl für Unternehmen, die skalierbare Pipelines für maschinelles Lernen auf längere Sicht aufbauen möchten.

Verwaltete Kubernetes auf AWS, GCP, Azure

Cloud-Anbieter (AWS, GCP und Azure) bieten verwaltete Kubernetes-Dienste (EKS, GKE bzw. AKS) an, die es Unternehmen ermöglichen, Kubernetes-Cluster einfach einzurichten, zu konfigurieren und zu verwalten, wodurch der mit der Ausführung und Skalierung von Kubernetes verbundene Betriebsaufwand entfällt. Darüber hinaus bieten Cloud-Anbieter Integrationen mit anderen Cloud-Diensten wie Speicher, Datenbanken und Netzwerken an, was die Bereitstellung und Verwaltung von ML-Workloads auf Kubernetes weiter vereinfachen kann. Durch die direkte Einführung von Kubernetes oder über einen Managed Service können Unternehmen eine flexible und skalierbare MLOps-Pipeline aufbauen, die ihren wachsenden ML-Workloads gewachsen ist und eine schnellere Markteinführung ihrer ML-Modelle ermöglicht.

Vorteile von Kubernetes für MLOps

Lassen Sie uns näher auf die Vorteile der Verwendung von Kubernetes für ML-Trainings- und Bereitstellungspipelines eingehen

Verwaltung der Ressourcen: Kubernetes ermöglicht Unternehmen die einfache Bereitstellung und Verwaltung der Ressourcen, die für die Ausführung von ML-Schulungsjobs und die Bereitstellung von Modellen erforderlich sind. Es kann die Ressourcen je nach Arbeitslast automatisch hoch- und herunterskalieren, was eine effiziente Ressourcennutzung gewährleistet und die Kosten senkt.
Vereinfachte Bereitstellung mit Best SRE Practices: Kubernetes bietet eine einheitliche API und eine deklarative Konfiguration, die die Bereitstellung von ML-Modellen vereinfacht. Unternehmen können Modelle problemlos skalierbar und belastbar bereitstellen. Die integrierte Unterstützung für fortlaufende Updates und Canary-Deployments kann dazu beitragen, Ausfallzeiten zu minimieren und die Zuverlässigkeit zu verbessern.
Flexibilität und Portabilität: Kubernetes bietet eine flexible und portable Infrastruktur, die verschiedene Bereitstellungsszenarien unterstützen kann, darunter lokale, Cloud- und Hybridumgebungen. Auf diese Weise können Unternehmen ihre ML-Workloads problemlos zwischen verschiedenen Umgebungen verlagern und eine Anbieterbindung vermeiden.
Bessere Kosten- und Ressourcenauslastung: Kubernetes ermöglicht es Unternehmen, Ressourcen effizient zu nutzen, indem mehrere ML-Workloads auf einem einzigen Knoten zusammengefasst werden, was zur Minimierung der Infrastrukturkosten beiträgt. Darüber hinaus kann Kubernetes andere spezialisierte Hardware nutzen, um das ML-Training und die Inferenz zu beschleunigen, was die Leistung weiter verbessern kann.

Beispiel Anwendungsfall 1: AirBnB

Airbnb, der Online-Marktplatz, auf dem Menschen ihre Häuser oder Wohnungen an Reisende vermieten können. Angesichts von Millionen von Nutzern und einer riesigen Menge an zu analysierenden Daten benötigte Airbnb eine robuste und skalierbare Infrastruktur für maschinelles Lernen, um das Nutzerverhalten zu analysieren, das Suchranking zu verbessern und Nutzern personalisierte Empfehlungen zu geben.

Um dies zu erreichen, investierte Airbnb in den Aufbau einer MLOps-Infrastruktur auf Kubernetes, die es dem Data-Science-Team ermöglichte, Modelle für maschinelles Lernen in großem Maßstab zu entwickeln und einzusetzen. Mit Kubernetes war Airbnb in der Lage, seine Modelle zu containerisieren und als Microservices bereitzustellen, was es einfacher machte, seine Infrastruktur zu verwalten und zu skalieren, je nach Bedarf. Dadurch konnte Airbnb seine Suchrankings verbessern und seinen Nutzern relevantere Empfehlungen geben, was zu höheren Buchungen und höheren Einnahmen führte. Darüber hinaus war das Unternehmen in der Lage, die Effizienz seiner datenwissenschaftlichen Workflows zu verbessern, sodass sich das Team auf die Entwicklung fortschrittlicherer Modelle für maschinelles Lernen konzentrieren konnte.

Beispiel für einen Anwendungsfall 2: Lyft

Lyft, ein großer Anbieter von Transportation as a SaaS (TaaS), baute seine ML-Infrastruktur zunächst auf AWS auf und verwendete dabei eine Kombination aus EC2-Instances und Docker-Containern. Sie verwendeten EC2-Instances, um virtuelle Maschinen mit unterschiedlichen CPU-, Speicher- und GPU-Ressourcen bereitzustellen, abhängig von den spezifischen ML-Workload-Anforderungen. Sie verwendeten auch Docker-Container, um ihre ML-Workloads zu verpacken und bereitzustellen und die Konsistenz in verschiedenen Umgebungen sicherzustellen.

Als die ML-Workloads von Lyft jedoch an Komplexität und Umfang zunahmen, standen sie vor mehreren Herausforderungen, darunter der Konsistenz in verschiedenen Umgebungen und Teams. Sie beschlossen, ihre ML-Infrastruktur auf eine Kubernetes-basierte Infrastruktur zu migrieren, wobei zunächst KubeFlow und dann eine interne Plattform verwendet wurde. Durch die Migration zu einer Kubernetes-basierten Infrastruktur war Lyft in der Lage, eine effizientere und skalierbarere ML-Infrastruktur aufzubauen, was ihnen half, ihre ML-Entwicklungs- und Bereitstellungspipelines zu beschleunigen. Darüber hinaus konnten sie die Vorteile von Kubernetes wie automatische Skalierung und effiziente Ressourcennutzung nutzen, um ihre ML-Workloads zu optimieren und die Infrastrukturkosten zu senken. Sie nutzten EKS von AWS als ihren verwalteten Kubernetes-Service!

Looking for KubeFlow Alternative?

‍

Insgesamt, die Investition in die MLOps-Infrastruktur auf Kubernetes ermöglichte Airbnb und Lyft, erhebliche Produktivitätssteigerungen zu erzielen und ihr Geschäftsergebnis zu verbessern. Dies zeigt den Wert, den skalierbare MLOps auf Kubernetes für Unternehmen bieten können, die maschinelles Lernen in großem Maßstab nutzen möchten.

Herausforderungen mit Kubernetes in MLOps

Trotz der Vorteile bringt die Verwendung von Kubernetes für ML Infrastructure ihre eigenen Herausforderungen und Komplexitäten mit sich:

Ressourcenmanagement beim Umgang mit großen Datensätzen oder komplexen Modellen: Aufgrund der Anforderungen einer großen Menge an Rechenressourcen, einschließlich GPUs, Arbeitsspeicher und Speicher, kann es schwierig sein, eine effiziente Zuweisung sicherzustellen, die nicht mit anderen Workloads im Kubernetes-Cluster in Konflikt gerät.
Integration verschiedener Tools: Unternehmen können verschiedene ML-Tools wie TensorFlow, PyTorch und scikit-learn verwenden, jedes mit seinen eigenen Anforderungen und Abhängigkeiten. Die Integration dieser Tools und Abhängigkeiten in die Kubernetes-Infrastruktur kann komplex und zeitaufwändig sein.
Sicherheitsbedenken bei Modellen für maschinelles Lernen: Es ist von entscheidender Bedeutung, sicherzustellen, dass ML-Modelle vor unbefugtem Zugriff oder Angriffen geschützt sind. Kubernetes bietet zwar verschiedene Sicherheitsfunktionen, wie z. B. rollenbasierte Zugriffskontrolle (RBAC), Netzwerkrichtlinien und Container-Isolierung, aber deren korrekte Konfiguration kann eine Herausforderung sein, wenn es um sensible Daten wie persönliche Informationen oder Finanzdaten geht.
Überwachung und Protokollierung in einer verteilten Umgebung: Die Überwachung der Leistung von ML-Modellen und der zugrunde liegenden Infrastruktur ist entscheidend für die Sicherstellung einer optimalen Leistung. In einer verteilten Kubernetes-Umgebung kann es jedoch schwierig sein, den Status einzelner Komponenten zu verfolgen, Engpässe zu identifizieren und Probleme zu beheben. Unternehmen müssen Überwachungs- und Protokollierungstools einrichten, die einen Echtzeit-Einblick in ihre Machine-Learning-Workflows und die Kubernetes-Infrastruktur bieten.

Zwar gibt es Herausforderungen, aber Unternehmen können diese Herausforderungen bewältigen und eine skalierbare, sichere und zuverlässige MLOps-Infrastruktur aufbauen, indem sie Best Practices befolgen und die Funktionen von Kubernetes nutzen.

Fazit

Kubernetes für maschinelles Lernen bietet zahlreiche Vorteile für Unternehmen, die ihre Workflows für maschinelles Lernen optimieren möchten. Zwar gibt es Herausforderungen bei der Einrichtung und Verwaltung der MLOps-Infrastruktur auf Kubernetes, wie z. B. Ressourcenmanagement, Sicherheit und Überwachung, aber ein gründliches Verständnis von Kubernetes und Best Practices kann helfen, diese Hindernisse zu überwinden.

In dieser Reihe von ML on Kubernetes werden wir versuchen, verschiedene Themen im Zusammenhang mit dem Aufbau und der Einrichtung einer ML-Infrastruktur in einer Kubernetes-Umgebung zu behandeln, darunter die folgenden:

Containerisierung und Orchestrierung mit Kubernetes
Verteiltes Training auf Kubernetes
Kubernetes-basierte Modellbereitstellung und -bereitstellung
GPU-basierte ML-Infrastruktur auf Kubernetes
Kubernetes CI/CD-Pipeline
Kubernetes-Überwachung für MLOps

und mehr..

Durch die Übernahme dieser Best Practices und die Nutzung der Leistungsfähigkeit von Kubernetes können Unternehmen Machine-Learning-Modelle konsistent, zuverlässig und sicher skalieren und bereitstellen. Dies wiederum würde zu einer schnelleren Markteinführung, einer verbesserten Zusammenarbeit zwischen Data-Science- und IT-Betriebsteams und einem besseren ROI ihrer Investitionen in die Datenwissenschaft führen.

Erfahren Sie, wie Gong eine skalierbare Forschungsinfrastruktur für maschinelles Lernen auf Kubernetes aufgebaut hat

True ML Talks #1 - Machine Learning Workflow @ Gong

Learn how Gong, a revenue intelligence platform, uses machine learning to analyze customer interactions and provide insights to revenue teams. Discover the challenges of managing ML workflows, data privacy, and data security.

TrueFoundry Blog TrueFoundry

‍

Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo