Wie NVIDIA die GPU-Cluster-Auslastung mit LLM-Agenten verbessert

Zusammenfassung

NVIDIA ist der weltweit führende Anbieter von GPUs. Angesichts einer noch nie dagewesenen Nachfrage nach GPUs weltweit wollte das Team die Leistung und Auslastung der GPU-Cluster in den Rechenzentren verbessern. Diese Lösung würde ihnen helfen, GPUs für mehr Kunden bereitzustellen und die Benutzererfahrung zu verbessern, indem die Verzögerungen zwischen GPU-Anfragen und deren Erfüllung reduziert werden.

Die entwickelte Lösung war ein KI-System, das alle GPU-Telemetriedaten (Auslastung, Stromverbrauch, Speichernutzung, Fehler usw.) verarbeitet, die in Echtzeit von ihren Clustern erfasst wurden, die GPUs anhand ihrer Auslastung bewertet und Maßnahmen zur Optimierung der Workloads vorschlägt. 

Das Team entwickelte und implementierte ein neuartiges Multi-Agenten-Konversationssystem und domänenspezifische LLMs auf der TrueFoundry-Plattform. Die Agenten erstellten ML-Modelle und Optimierungsalgorithmen mithilfe von Telemetriedaten, um die GPU-Auslastung zu optimieren!

NVIDIA ist heute ein Synonym für KI

NVIDIA ist heute inmitten des KI-Goldrausches eines der wertvollsten Unternehmen der Welt. Das Unternehmen wurde 1993 gegründet, um beschleunigtes Rechnen zu entwickeln, das spezielle Herausforderungen im Zusammenhang mit Spielen und anderen Anwendungsfällen löst, die durch Allzweck-Computing nicht gelöst werden konnten.

NVIDIAs Namensgeschichte ist lustig! Bevor das Unternehmen einen Namen hatte, nannten die Mitbegründer alle ihre Dateien NV, wie in der „nächsten Version“. Die Gründung des Unternehmens veranlasste die Mitbegründer, alle Wörter mit diesen beiden Buchstaben zu überprüfen. Irgendwann wollten die Mitbegründer das Unternehmen nVision nennen, aber ein Toilettenpapierhersteller nahm diesen Namen bereits an. Huang schlug den Namen NVIDIA vor von“Invidia„, das lateinische Wort für „Neid“.

Schneller Vorlauf bis 2024. Die GPUs von NVIDIA sind das Kraftwerk der meisten Forschungs- und Wertschöpfungsprozesse mit LLMs und GenAI. In einem bestimmten Quartal NVIDIA erzielte einen Umsatz von über 25 Milliarden US-Dollar, und NVIDIA-GPUs sind so wertvoll geworden, dass sie in gepanzerten Autos zu Rechenzentren transportiert werden. Die Nachfrage nach NVIDIA-GPUs ist so groß, dass externe und interne Benutzer oft auf die besten Versionen ihrer Klasse warten müssen.

Motivation: Bessere GPU-Auslastung hilft, die enorme Nachfrage zu decken

Angesichts der Tatsache, wie wertvoll eine GPU heute ist und deren Nachfrage exponentiell steigt, hat NVIDIA innerhalb des Unternehmens ein Team mit den folgenden Zielen zusammengestellt:

Steigender ROI von GPU-Clustern

Maximierung der Leistung und Auslastung jedes GPU-Clusters

Schnellere Erfüllung von GPU-Anfragen

Verbesserung der Benutzererfahrung und der Wertschöpfung aus den vorhandenen GPUs.

Der traditionelle Ansatz mit ML-Modellen hat Einschränkungen

Traditionell wurde dieses Problem gelöst, indem historische Telemetriedaten betrachtet und Domänenwissen verwendet wurden, um Modelle für maschinelles Lernen zu erstellen, die die Leistung/Auslastung der Cluster auf beliebigen Achsen optimieren. 

Das Problem bei diesem Ansatz ist, dass er beeinflusst wird von:

Menschliche Vorurteile: Ist durch die Achsen begrenzt, die Entwicklungsteams optimieren könnten
Nicht skalierbar: Es skaliert nicht mit der Anzahl der Workload-Typen, Problemklassen oder Clustertypen, für die jeweils eine eigene Optimierungstechnik erforderlich sein könnte!

Dadurch werden viele GPUs nicht ausgelastet, viele Workloads warten, viele Innovationen werden auf Eis gelegt und viele Menschen sind unzufrieden.

Ein völlig neuer Optimierungsansatz mit LLM Agents

Das Team erwog, LLMs zu nutzen, um große Datensätze zu verarbeiten und logische Maßnahmen zur Verbesserung und Skalierung der GPU-Optimierung abzuleiten. Eine Lösung würde Folgendes erfordern: 

Erfassung von Daten: Cluster-Telemetriedaten (GPU-Nutzung, Temperatur, Workloads) müssen von Rechenzentren in verschiedenen Regionen und Cloud-Anbietern erfasst werden.
Überwachungs- und Analyse-Dashboard: Bietet Bedienern eine nahtlose Möglichkeit, Fragen zu stellen und eingehende Daten zu analysieren, sie in Echtzeit zu überwachen und Visualisierungen zu erstellen
Automatisierte Optimierung: Ein Agent zur kontinuierlichen Überwachung, der die Daten verarbeiten und Maßnahmen ergreifen kann, um die Cluster-Workloads und die Ressourcenauslastung zu optimieren.

Telemetry data workflow with human validation and LLM agent analysis for cluster optimization process steps.

Vom NVIDIA-Team entwickelter Ansatz für ein automatisiertes Cluster-Optimierungssystem

Der Agent sollte in der Lage sein, das Wissen des Domain-Experten zu nutzen

Das NVIDIA-Team wollte, dass das LLM Agent-System den Domain-Experten und Betreibern hilft, umsetzbare Erkenntnisse zu gewinnen, indem es ihnen ermöglicht, relevante domänenspezifische Fragen zu stellen. Der LLM Agent sollte in der Lage sein, das gesamte Datenmanagement, die Codeausführung und die Modellerstellung durchzuführen, die für die Gewinnung dieser Erkenntnisse erforderlich sind. Benutzer könnten abstrakte Fragen stellen wie:

Was kannst du mir über stornierte Jobs sagen? Wie unterscheiden sie sich von denen, bei denen der Benutzer darum gebeten hat, sie zu kündigen? Warum?
Welche Teams haben die meisten Probleme mit GPUs? Gibt es gemeinsame Merkmale?
Gibt es weitere Anomalien in diesen Daten, die Sie ungewöhnlich finden würden? Wenn ja, erläutern Sie bitte warum.

Lösung: Das NVIDIA-Team hat einen neuartigen, auf mehreren Agenten basierenden Ansatz entwickelt

Das Autonomous Observability Agents Team von NVIDIA hat einen einzigartigen Ansatz zur Lösung dieses Problems entwickelt und beschlossen, diese Optimierung mithilfe von KI-Agenten zu automatisieren, die Folgendes können: 

Jeder führt eine bestimmte Reihe von Aufgaben aus
Kommunizieren Sie miteinander
Analytik- und ML-Modelle erstellen
Simulationen ausführen
Entwickeln Sie Strategien zur Optimierung der GPU-Auslastung/

Diese Strategien können dem Endbenutzer über eine Anwendung namens Llo11yPop präsentiert werden, die es ihm ermöglicht, abstrakte Fragen zu stellen und das Modell die gesamte Orchestrierung übernehmen zu lassen!

Data pipeline architecture with agents, memory optimization, and modeling for internal ML models and optimization.

Architektur des Multi-Agent-LLM-Systems

Herausforderung: Eine Vielzahl von technischen Orchestrierungen war erforderlich, um die Vision zu verwirklichen

Aufgrund dieses Mondshot-Problems musste das NVIDIA-Team benutzerdefinierte Basismodelle erstellen, Small Language Models (SLMs) optimieren, spezialisierte Agenten entwickeln, verteiltes Computing über verschiedene Datenquellen hinweg automatisieren und Workloads vor Ort und bei Cloud-Dienstanbietern ausführen. Einige der technischen Herausforderungen beim Aufbau eines solchen Systems sind: 

Verwaltung von Hybrid- und Cross-Cloud-Umgebungen: Diese GPUs befinden sich in all den verschiedenen On-Premise- und Cloud-Rechenzentren weltweit.
Reibungsloser Modellwechsel: Um das für das Agentensystem am besten geeignete Modell zu verwenden, das auf der Art der eingehenden Anfrage oder Aufgabe basiert
Agentenbildung und Benchmarking: Um eine reibungslose Agentenkommunikation zu ermöglichen, Anfragen an relevante Agenten weiterzuleiten und die Leistung verschiedener Agentenarchitekturen zu vergleichen.

Das Team entschied sich, die TrueFoundry-Plattform zu verwenden, um diese technischen Herausforderungen zu lösen und das notwendige Toolkit für die Modellvorbereitung, Feinabstimmung, Agentenbereitstellung und mehr bereitzustellen. Das Team wollte sich ausschließlich auf die Lösung des Geschäftsproblems und die Entwicklung der leistungsfähigsten Lösung konzentrieren.

The Stack: Da die TrueFoundry-Plattform die technischen Herausforderungen löste, begann das NVIDIA-Team innerhalb von 6 Wochen mit der Auslieferung!

Wir konnten die Modelle je nach Anwendungsfall problemlos austauschen, und als neue veröffentlicht wurden, war das Tempo des schnellen Experimentierens hat uns geholfen, in nur 6 Wochen einen funktionierenden PoC zu versenden

Aaron Erickson

Leitender technischer Leiter
 Autonomes Beobachtbarkeitsteam, NVIDIA

Das NVIDIA-Team erkannte schon früh, dass es ein kompliziertes Problem wie das oben genannte lösen musste; es musste die Herausforderungen zu Beginn des Projekts direkt angehen. Dies würde schnelle Iterationen ermöglichen und schnell verschiedene Datenquellen, Agenten, Benutzerpersönlichkeiten und Fragetypen unterstützen. Sie nutzten die TrueFoundry-Plattform, um einen umfassenden GenAI-Stack aufzubauen.

Central API Gateway with LLM deployment, backend and DB components, and agent playground architecture diagram.

Generative KI-Infrastruktur, unterstützt von TrueFoundry

Auswirkungen des Projekts

Die Nachfrage nach NVIDIA-GPUs ist in der KI-Revolution praktisch unbegrenzt. Diese Lösung wirkt sich auf die Auslastung und den schnelleren Austausch dieser GPU-Flotten aus, sodass NVIDIA diese Ressourcen viel mehr Kunden zur Verfügung stellen kann, und das viel schneller.

Jeder Prozentsatz oder Teil davon hat erhebliche Auswirkungen auf das Geschäft. Selbst geringfügige Verbesserungen der Auslastung ermöglichen es dem Team, neue Kunden zu bedienen, was zu einem Nettoneugeschäft für das Unternehmen führt. Das Team TrueFoundry hatte das Glück, in einer für die Branche so transformativen Zeit mit dem NVIDIA-Team an einem wirkungsvollen Projekt zusammenzuarbeiten.

Purple gradient background with curved lines on gray, rounded rectangle with subtle design elements.

GenAI infra- einfach, schneller, günstiger

Fortune 100-Unternehmen und Startups vertrauen uns gleichermaßen

Probiere es jetzt

Sprechen Sie mit Experten

Wie

verbessert die GPU-Cluster-Auslastung mit LLM-Agenten

Zusammenfassung

NVIDIA ist heute ein Synonym für KI