Kommendes Webinar: Unternehmenssicherheit für Claude Code | 21. April · 11 Uhr PST. Registriere dich hier →

Wie NVIDIA die GPU-Cluster-Auslastung mit LLM-Agenten verbessert

Zusammenfassung

NVIDIA ist der weltweit führende Anbieter von GPUs. Angesichts einer noch nie dagewesenen Nachfrage nach GPUs weltweit wollte das Team die Leistung und Auslastung der GPU-Cluster in den Rechenzentren verbessern. Diese Lösung würde ihnen helfen, GPUs für mehr Kunden bereitzustellen und die Benutzererfahrung zu verbessern, indem die Verzögerungen zwischen GPU-Anfragen und deren Erfüllung reduziert werden.

Die entwickelte Lösung war ein KI-System, das alle GPU-Telemetriedaten (Auslastung, Stromverbrauch, Speichernutzung, Fehler usw.) verarbeitet, die in Echtzeit von ihren Clustern erfasst wurden, die GPUs anhand ihrer Auslastung bewertet und Maßnahmen zur Optimierung der Workloads vorschlägt.

Das Team entwickelte und implementierte ein neuartiges Multi-Agenten-Konversationssystem und domänenspezifische LLMs auf der TrueFoundry-Plattform. Die Agenten erstellten ML-Modelle und Optimierungsalgorithmen mithilfe von Telemetriedaten, um die GPU-Auslastung zu optimieren!

NVIDIA ist heute ein Synonym für KI

NVIDIA ist heute inmitten des KI-Goldrausches eines der wertvollsten Unternehmen der Welt. Das Unternehmen wurde 1993 gegründet, um beschleunigtes Rechnen zu entwickeln, das spezielle Herausforderungen im Zusammenhang mit Spielen und anderen Anwendungsfällen löst, die durch Allzweck-Computing nicht gelöst werden konnten.

NVIDIAs Namensgeschichte ist lustig! Bevor das Unternehmen einen Namen hatte, nannten die Mitbegründer alle ihre Dateien NV, wie in der „nächsten Version“. Die Gründung des Unternehmens veranlasste die Mitbegründer, alle Wörter mit diesen beiden Buchstaben zu überprüfen. Irgendwann wollten die Mitbegründer das Unternehmen nVision nennen, aber ein Toilettenpapierhersteller nahm diesen Namen bereits an. Huang schlug den Namen NVIDIA vor von“Invidia„, das lateinische Wort für „Neid“.

Schneller Vorlauf bis 2024. Die GPUs von NVIDIA sind das Kraftwerk der meisten Forschungs- und Wertschöpfungsprozesse mit LLMs und GenAI. In einem bestimmten Quartal erzielte NVIDIA einen Umsatz von über 25 Milliarden US-Dollar, und NVIDIA-GPUs sind so wertvoll geworden, dass sie in gepanzerten Fahrzeugen zu Rechenzentren transportiert werden. Die Nachfrage nach NVIDIA-GPUs ist so groß, dass externe und interne Benutzer oft auf die besten Versionen ihrer Klasse warten müssen.

Motivation: Bessere GPU-Auslastung hilft, die enorme Nachfrage zu decken

Angesichts der Tatsache, wie wertvoll eine GPU heute ist und deren Nachfrage exponentiell steigt, hat NVIDIA innerhalb des Unternehmens ein Team mit den folgenden Zielen zusammengestellt:

  1. Steigender ROI von GPU-Clustern: Maximierung der Leistung und Auslastung jedes GPU-Clusters.
  2. Schnellere Erfüllung von GPU-Anfragen: Verbesserung der Benutzererfahrung und der Wertschöpfung aus den vorhandenen GPUs.

Der traditionelle Ansatz mit ML-Modellen hat Einschränkungen

Traditionell wurde dieses Problem gelöst, indem historische Telemetriedaten betrachtet und Domänenwissen verwendet wurden, um Modelle für maschinelles Lernen zu erstellen, die die Leistung/Auslastung der Cluster auf beliebigen Achsen optimieren.

Das Problem bei diesem Ansatz ist, dass er beeinflusst wird von:

  1. Menschliche Vorurteile: Wird durch die Achsen begrenzt, die Entwicklungsteams optimieren könnten
  2. Nicht skalierbar: Es skaliert nicht mit der Anzahl der Workload-Typen, Problemklassen oder Clustertypen, für die jeweils eine eigene Optimierungstechnik erforderlich sein könnte!

Dadurch werden viele GPUs nicht ausgelastet, viele Workloads warten, viele Innovationen werden auf Eis gelegt und viele Menschen sind unzufrieden.

Ein völlig neuer Optimierungsansatz mit LLM Agents

Das Team erwog, LLMs zu nutzen, um große Datensätze zu verarbeiten und logische Maßnahmen zur Verbesserung und Skalierung der GPU-Optimierung abzuleiten. Eine Lösung würde Folgendes erfordern:

  1. Erfassung von Daten: Cluster-Telemetriedaten (GPU-Nutzung, Temperatur, Workloads) müssen von Rechenzentren in verschiedenen Regionen und Cloud-Anbietern erfasst werden.
  2. Überwachungs- und Analyse-Dashboard: Bietet Bedienern eine nahtlose Möglichkeit, Fragen zu stellen und eingehende Daten zu analysieren, sie in Echtzeit zu überwachen und Visualisierungen zu erstellen
  3. Automatisierte Optimierung: Ein Agent zur kontinuierlichen Überwachung, der die Daten verarbeiten und Maßnahmen ergreifen kann, um die Cluster-Workloads und die Ressourcenauslastung zu optimieren.
Vom NVIDIA-Team entwickelter Ansatz für ein automatisiertes Cluster-Optimierungssystem

Das NVIDIA-Team wollte, dass das LLM Agent-System den Domain-Experten und Betreibern hilft, umsetzbare Erkenntnisse zu gewinnen, indem es ihnen ermöglicht, relevante domänenspezifische Fragen zu stellen. Der LLM Agent sollte in der Lage sein, das gesamte Datenmanagement, die Codeausführung und die Modellerstellung durchzuführen, die für die Gewinnung dieser Erkenntnisse erforderlich sind. Benutzer könnten abstrakte Fragen stellen wie:

  • Was kannst du mir über stornierte Jobs sagen? Wie unterscheiden sie sich von denen, bei denen der Benutzer darum gebeten hat, sie zu kündigen? Warum?
  • Welche Teams haben die meisten Probleme mit GPUs? Gibt es gemeinsame Merkmale?
  • Gibt es weitere Anomalien in diesen Daten, die Sie ungewöhnlich finden würden? Wenn ja, erläutern Sie bitte warum.

Lösung: Das NVIDIA-Team hat einen neuartigen, auf mehreren Agenten basierenden Ansatz entwickelt

Das Autonomous Observability Agents Team von NVIDIA hat einen einzigartigen Ansatz zur Lösung dieses Problems entwickelt und beschlossen, diese Optimierung mithilfe von KI-Agenten zu automatisieren, die Folgendes können:

  1. Jeder führt eine bestimmte Reihe von Aufgaben aus
  2. Kommunizieren Sie miteinander
  3. Analytik- und ML-Modelle erstellen
  4. Simulationen ausführen
  5. Entwickeln Sie Strategien zur Optimierung der GPU-Auslastung

Diese Strategien können dem Endbenutzer über eine Anwendung namens Llo11yPop präsentiert werden, die es ihm ermöglicht, abstrakte Fragen zu stellen und das Modell die gesamte Orchestrierung übernehmen zu lassen!

Architektur des Multi-Agent-LLM-Systems

Herausforderung: Eine Vielzahl von technischen Orchestrierungen war erforderlich, um die Vision zu verwirklichen

Aufgrund dieses Mondshot-Problems musste das NVIDIA-Team benutzerdefinierte Basismodelle erstellen, Small Language Models (SLMs) optimieren, spezialisierte Agenten entwickeln, verteiltes Computing über verschiedene Datenquellen hinweg automatisieren und Workloads vor Ort und bei Cloud-Dienstanbietern ausführen. Einige der technischen Herausforderungen beim Aufbau eines solchen Systems sind:

  • Verwaltung von Hybrid- und Cross-Cloud-Umgebungen: Diese GPUs befinden sich in all den verschiedenen On-Premise- und Cloud-Rechenzentren weltweit.
  • Reibungsloser Modellwechsel: Um das für das Agentensystem am besten geeignete Modell zu verwenden, das auf der Art der eingehenden Anfrage oder Aufgabe basiert
  • Agentenbildung und Benchmarking: Um eine reibungslose Agentenkommunikation zu ermöglichen, Anfragen an relevante Agenten weiterzuleiten und die Leistung verschiedener Agentenarchitekturen zu vergleichen.

Das Team entschied sich, die TrueFoundry-Plattform zu verwenden, um diese technischen Herausforderungen zu lösen und das notwendige Toolkit für die Modellvorbereitung, Feinabstimmung, Agentenbereitstellung und mehr bereitzustellen. Das Team wollte sich ausschließlich auf die Lösung des Geschäftsproblems und die Entwicklung der leistungsfähigsten Lösung konzentrieren.

The Stack: TrueFoundry hat die technischen Herausforderungen gelöst, das Team begann innerhalb von 6 Wochen mit dem Versand!

„Wir konnten die Modelle je nach Anwendungsfall problemlos austauschen, und als neue veröffentlicht wurden, half uns dieses schnelle Experimentiertempo, innerhalb von nur 6 Wochen einen funktionierenden PoC auszuliefern“, Aaron

Das NVIDIA-Team erkannte schon früh, dass es ein kompliziertes Problem wie das oben genannte lösen musste; es musste die Herausforderungen zu Beginn des Projekts direkt angehen. Dies würde schnelle Iterationen ermöglichen und schnell verschiedene Datenquellen, Agenten, Benutzerpersönlichkeiten und Fragetypen unterstützen. Sie nutzten die TrueFoundry-Plattform, um einen umfassenden GenAI-Stack aufzubauen.

Generative KI-Infrastruktur, unterstützt von TrueFoundry

Auswirkungen des Projekts

Die Nachfrage nach NVIDIA-GPUs scheint in der KI-Revolution praktisch grenzenlos zu sein. Diese Lösung wirkt sich auf die Auslastung und den schnelleren Austausch dieser GPU-Flotten aus, sodass NVIDIA diese Ressourcen mehr Kunden und Forschern zur Verfügung stellen kann. Jede Erhöhung der Wartungsfreundlichkeit der Clients um einen Prozentsatz hat Auswirkungen von mehreren hundert Millionen Dollar auf den Umfang, in dem NVIDIA tätig ist.

Da sich dieses Projekt auf die prozentuale Auslastung und Leistung auswirkt, die aus der gesamten Flotte von GPU-Clustern abgeleitet werden können, führt jeder Prozentsatz oder Teil davon zu einer Auswirkung von mehreren hundert Millionen Dollar. Selbst kleine Verbesserungen der Auslastung ermöglichen es dem Team, neue Kunden zu bedienen, was zu einem Nettoneugeschäft für das Unternehmen führt. Wir hatten das Glück, in einer für die Branche so transformativen Zeit mit dem Team an einem wirkungsvollen Projekt zusammenzuarbeiten.

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Betreiben Sie Ihre ML-Pipeline ab Tag 0

Rohrleitung