NVIDIA ist der weltweit führende Anbieter von GPUs. Angesichts einer noch nie dagewesenen Nachfrage nach GPUs weltweit wollte das Team die Leistung und Auslastung der GPU-Cluster in den Rechenzentren verbessern. Diese Lösung würde ihnen helfen, GPUs für mehr Kunden bereitzustellen und die Benutzererfahrung zu verbessern, indem die Verzögerungen zwischen GPU-Anfragen und deren Erfüllung reduziert werden.
Die entwickelte Lösung war ein KI-System, das alle GPU-Telemetriedaten (Auslastung, Stromverbrauch, Speichernutzung, Fehler usw.) verarbeitet, die in Echtzeit von ihren Clustern erfasst wurden, die GPUs anhand ihrer Auslastung bewertet und Maßnahmen zur Optimierung der Workloads vorschlägt.
Das Team entwickelte und implementierte ein neuartiges Multi-Agenten-Konversationssystem und domänenspezifische LLMs auf der TrueFoundry-Plattform. Die Agenten erstellten ML-Modelle und Optimierungsalgorithmen mithilfe von Telemetriedaten, um die GPU-Auslastung zu optimieren!
NVIDIA ist heute inmitten des KI-Goldrausches eines der wertvollsten Unternehmen der Welt. Das Unternehmen wurde 1993 gegründet, um beschleunigtes Rechnen zu entwickeln, das spezielle Herausforderungen im Zusammenhang mit Spielen und anderen Anwendungsfällen löst, die durch Allzweck-Computing nicht gelöst werden konnten.
NVIDIAs Namensgeschichte ist lustig! Bevor das Unternehmen einen Namen hatte, nannten die Mitbegründer alle ihre Dateien NV, wie in der „nächsten Version“. Die Gründung des Unternehmens veranlasste die Mitbegründer, alle Wörter mit diesen beiden Buchstaben zu überprüfen. Irgendwann wollten die Mitbegründer das Unternehmen nVision nennen, aber ein Toilettenpapierhersteller nahm diesen Namen bereits an. Huang schlug den Namen NVIDIA vor von“Invidia„, das lateinische Wort für „Neid“.
Schneller Vorlauf bis 2024. Die GPUs von NVIDIA sind das Kraftwerk der meisten Forschungs- und Wertschöpfungsprozesse mit LLMs und GenAI. In einem bestimmten Quartal erzielte NVIDIA einen Umsatz von über 25 Milliarden US-Dollar, und NVIDIA-GPUs sind so wertvoll geworden, dass sie in gepanzerten Fahrzeugen zu Rechenzentren transportiert werden. Die Nachfrage nach NVIDIA-GPUs ist so groß, dass externe und interne Benutzer oft auf die besten Versionen ihrer Klasse warten müssen.
Angesichts der Tatsache, wie wertvoll eine GPU heute ist und deren Nachfrage exponentiell steigt, hat NVIDIA innerhalb des Unternehmens ein Team mit den folgenden Zielen zusammengestellt:
Traditionell wurde dieses Problem gelöst, indem historische Telemetriedaten betrachtet und Domänenwissen verwendet wurden, um Modelle für maschinelles Lernen zu erstellen, die die Leistung/Auslastung der Cluster auf beliebigen Achsen optimieren.
Das Problem bei diesem Ansatz ist, dass er beeinflusst wird von:
Dadurch werden viele GPUs nicht ausgelastet, viele Workloads warten, viele Innovationen werden auf Eis gelegt und viele Menschen sind unzufrieden.
Das Team erwog, LLMs zu nutzen, um große Datensätze zu verarbeiten und logische Maßnahmen zur Verbesserung und Skalierung der GPU-Optimierung abzuleiten. Eine Lösung würde Folgendes erfordern:

Das NVIDIA-Team wollte, dass das LLM Agent-System den Domain-Experten und Betreibern hilft, umsetzbare Erkenntnisse zu gewinnen, indem es ihnen ermöglicht, relevante domänenspezifische Fragen zu stellen. Der LLM Agent sollte in der Lage sein, das gesamte Datenmanagement, die Codeausführung und die Modellerstellung durchzuführen, die für die Gewinnung dieser Erkenntnisse erforderlich sind. Benutzer könnten abstrakte Fragen stellen wie:
Das Autonomous Observability Agents Team von NVIDIA hat einen einzigartigen Ansatz zur Lösung dieses Problems entwickelt und beschlossen, diese Optimierung mithilfe von KI-Agenten zu automatisieren, die Folgendes können:
Diese Strategien können dem Endbenutzer über eine Anwendung namens Llo11yPop präsentiert werden, die es ihm ermöglicht, abstrakte Fragen zu stellen und das Modell die gesamte Orchestrierung übernehmen zu lassen!

Aufgrund dieses Mondshot-Problems musste das NVIDIA-Team benutzerdefinierte Basismodelle erstellen, Small Language Models (SLMs) optimieren, spezialisierte Agenten entwickeln, verteiltes Computing über verschiedene Datenquellen hinweg automatisieren und Workloads vor Ort und bei Cloud-Dienstanbietern ausführen. Einige der technischen Herausforderungen beim Aufbau eines solchen Systems sind:
Das Team entschied sich, die TrueFoundry-Plattform zu verwenden, um diese technischen Herausforderungen zu lösen und das notwendige Toolkit für die Modellvorbereitung, Feinabstimmung, Agentenbereitstellung und mehr bereitzustellen. Das Team wollte sich ausschließlich auf die Lösung des Geschäftsproblems und die Entwicklung der leistungsfähigsten Lösung konzentrieren.
„Wir konnten die Modelle je nach Anwendungsfall problemlos austauschen, und als neue veröffentlicht wurden, half uns dieses schnelle Experimentiertempo, innerhalb von nur 6 Wochen einen funktionierenden PoC auszuliefern“, Aaron
Das NVIDIA-Team erkannte schon früh, dass es ein kompliziertes Problem wie das oben genannte lösen musste; es musste die Herausforderungen zu Beginn des Projekts direkt angehen. Dies würde schnelle Iterationen ermöglichen und schnell verschiedene Datenquellen, Agenten, Benutzerpersönlichkeiten und Fragetypen unterstützen. Sie nutzten die TrueFoundry-Plattform, um einen umfassenden GenAI-Stack aufzubauen.

Die Nachfrage nach NVIDIA-GPUs scheint in der KI-Revolution praktisch grenzenlos zu sein. Diese Lösung wirkt sich auf die Auslastung und den schnelleren Austausch dieser GPU-Flotten aus, sodass NVIDIA diese Ressourcen mehr Kunden und Forschern zur Verfügung stellen kann. Jede Erhöhung der Wartungsfreundlichkeit der Clients um einen Prozentsatz hat Auswirkungen von mehreren hundert Millionen Dollar auf den Umfang, in dem NVIDIA tätig ist.
Da sich dieses Projekt auf die prozentuale Auslastung und Leistung auswirkt, die aus der gesamten Flotte von GPU-Clustern abgeleitet werden können, führt jeder Prozentsatz oder Teil davon zu einer Auswirkung von mehreren hundert Millionen Dollar. Selbst kleine Verbesserungen der Auslastung ermöglichen es dem Team, neue Kunden zu bedienen, was zu einem Nettoneugeschäft für das Unternehmen führt. Wir hatten das Glück, in einer für die Branche so transformativen Zeit mit dem Team an einem wirkungsvollen Projekt zusammenzuarbeiten.
