NVIDIA ist der weltweit führende Anbieter von GPUs. Angesichts einer noch nie dagewesenen Nachfrage nach GPUs weltweit wollte das Team die Leistung und Auslastung der GPU-Cluster in den Rechenzentren verbessern. Diese Lösung würde ihnen helfen, GPUs für mehr Kunden bereitzustellen und die Benutzererfahrung zu verbessern, indem die Verzögerungen zwischen GPU-Anfragen und deren Erfüllung reduziert werden.
Die entwickelte Lösung war ein KI-System, das alle GPU-Telemetriedaten (Auslastung, Stromverbrauch, Speichernutzung, Fehler usw.) verarbeitet, die in Echtzeit von ihren Clustern erfasst wurden, die GPUs anhand ihrer Auslastung bewertet und Maßnahmen zur Optimierung der Workloads vorschlägt.
Das Team entwickelte und implementierte ein neuartiges Multi-Agenten-Konversationssystem und domänenspezifische LLMs auf der TrueFoundry-Plattform. Die Agenten erstellten ML-Modelle und Optimierungsalgorithmen mithilfe von Telemetriedaten, um die GPU-Auslastung zu optimieren!
NVIDIA ist heute inmitten des KI-Goldrausches eines der wertvollsten Unternehmen der Welt. Das Unternehmen wurde 1993 gegründet, um beschleunigtes Rechnen zu entwickeln, das spezielle Herausforderungen im Zusammenhang mit Spielen und anderen Anwendungsfällen löst, die durch Allzweck-Computing nicht gelöst werden konnten.
NVIDIAs Namensgeschichte ist lustig! Bevor das Unternehmen einen Namen hatte, nannten die Mitbegründer alle ihre Dateien NV, wie in der „nächsten Version“. Die Gründung des Unternehmens veranlasste die Mitbegründer, alle Wörter mit diesen beiden Buchstaben zu überprüfen. Irgendwann wollten die Mitbegründer das Unternehmen nVision nennen, aber ein Toilettenpapierhersteller nahm diesen Namen bereits an. Huang schlug den Namen NVIDIA vor von“Invidia„, das lateinische Wort für „Neid“.
Schneller Vorlauf bis 2024. Die GPUs von NVIDIA sind das Kraftwerk der meisten Forschungs- und Wertschöpfungsprozesse mit LLMs und GenAI. In einem bestimmten Quartal NVIDIA erzielte einen Umsatz von über 25 Milliarden US-Dollar, und NVIDIA-GPUs sind so wertvoll geworden, dass sie in gepanzerten Autos zu Rechenzentren transportiert werden. Die Nachfrage nach NVIDIA-GPUs ist so groß, dass externe und interne Benutzer oft auf die besten Versionen ihrer Klasse warten müssen.
Angesichts der Tatsache, wie wertvoll eine GPU heute ist und deren Nachfrage exponentiell steigt, hat NVIDIA innerhalb des Unternehmens ein Team mit den folgenden Zielen zusammengestellt:
Maximierung der Leistung und Auslastung jedes GPU-Clusters
Verbesserung der Benutzererfahrung und der Wertschöpfung aus den vorhandenen GPUs.
Traditionell wurde dieses Problem gelöst, indem historische Telemetriedaten betrachtet und Domänenwissen verwendet wurden, um Modelle für maschinelles Lernen zu erstellen, die die Leistung/Auslastung der Cluster auf beliebigen Achsen optimieren.
Das Problem bei diesem Ansatz ist, dass er beeinflusst wird von:
Dadurch werden viele GPUs nicht ausgelastet, viele Workloads warten, viele Innovationen werden auf Eis gelegt und viele Menschen sind unzufrieden.
Das Team erwog, LLMs zu nutzen, um große Datensätze zu verarbeiten und logische Maßnahmen zur Verbesserung und Skalierung der GPU-Optimierung abzuleiten. Eine Lösung würde Folgendes erfordern:
Das NVIDIA-Team wollte, dass das LLM Agent-System den Domain-Experten und Betreibern hilft, umsetzbare Erkenntnisse zu gewinnen, indem es ihnen ermöglicht, relevante domänenspezifische Fragen zu stellen. Der LLM Agent sollte in der Lage sein, das gesamte Datenmanagement, die Codeausführung und die Modellerstellung durchzuführen, die für die Gewinnung dieser Erkenntnisse erforderlich sind. Benutzer könnten abstrakte Fragen stellen wie:
Das Autonomous Observability Agents Team von NVIDIA hat einen einzigartigen Ansatz zur Lösung dieses Problems entwickelt und beschlossen, diese Optimierung mithilfe von KI-Agenten zu automatisieren, die Folgendes können:
Diese Strategien können dem Endbenutzer über eine Anwendung namens Llo11yPop präsentiert werden, die es ihm ermöglicht, abstrakte Fragen zu stellen und das Modell die gesamte Orchestrierung übernehmen zu lassen!
Aufgrund dieses Mondshot-Problems musste das NVIDIA-Team benutzerdefinierte Basismodelle erstellen, Small Language Models (SLMs) optimieren, spezialisierte Agenten entwickeln, verteiltes Computing über verschiedene Datenquellen hinweg automatisieren und Workloads vor Ort und bei Cloud-Dienstanbietern ausführen. Einige der technischen Herausforderungen beim Aufbau eines solchen Systems sind:
Das Team entschied sich, die TrueFoundry-Plattform zu verwenden, um diese technischen Herausforderungen zu lösen und das notwendige Toolkit für die Modellvorbereitung, Feinabstimmung, Agentenbereitstellung und mehr bereitzustellen. Das Team wollte sich ausschließlich auf die Lösung des Geschäftsproblems und die Entwicklung der leistungsfähigsten Lösung konzentrieren.
Wir konnten die Modelle je nach Anwendungsfall problemlos austauschen, und als neue veröffentlicht wurden, war das Tempo des schnellen Experimentierens hat uns geholfen, in nur 6 Wochen einen funktionierenden PoC zu versenden
Das NVIDIA-Team erkannte schon früh, dass es ein kompliziertes Problem wie das oben genannte lösen musste; es musste die Herausforderungen zu Beginn des Projekts direkt angehen. Dies würde schnelle Iterationen ermöglichen und schnell verschiedene Datenquellen, Agenten, Benutzerpersönlichkeiten und Fragetypen unterstützen. Sie nutzten die TrueFoundry-Plattform, um einen umfassenden GenAI-Stack aufzubauen.
Die Nachfrage nach NVIDIA-GPUs ist in der KI-Revolution praktisch unbegrenzt. Diese Lösung wirkt sich auf die Auslastung und den schnelleren Austausch dieser GPU-Flotten aus, sodass NVIDIA diese Ressourcen viel mehr Kunden zur Verfügung stellen kann, und das viel schneller.
Jeder Prozentsatz oder Teil davon hat erhebliche Auswirkungen auf das Geschäft. Selbst geringfügige Verbesserungen der Auslastung ermöglichen es dem Team, neue Kunden zu bedienen, was zu einem Nettoneugeschäft für das Unternehmen führt. Das Team TrueFoundry hatte das Glück, in einer für die Branche so transformativen Zeit mit dem NVIDIA-Team an einem wirkungsvollen Projekt zusammenzuarbeiten.

Fortune 100-Unternehmen und Startups vertrauen uns gleichermaßen