NVIDIA est le premier fournisseur mondial de GPU. Face à une demande sans précédent de GPU à l'échelle mondiale, l'équipe souhaitait améliorer les performances et l'utilisation des clusters de GPU dans les centres de données. Cette solution les aiderait à fournir des GPU à un plus grand nombre de clients et à améliorer l'expérience utilisateur en réduisant le délai entre les requêtes GPU et leur traitement.
La solution conçue était un système d'IA qui traite toutes les données de télémétrie des GPU (utilisation, consommation d'énergie, utilisation de la mémoire, erreurs, etc.) collectées en temps réel à partir de leurs clusters, évalue les GPU en fonction de leur utilisation et suggère des étapes pour optimiser les charges de travail.
L'équipe a créé et déployé un nouveau système conversationnel multi-agents et des LLM spécifiques à un domaine sur la plateforme TrueFoundry. Les agents ont créé des modèles de machine learning et des algorithmes d'optimisation à l'aide de données de télémétrie pour optimiser l'utilisation du GPU !
NVIDIA est aujourd'hui l'une des entreprises les plus importantes au monde en pleine ruée vers l'or de l'IA. Elle a été fondée en 1993 pour développer une informatique accélérée capable de résoudre les problèmes spécifiques aux jeux et d'autres cas d'utilisation que l'informatique polyvalente ne pouvait pas résoudre.
L'histoire du nom de NVIDIA est amusante ! Avant que l'entreprise n'ait un nom, les cofondateurs appelaient tous leurs fichiers NV, comme dans « version suivante ». La constitution de la société a incité les cofondateurs à revoir tous les mots contenant ces deux lettres. À un moment donné, les cofondateurs ont voulu appeler la société nVision, mais un fabricant de papier toilette a déjà pris ce nom. Huang a suggéré le nom NVIDIA à partir de »invidia», le mot latin pour « envie ».
Avance rapide jusqu'en 2024. Les GPU de NVIDIA sont au cœur de la plupart des recherches et de la création de valeur utilisant les LLM et GenAI. Au cours d'un trimestre donné, NVIDIA a généré plus de 25 milliards de dollars de revenus, et les GPU NVIDIA sont devenus si précieux qu'ils sont transportés dans des véhicules blindés vers des centres de données. La demande pour les GPU NVIDIA est telle que les utilisateurs externes et internes doivent souvent attendre les meilleures versions de leur catégorie.
Compte tenu de la valeur d'un GPU aujourd'hui et de la croissance exponentielle de sa demande, NVIDIA a créé une équipe au sein de l'entreprise avec les objectifs suivants :
Traditionnellement, ce problème a été résolu en examinant les données de télémétrie historiques et en utilisant les connaissances du domaine pour créer des modèles d'apprentissage automatique qui optimisent les performances/l'utilisation des clusters sur un axe donné.
Le problème de cette approche est qu'elle est influencée par :
Cela laisse de nombreux GPU sous-utilisés, de nombreuses charges de travail en attente, de nombreuses innovations mises de côté et de nombreux êtres humains mécontents.
L'équipe a envisagé de tirer parti des LLM pour leur capacité à traiter de grands ensembles de données et à déduire des actions logiques pour améliorer et étendre l'optimisation des GPU. Une solution nécessiterait les éléments suivants :

L'équipe NVIDIA souhaitait que le système LLM Agent aide les experts et les opérateurs du domaine à générer des informations exploitables en leur permettant de poser des questions pertinentes spécifiques au domaine. L'agent LLM doit être capable de gérer toutes les données, d'exécuter du code et de créer des modèles nécessaires pour obtenir ces informations. Les utilisateurs peuvent poser des questions abstraites telles que :
L'équipe des agents d'observabilité autonomes de NVIDIA a mis au point une approche unique pour résoudre ce problème en décidant d'automatiser cette optimisation à l'aide d'agents d'IA capables de :
Ces stratégies peuvent être présentées à l'utilisateur final via une application nommée Llo11yPop qui lui permet de poser des questions abstraites et de laisser le modèle faire toute l'orchestration !

Ce problème sans précédent a obligé l'équipe de NVIDIA à créer des modèles fondamentaux personnalisés, à affiner les modèles Small Language Models (SLM), à développer des agents spécialisés, à automatiser le calcul distribué sur diverses sources de données et à exécuter des charges de travail sur site et auprès de fournisseurs de services cloud. Certains des défis techniques liés à la construction d'un tel système sont les suivants :
L'équipe a décidé d'utiliser la plateforme TrueFoundry pour résoudre ces problèmes d'ingénierie et fournir la boîte à outils nécessaire pour la pré-formation des modèles, la mise au point, le déploiement des agents, etc. L'équipe souhaitait se concentrer uniquement sur la résolution du problème commercial et sur le développement de la solution la plus performante.
« Nous pouvions facilement changer de modèle selon les cas d'utilisation, et à mesure que de nouveaux modèles étaient publiés, ce rythme d'expérimentation rapide nous a permis de livrer un PoC fonctionnel en seulement 6 semaines », Aaron
L'équipe NVIDIA s'est vite rendu compte que pour résoudre un problème aussi complexe que celui-ci, elle devait relever les défis de front dès le début du projet. Cela permettrait des itérations rapides et prendrait rapidement en charge différentes sources de données, agents, profils d'utilisateurs et types de questions. Ils ont tiré parti de la plateforme TrueFoundry pour créer une pile GenAI complète.

La demande de GPU NVIDIA semble pratiquement illimitée dans le cadre de la révolution de l'IA. Cette solution influe sur l'utilisation et le remplacement plus rapide de ces parcs de processeurs graphiques, permettant à NVIDIA de fournir ces ressources à un plus grand nombre de clients et de chercheurs. Chaque augmentation de % de la facilité de service aux clients se traduit par un impact de plusieurs centaines de millions de dollars sur l'échelle à laquelle NVIDIA opère.
Étant donné que ce projet affecte le pourcentage d'utilisation et de sortie pouvant être dérivé de l'ensemble de leur parc de clusters GPU, chaque pourcentage ou partie de celui-ci se traduit par un impact de plusieurs centaines de millions de dollars. Même de petites améliorations en termes d'utilisation permettent à l'équipe de servir de nouveaux clients, ce qui se traduit par de nouvelles affaires nettes pour l'entreprise. Nous avons eu la chance de collaborer avec l'équipe sur un projet percutant à un moment si transformateur pour le domaine.
