Prochain webinaire : La sécurité d'entreprise pour Claude Code | 21 avril · 11 h PST. Inscrivez-vous ici →

Comment NVIDIA améliore l'utilisation des clusters GPU avec les agents LLM

Résumé

NVIDIA est le premier fournisseur mondial de GPU. Face à une demande sans précédent de GPU à l'échelle mondiale, l'équipe souhaitait améliorer les performances et l'utilisation des clusters de GPU dans les centres de données. Cette solution les aiderait à fournir des GPU à un plus grand nombre de clients et à améliorer l'expérience utilisateur en réduisant le délai entre les requêtes GPU et leur traitement.

La solution conçue était un système d'IA qui traite toutes les données de télémétrie des GPU (utilisation, consommation d'énergie, utilisation de la mémoire, erreurs, etc.) collectées en temps réel à partir de leurs clusters, évalue les GPU en fonction de leur utilisation et suggère des étapes pour optimiser les charges de travail.

L'équipe a créé et déployé un nouveau système conversationnel multi-agents et des LLM spécifiques à un domaine sur la plateforme TrueFoundry. Les agents ont créé des modèles de machine learning et des algorithmes d'optimisation à l'aide de données de télémétrie pour optimiser l'utilisation du GPU !

NVIDIA est synonyme d'IA aujourd'hui

NVIDIA est aujourd'hui l'une des entreprises les plus importantes au monde en pleine ruée vers l'or de l'IA. Elle a été fondée en 1993 pour développer une informatique accélérée capable de résoudre les problèmes spécifiques aux jeux et d'autres cas d'utilisation que l'informatique polyvalente ne pouvait pas résoudre.

L'histoire du nom de NVIDIA est amusante ! Avant que l'entreprise n'ait un nom, les cofondateurs appelaient tous leurs fichiers NV, comme dans « version suivante ». La constitution de la société a incité les cofondateurs à revoir tous les mots contenant ces deux lettres. À un moment donné, les cofondateurs ont voulu appeler la société nVision, mais un fabricant de papier toilette a déjà pris ce nom. Huang a suggéré le nom NVIDIA à partir de »invidia», le mot latin pour « envie ».

Avance rapide jusqu'en 2024. Les GPU de NVIDIA sont au cœur de la plupart des recherches et de la création de valeur utilisant les LLM et GenAI. Au cours d'un trimestre donné, NVIDIA a généré plus de 25 milliards de dollars de revenus, et les GPU NVIDIA sont devenus si précieux qu'ils sont transportés dans des véhicules blindés vers des centres de données. La demande pour les GPU NVIDIA est telle que les utilisateurs externes et internes doivent souvent attendre les meilleures versions de leur catégorie.

Motivation : une meilleure utilisation du GPU permet de répondre à son énorme demande

Compte tenu de la valeur d'un GPU aujourd'hui et de la croissance exponentielle de sa demande, NVIDIA a créé une équipe au sein de l'entreprise avec les objectifs suivants :

  1. Augmenter le retour sur investissement des clusters GPU : Optimisation des performances et de l'utilisation de chaque cluster GPU.
  2. Traitement plus rapide des demandes GPU : Améliorer l'expérience utilisateur et créer de la valeur à partir des GPU existants.

L'approche traditionnelle avec les modèles ML présente des limites

Traditionnellement, ce problème a été résolu en examinant les données de télémétrie historiques et en utilisant les connaissances du domaine pour créer des modèles d'apprentissage automatique qui optimisent les performances/l'utilisation des clusters sur un axe donné.

Le problème de cette approche est qu'elle est influencée par :

  1. Biais humains : est limité par les axes que les équipes de développement pourraient penser à optimiser
  2. Non évolutif : il n'évolue pas en fonction du nombre de types de charge de travail, de classes de problèmes ou de types de clusters, chacun pouvant nécessiter sa propre technique d'optimisation !

Cela laisse de nombreux GPU sous-utilisés, de nombreuses charges de travail en attente, de nombreuses innovations mises de côté et de nombreux êtres humains mécontents.

Une toute nouvelle approche de l'optimisation à l'aide des agents LLM

L'équipe a envisagé de tirer parti des LLM pour leur capacité à traiter de grands ensembles de données et à déduire des actions logiques pour améliorer et étendre l'optimisation des GPU. Une solution nécessiterait les éléments suivants :

  1. Collecte de données : Les données de télémétrie des clusters (utilisation du GPU, température, charges de travail) doivent être collectées auprès de centres de données situés dans différentes zones géographiques et auprès de fournisseurs de cloud.
  2. Tableau de bord de surveillance et d'analyse : Fournir aux opérateurs un moyen simple de poser des questions et d'analyser les données entrantes, de les surveiller en temps réel et de créer des visualisations
  3. Optimisation automatique : Agent de surveillance continue capable de traiter les données et de prendre des mesures pour optimiser les charges de travail du cluster et l'utilisation des ressources.
Approche conçue par l'équipe NVIDIA pour un système automatisé d'optimisation des clusters

L'équipe NVIDIA souhaitait que le système LLM Agent aide les experts et les opérateurs du domaine à générer des informations exploitables en leur permettant de poser des questions pertinentes spécifiques au domaine. L'agent LLM doit être capable de gérer toutes les données, d'exécuter du code et de créer des modèles nécessaires pour obtenir ces informations. Les utilisateurs peuvent poser des questions abstraites telles que :

  • Que pouvez-vous me dire à propos des jobs annulés ? En quoi diffèrent-ils de ceux pour lesquels l'utilisateur a demandé à y mettre fin ? Pourquoi ?
  • Quelles équipes rencontrent le plus de problèmes avec les GPU ? Y a-t-il des traits communs ?
  • Y a-t-il d'autres anomalies dans ces données que vous trouveriez inhabituelles ? Dans l'affirmative, veuillez expliquer pourquoi.

Solution : L'équipe NVIDIA a mis au point une nouvelle approche basée sur plusieurs agents

L'équipe des agents d'observabilité autonomes de NVIDIA a mis au point une approche unique pour résoudre ce problème en décidant d'automatiser cette optimisation à l'aide d'agents d'IA capables de :

  1. Chacun exécute un ensemble spécifique de tâches
  2. Communiquez les uns avec les autres
  3. Créez des modèles d'analyse et de machine learning
  4. Exécuter des simulations
  5. Concevez des stratégies pour optimiser l'utilisation du GPU

Ces stratégies peuvent être présentées à l'utilisateur final via une application nommée Llo11yPop qui lui permet de poser des questions abstraites et de laisser le modèle faire toute l'orchestration !

Architecture du système LLM multi-agents

Défi : Une multitude d'orchestrations techniques ont été nécessaires pour réaliser la vision

Ce problème sans précédent a obligé l'équipe de NVIDIA à créer des modèles fondamentaux personnalisés, à affiner les modèles Small Language Models (SLM), à développer des agents spécialisés, à automatiser le calcul distribué sur diverses sources de données et à exécuter des charges de travail sur site et auprès de fournisseurs de services cloud. Certains des défis techniques liés à la construction d'un tel système sont les suivants :

  • Gestion des environnements hybrides et multicloud : Ces GPU se trouvent dans les différents centres de données sur site et cloud du monde entier.
  • Changement de modèle fluide : Utiliser le modèle le mieux adapté en fonction du type de requête ou de tâche entrante pour le système d'agents
  • Création d'agents et analyse comparative : Pour permettre une communication fluide entre les agents, acheminer les demandes vers les agents concernés et évaluer les performances des différentes architectures d'agents.

L'équipe a décidé d'utiliser la plateforme TrueFoundry pour résoudre ces problèmes d'ingénierie et fournir la boîte à outils nécessaire pour la pré-formation des modèles, la mise au point, le déploiement des agents, etc. L'équipe souhaitait se concentrer uniquement sur la résolution du problème commercial et sur le développement de la solution la plus performante.

The Stack : TrueFoundry a résolu les problèmes d'ingénierie, l'équipe a commencé à expédier en 6 semaines !

« Nous pouvions facilement changer de modèle selon les cas d'utilisation, et à mesure que de nouveaux modèles étaient publiés, ce rythme d'expérimentation rapide nous a permis de livrer un PoC fonctionnel en seulement 6 semaines », Aaron

L'équipe NVIDIA s'est vite rendu compte que pour résoudre un problème aussi complexe que celui-ci, elle devait relever les défis de front dès le début du projet. Cela permettrait des itérations rapides et prendrait rapidement en charge différentes sources de données, agents, profils d'utilisateurs et types de questions. Ils ont tiré parti de la plateforme TrueFoundry pour créer une pile GenAI complète.

Infrastructure d'IA générative optimisée par TrueFoundry

Impact du projet

La demande de GPU NVIDIA semble pratiquement illimitée dans le cadre de la révolution de l'IA. Cette solution influe sur l'utilisation et le remplacement plus rapide de ces parcs de processeurs graphiques, permettant à NVIDIA de fournir ces ressources à un plus grand nombre de clients et de chercheurs. Chaque augmentation de % de la facilité de service aux clients se traduit par un impact de plusieurs centaines de millions de dollars sur l'échelle à laquelle NVIDIA opère.

Étant donné que ce projet affecte le pourcentage d'utilisation et de sortie pouvant être dérivé de l'ensemble de leur parc de clusters GPU, chaque pourcentage ou partie de celui-ci se traduit par un impact de plusieurs centaines de millions de dollars. Même de petites améliorations en termes d'utilisation permettent à l'équipe de servir de nouveaux clients, ce qui se traduit par de nouvelles affaires nettes pour l'entreprise. Nous avons eu la chance de collaborer avec l'équipe sur un projet percutant à un moment si transformateur pour le domaine.

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Exploitez votre pipeline ML dès le premier jour

gazoduc