Cómo mejora NVIDIA la utilización de clústeres de GPU con agentes de LLM

Resumen

NVIDIA es el principal proveedor mundial de GPU. Con una demanda de GPU nunca antes vista en todo el mundo, el equipo quería mejorar el rendimiento y la utilización de los clústeres de GPU en los centros de datos. Esta solución les ayudaría a proporcionar GPU a más clientes y a mejorar la experiencia del usuario al reducir el tiempo que transcurre entre las solicitudes de GPU y su cumplimiento.

La solución ideada fue un sistema de inteligencia artificial que procesa todos los datos de telemetría de la GPU (utilización, consumo de energía, uso de memoria, errores, etc.) recopilados en tiempo real de sus clústeres, califica las GPU en función de su utilización y sugiere medidas para optimizar las cargas de trabajo. 

El equipo creó e implementó un novedoso sistema conversacional de múltiples agentes y LLM específicos para cada dominio en la plataforma TrueFoundry. ¡Los agentes crearon modelos de aprendizaje automático y algoritmos de optimización utilizando datos de telemetría para optimizar la utilización de la GPU!

NVIDIA es sinónimo de IA en la actualidad

NVIDIA es una de las empresas más valiosas del mundo actual en medio de la fiebre del oro de la IA. Se fundó en 1993 para desarrollar una computación acelerada que resolviera los desafíos específicos de los juegos y otros casos de uso que la computación de uso general no podía resolver.

¡La historia de los nombres de NVIDIA es divertida! Antes de que la empresa tuviera un nombre, los cofundadores llamaban NV a todos sus archivos, por ejemplo, «próxima versión». La incorporación de la empresa llevó a los cofundadores a revisar todas las palabras con esas dos letras. En un momento dado, los cofundadores querían llamar nVision a la empresa, pero un fabricante de papel higiénico ya adoptó ese nombre. Huang sugirió el nombre NVIDIA por»envidia», la palabra latina que significa «envidia».

Avancemos rápidamente hasta 2024. Las GPU de NVIDIA son el motor de la mayoría de las investigaciones y la creación de valor mediante LLM y GenAI. En un trimestre determinado, NVIDIA generó más de 25 000 millones de dólares en ingresos, y las GPU de NVIDIA se han vuelto tan valiosas que se transportan en vehículos blindados a los centros de datos. Hay tanta demanda de las GPU de NVIDIA que los usuarios externos e internos suelen tener que esperar a que lleguen las mejores versiones de su clase.

Motivación: una mejor utilización de la GPU ayuda a satisfacer su enorme demanda

Dado lo valioso que es una GPU en la actualidad y su demanda aumenta exponencialmente, NVIDIA creó un equipo dentro de la empresa con los siguientes objetivos:

Aumento del ROI de los clústeres de GPU

Maximizar el rendimiento y la utilización de cada clúster de GPU

Cumplimiento más rápido de las solicitudes de GPU

Mejorar la experiencia del usuario y la creación de valor a partir de las GPU existentes.

El enfoque tradicional con los modelos de aprendizaje automático tiene limitaciones

Tradicionalmente, este problema se ha resuelto analizando los datos históricos de telemetría y utilizando el conocimiento del dominio para crear modelos de aprendizaje automático que optimicen el rendimiento y la utilización de los clústeres en cualquier eje determinado. 

El problema de este enfoque es que está influenciado por:

Prejuicios humanos: Está limitado por los ejes que los equipos de desarrollo podrían pensar en optimizar
No escalable: No se escala con la cantidad de tipos de carga de trabajo, clases de problemas o tipos de clústeres, ¡cada uno de los cuales podría requerir su técnica de optimización!

Esto deja muchas GPU infrautilizadas, muchas cargas de trabajo en espera, mucha innovación archivada y muchos seres humanos insatisfechos.

Un enfoque completamente nuevo para la optimización con agentes de LLM

El equipo consideró aprovechar los LLM por su capacidad de procesar grandes conjuntos de datos y deducir acciones lógicas para mejorar y escalar la optimización de la GPU. Una solución requeriría lo siguiente: 

Recopilación de datos: Los datos de telemetría de clústeres (uso de la GPU, temperatura, cargas de trabajo) deben recopilarse de los centros de datos de diferentes regiones geográficas y proveedores de nube.
Panel de monitoreo y análisis: Proporciona una forma perfecta para que los operadores hagan preguntas y analicen los datos entrantes, los supervisen en tiempo real y creen visualizaciones
Optimización automatizada: Un agente de supervisión continua que puede procesar los datos y tomar medidas para optimizar las cargas de trabajo del clúster y la utilización de los recursos.

Telemetry data workflow with human validation and LLM agent analysis for cluster optimization process steps.

Enfoque ideado por el equipo de NVIDIA para un sistema automatizado de optimización de clústeres

El agente debe poder utilizar los conocimientos de un experto en el dominio

El equipo de NVIDIA quería que el sistema LLM Agent ayudara a los expertos y operadores de dominios a generar información útil al permitirles hacer preguntas relevantes sobre dominios específicos. El LLM Agent debería ser capaz de gestionar todos los datos, ejecutar el código y crear modelos necesarios para obtener esta información. Los usuarios pueden hacer preguntas abstractas como:

¿Qué me puede decir sobre los trabajos cancelados? ¿En qué se diferencian de aquellos en los que el usuario solicitó cancelarlos? ¿Por qué?
¿Qué equipos tienen más problemas con las GPU? ¿Hay algún rasgo en común?
¿Hay alguna otra anomalía en estos datos que le parezca inusual? Si es así, explique por qué.

Solución: el equipo de NVIDIA ideó un enfoque novedoso basado en múltiples agentes

El equipo de agentes de observación autónomos de NVIDIA ideó un enfoque único para resolver este problema y decidió automatizar esta optimización mediante agentes de IA que pueden: 

Cada uno realiza un conjunto específico de tareas
Comunícate unos con otros
Cree modelos de análisis y aprendizaje automático
Ejecute simulaciones
Diseñe estrategias para optimizar la utilización de la GPU/

Estas estrategias se pueden mostrar al usuario final a través de una aplicación llamada LLO11ypop que les permite hacer preguntas abstractas y dejar que el modelo se encargue de toda la orquestación.

Data pipeline architecture with agents, memory optimization, and modeling for internal ML models and optimization.

Arquitectura del sistema LLM multiagente

Desafío: Se necesitaron una multitud de orquestaciones de ingeniería para hacer realidad la visión

Este enorme problema obligó al equipo de NVIDIA a crear modelos básicos personalizados, ajustar los modelos de lenguaje pequeño (SLM), desarrollar agentes especializados, automatizar la computación distribuida en varias fuentes de datos y ejecutar cargas de trabajo locales y de proveedores de servicios en la nube. Algunos de los desafíos de ingeniería para crear un sistema de este tipo son: 

Administración de entornos híbridos y entre nubes: Estas GPU se encuentran en los diferentes centros de datos locales y en la nube de todo el mundo.
Cambio de modelo sin interrupciones: Utilizar el modelo más adecuado en función del tipo de consulta o tarea entrante en cuestión para el sistema de agentes
Creación de agentes y evaluación comparativa: Para permitir una comunicación fluida entre los agentes, solicite el enrutamiento a los agentes pertinentes y compare el rendimiento de las diferentes arquitecturas de agentes.

El equipo decidió usar la plataforma TrueFoundry para resolver estos desafíos de ingeniería y proporcionar el conjunto de herramientas necesario para la capacitación previa del modelo, el ajuste fino, la implementación de agentes y más. El equipo quería centrarse únicamente en resolver el problema empresarial y desarrollar la solución más eficaz.

The Stack: Con la plataforma TrueFoundry solucionando los desafíos de ingeniería, ¡el equipo de NVIDIA comenzó a hacer envíos en 6 semanas!

Podríamos cambiar fácilmente de modelo según el caso de uso y, a medida que se lanzaran nuevos, este ritmo de rápida experimentación nos ayudó a enviar una PoC funcional en solo 6 semanas

Aarón Erickson

Gerente sénior de ingeniería
 Equipo de observabilidad autónoma, NVIDIA

El equipo de NVIDIA se dio cuenta desde el principio de que, para resolver un problema complicado como el anterior, tenían que abordar los desafíos desde el principio del proyecto. Esto permitiría iteraciones rápidas y respaldaría rápidamente diferentes fuentes de datos, agentes, personas de usuario y tipos de preguntas. Aprovecharon la plataforma TrueFoundry para crear un conjunto completo de GenAI.

Central API Gateway with LLM deployment, backend and DB components, and agent playground architecture diagram.

Infraestructura de IA generativa impulsada por TrueFoundry

Impacto del proyecto

La demanda de GPU NVIDIA es prácticamente ilimitada en la revolución de la IA. Esta solución afecta a la utilización y a una sustitución más rápida de estas flotas de GPU, lo que permite a NVIDIA proporcionar estos recursos a muchos más clientes y de forma mucho más rápida.

Cada porcentaje o parte de ella se traduce en un impacto empresarial sustancial.. Incluso las pequeñas mejoras en la utilización permiten al equipo atender a nuevos clientes, lo que se traduce en nuevos negocios netos para la empresa. El equipo TrueFoundry ha tenido la suerte de colaborar con el equipo de NVIDIA en un proyecto impactante en un momento tan transformador para el dominio.

Purple gradient background with curved lines on gray, rounded rectangle with subtle design elements.

GenAI infra: simple, más rápido y más barato

Tanto las empresas de Fortune 100 como las empresas emergentes confían en nosotros

Pruébalo ahora

Hable con expertos

Cómo

mejora la utilización del clúster de GPU con agentes LLM

Resumen

NVIDIA es sinónimo de IA en la actualidad

Motivación: una mejor utilización de la GPU ayuda a satisfacer su enorme demanda

Aumento del ROI de los clústeres de GPU

Cumplimiento más rápido de las solicitudes de GPU

El enfoque tradicional con los modelos de aprendizaje automático tiene limitaciones

Un enfoque completamente nuevo para la optimización con agentes de LLM

El agente debe poder utilizar los conocimientos de un experto en el dominio

Solución: el equipo de NVIDIA ideó un enfoque novedoso basado en múltiples agentes

Desafío: Se necesitaron una multitud de orquestaciones de ingeniería para hacer realidad la visión

The Stack: Con la plataforma TrueFoundry solucionando los desafíos de ingeniería, ¡el equipo de NVIDIA comenzó a hacer envíos en 6 semanas!

Aarón Erickson

Impacto del proyecto

GenAI infra: simple, más rápido y más barato

Blog

Cómo

mejora la utilización del clúster de GPU con agentes LLM

Resumen

NVIDIA es sinónimo de IA en la actualidad

Motivación: una mejor utilización de la GPU ayuda a satisfacer su enorme demanda

Aumento del ROI de los clústeres de GPU

Cumplimiento más rápido de las solicitudes de GPU

El enfoque tradicional con los modelos de aprendizaje automático tiene limitaciones

Un enfoque completamente nuevo para la optimización con agentes de LLM

El agente debe poder utilizar los conocimientos de un experto en el dominio

Solución: el equipo de NVIDIA ideó un enfoque novedoso basado en múltiples agentes

Desafío: Se necesitaron una multitud de orquestaciones de ingeniería para hacer realidad la visión

The Stack: Con la plataforma TrueFoundry solucionando los desafíos de ingeniería, ¡el equipo de NVIDIA comenzó a hacer envíos en 6 semanas!

Aarón Erickson

Impacto del proyecto

GenAI infra: simple, más rápido y más barato

Blog

Suscríbase a nuestro boletín