NVIDIA es el principal proveedor mundial de GPU. Con una demanda de GPU nunca antes vista en todo el mundo, el equipo quería mejorar el rendimiento y la utilización de los clústeres de GPU en los centros de datos. Esta solución les ayudaría a proporcionar GPU a más clientes y a mejorar la experiencia del usuario al reducir el tiempo que transcurre entre las solicitudes de GPU y su cumplimiento.
La solución ideada fue un sistema de inteligencia artificial que procesa todos los datos de telemetría de la GPU (utilización, consumo de energía, uso de memoria, errores, etc.) recopilados en tiempo real de sus clústeres, califica las GPU en función de su utilización y sugiere medidas para optimizar las cargas de trabajo.
El equipo creó e implementó un novedoso sistema conversacional de múltiples agentes y LLM específicos para cada dominio en la plataforma TrueFoundry. ¡Los agentes crearon modelos de aprendizaje automático y algoritmos de optimización utilizando datos de telemetría para optimizar la utilización de la GPU!
NVIDIA es una de las empresas más valiosas del mundo actual en medio de la fiebre del oro de la IA. Se fundó en 1993 para desarrollar una computación acelerada que resolviera los desafíos específicos de los juegos y otros casos de uso que la computación de uso general no podía resolver.
¡La historia de los nombres de NVIDIA es divertida! Antes de que la empresa tuviera un nombre, los cofundadores llamaban NV a todos sus archivos, por ejemplo, «próxima versión». La incorporación de la empresa llevó a los cofundadores a revisar todas las palabras con esas dos letras. En un momento dado, los cofundadores querían llamar nVision a la empresa, pero un fabricante de papel higiénico ya adoptó ese nombre. Huang sugirió el nombre NVIDIA por»envidia», la palabra latina que significa «envidia».
Avancemos rápidamente hasta 2024. Las GPU de NVIDIA son el motor de la mayoría de las investigaciones y la creación de valor mediante LLM y GenAI. En un trimestre determinado, NVIDIA generó más de 25 000 millones de dólares en ingresos, y las GPU de NVIDIA se han vuelto tan valiosas que se transportan en vehículos blindados a los centros de datos. Hay tanta demanda de las GPU de NVIDIA que los usuarios externos e internos suelen tener que esperar a que lleguen las mejores versiones de su clase.
Dado lo valioso que es una GPU en la actualidad y su demanda aumenta exponencialmente, NVIDIA creó un equipo dentro de la empresa con los siguientes objetivos:
Maximizar el rendimiento y la utilización de cada clúster de GPU
Mejorar la experiencia del usuario y la creación de valor a partir de las GPU existentes.
Tradicionalmente, este problema se ha resuelto analizando los datos históricos de telemetría y utilizando el conocimiento del dominio para crear modelos de aprendizaje automático que optimicen el rendimiento y la utilización de los clústeres en cualquier eje determinado.
El problema de este enfoque es que está influenciado por:
Esto deja muchas GPU infrautilizadas, muchas cargas de trabajo en espera, mucha innovación archivada y muchos seres humanos insatisfechos.
El equipo consideró aprovechar los LLM por su capacidad de procesar grandes conjuntos de datos y deducir acciones lógicas para mejorar y escalar la optimización de la GPU. Una solución requeriría lo siguiente:
El equipo de NVIDIA quería que el sistema LLM Agent ayudara a los expertos y operadores de dominios a generar información útil al permitirles hacer preguntas relevantes sobre dominios específicos. El LLM Agent debería ser capaz de gestionar todos los datos, ejecutar el código y crear modelos necesarios para obtener esta información. Los usuarios pueden hacer preguntas abstractas como:
El equipo de agentes de observación autónomos de NVIDIA ideó un enfoque único para resolver este problema y decidió automatizar esta optimización mediante agentes de IA que pueden:
Estas estrategias se pueden mostrar al usuario final a través de una aplicación llamada LLO11ypop que les permite hacer preguntas abstractas y dejar que el modelo se encargue de toda la orquestación.
Este enorme problema obligó al equipo de NVIDIA a crear modelos básicos personalizados, ajustar los modelos de lenguaje pequeño (SLM), desarrollar agentes especializados, automatizar la computación distribuida en varias fuentes de datos y ejecutar cargas de trabajo locales y de proveedores de servicios en la nube. Algunos de los desafíos de ingeniería para crear un sistema de este tipo son:
El equipo decidió usar la plataforma TrueFoundry para resolver estos desafíos de ingeniería y proporcionar el conjunto de herramientas necesario para la capacitación previa del modelo, el ajuste fino, la implementación de agentes y más. El equipo quería centrarse únicamente en resolver el problema empresarial y desarrollar la solución más eficaz.
Podríamos cambiar fácilmente de modelo según el caso de uso y, a medida que se lanzaran nuevos, este ritmo de rápida experimentación nos ayudó a enviar una PoC funcional en solo 6 semanas
El equipo de NVIDIA se dio cuenta desde el principio de que, para resolver un problema complicado como el anterior, tenían que abordar los desafíos desde el principio del proyecto. Esto permitiría iteraciones rápidas y respaldaría rápidamente diferentes fuentes de datos, agentes, personas de usuario y tipos de preguntas. Aprovecharon la plataforma TrueFoundry para crear un conjunto completo de GenAI.
La demanda de GPU NVIDIA es prácticamente ilimitada en la revolución de la IA. Esta solución afecta a la utilización y a una sustitución más rápida de estas flotas de GPU, lo que permite a NVIDIA proporcionar estos recursos a muchos más clientes y de forma mucho más rápida.
Cada porcentaje o parte de ella se traduce en un impacto empresarial sustancial.. Incluso las pequeñas mejoras en la utilización permiten al equipo atender a nuevos clientes, lo que se traduce en nuevos negocios netos para la empresa. El equipo TrueFoundry ha tenido la suerte de colaborar con el equipo de NVIDIA en un proyecto impactante en un momento tan transformador para el dominio.

Tanto las empresas de Fortune 100 como las empresas emergentes confían en nosotros