Como a NVIDIA Melhora a Utilização de Clusters de GPU com Agentes LLM

Resumo

A NVIDIA é o principal fornecedor mundial de GPUs. Com uma demanda global por GPUs nunca antes vista, a equipe queria melhorar o desempenho e a utilização dos clusters de GPU nos centros de dados. Esta solução os ajudaria a fornecer GPUs a mais clientes e a melhorar a experiência do usuário, reduzindo o tempo de atraso entre as solicitações e o atendimento das GPUs.

A solução desenvolvida foi um sistema de IA que processa todos os dados de telemetria da GPU (utilização, consumo de energia, uso de memória, erros, etc.) coletados em tempo real dos seus clusters, classifica as GPUs com base na sua utilização e sugere passos para otimizar as cargas de trabalho. 

A equipe construiu e implementou um novo sistema conversacional multiagente e LLMs específicos de domínio na plataforma TrueFoundry. Os agentes construíram modelos de ML e algoritmos de otimização usando dados de telemetria para otimizar a utilização da GPU!

NVIDIA é Sinônimo de IA Hoje

A NVIDIA é uma das empresas mais valiosas do mundo hoje, em meio à Corrida do Ouro da IA. Foi fundada em 1993 para construir computação acelerada que resolvesse desafios específicos de jogos e outros casos de uso que a computação de propósito geral não conseguia resolver.

A história do nome da NVIDIA é engraçada! Antes de a empresa ter um nome, os cofundadores nomeavam todos os seus ficheiros NV, como em "next version" (próxima versão). A incorporação da empresa levou os cofundadores a rever todas as palavras com essas duas letras. A certa altura, os cofundadores queriam chamar a empresa de NVision, mas um fabricante de papel higiênico já tinha esse nome. Huang sugeriu o nome NVIDIA de ""invidia, a palavra latina para "inveja".

Avançando para 2024. As GPUs da NVIDIA são a força motriz da maioria das pesquisas e da criação de valor usando LLMs e GenAI. Em um determinado trimestre, A NVIDIA gerou mais de US$ 25 bilhões em receita, e as GPUs da NVIDIA tornaram-se tão valiosas que são transportadas em carros blindados para os centros de dados. Há tanta demanda pelas GPUs da NVIDIA que usuários externos e internos frequentemente têm de esperar pelas versões de melhor qualidade.

Motivação: Melhor Utilização da GPU Ajuda a Atender à Sua Enorme Demanda

Dada a preciosidade de uma GPU hoje e como a sua demanda está a aumentar exponencialmente, a NVIDIA criou uma equipe dentro da empresa com os seguintes objetivos:

Aumento do ROI dos Clusters de GPU

Maximização do desempenho e da utilização de cada cluster de GPU

Atendimento Mais Rápido de Solicitações de GPU

Melhorar a experiência do usuário e a criação de valor a partir das GPUs existentes.

A Abordagem Tradicional com Modelos de ML Apresenta Limitações

Tradicionalmente, este problema tem sido resolvido através da análise de dados históricos de telemetria e da utilização de conhecimento de domínio para construir modelos de Machine Learning que otimizam o desempenho/utilização dos clusters em quaisquer eixos dados. 

O problema com esta abordagem é que ela é influenciada por:

Vieses Humanos: É limitado pelos eixos que as equipes de desenvolvimento poderiam pensar em otimizar
Não Escalável: Não escala com o número de tipos de carga de trabalho, classes de problema ou tipos de cluster, cada um dos quais poderia exigir sua própria técnica de otimização!

Isso deixa muitas GPUs subutilizadas, muitas cargas de trabalho em espera, muita inovação engavetada e muitos seres humanos insatisfeitos.

Uma abordagem totalmente nova para otimização usando Agentes LLM

A equipe considerou alavancar LLMs por sua capacidade de processar grandes conjuntos de dados e deduzir ações lógicas para melhorar e escalar a otimização de GPU. Uma solução exigiria o seguinte: 

Coleta de Dados: Dados de Telemetria do Cluster (Uso de GPU, Temperatura, Cargas de Trabalho) precisam ser coletados de data centers em diferentes geografias e provedores de nuvem.
Painel de Monitoramento e Análise: Oferecendo uma maneira fluida para que os operadores façam perguntas e analisem os dados recebidos, monitorem-nos em tempo real e criem visualizações
Otimização Automatizada: Um agente de monitoramento contínuo que pode processar os dados e tomar ações para otimizar as cargas de trabalho do cluster e a utilização de recursos.

Telemetry data workflow with human validation and LLM agent analysis for cluster optimization process steps.

Abordagem desenvolvida pela Equipe NVIDIA para um Sistema Automatizado de Otimização de Cluster

O Agente Deve Ser Capaz de Utilizar o Conhecimento de Especialistas do Domínio

A equipe da NVIDIA queria que o sistema de Agente LLM ajudasse os especialistas de domínio e operadores a gerar insights acionáveis, permitindo que fizessem perguntas relevantes e específicas do domínio. O Agente LLM deveria ser capaz de realizar toda a manipulação de dados, execução de código e construção de modelos necessários para obter esses insights. Os usuários poderiam fazer perguntas abstratas como:

O que você pode me dizer sobre trabalhos cancelados? Como eles são diferentes daqueles em que o usuário solicitou o encerramento? Por quê?
Quais equipes estão tendo mais problemas com GPUs? Existem características comuns?
Existem outras anomalias nestes dados que você consideraria incomuns? Se sim, por favor, explique o porquê.

Solução: A equipe da NVIDIA desenvolveu uma abordagem inovadora baseada em múltiplos agentes

A Equipe de Agentes de Observabilidade Autônoma da NVIDIA desenvolveu uma abordagem única para resolver este problema, onde decidiram automatizar essa otimização usando Agentes de IA que podem: 

Cada um executa um conjunto específico de tarefas
Comunicar-se entre si
Construir análises e modelos de ML
Executar simulações
Elaborar Estratégias para Otimizar a Utilização da GPU/

Essas estratégias podem ser apresentadas ao usuário final através de um aplicativo chamado Llo11yPop que lhes permite fazer perguntas abstratas e deixar o modelo fazer toda a orquestração!

Data pipeline architecture with agents, memory optimization, and modeling for internal ML models and optimization.

Arquitetura do Sistema LLM Multiagente

Desafio: Uma Multidão de Orquestrações de Engenharia Foram Necessárias para Concretizar a Visão

Este problema ambicioso exigiu que a equipe da NVIDIA construísse modelos fundamentais personalizados, ajustasse Modelos de Linguagem Pequenos (SLMs), desenvolvesse agentes especializados, automatizasse a computação distribuída em várias fontes de dados e executasse cargas de trabalho on-premise e em provedores de serviços em nuvem. Alguns dos desafios de engenharia para construir tal sistema são: 

Gerenciamento de Ambientes Híbridos e Multi-Nuvem: Essas GPUs estão em todos os diferentes data centers On-Premise e na Nuvem em todo o mundo.
Troca Contínua de Modelos: Usar o modelo mais adequado com base no tipo de consulta recebida ou tarefa em questão para o sistema de agentes
Construção e benchmarking de agentes: Para permitir comunicação contínua entre agentes, roteamento de solicitações para agentes relevantes e comparar o desempenho de diferentes arquiteturas de agentes.

A equipe decidiu usar a plataforma TrueFoundry para resolver esses desafios de engenharia e fornecer o kit de ferramentas necessário para pré-treinamento de modelos, ajuste fino, implantação de agentes e muito mais. A equipe queria focar-se exclusivamente em resolver o problema de negócio e desenvolver a solução de maior desempenho.

A Solução: Com a plataforma TrueFoundry resolvendo os desafios de engenharia, a equipe da NVIDIA começou a entregar em 6 semanas!

Pudemos trocar modelos facilmente conforme o caso de uso, e à medida que novos eram lançados, esse ritmo de experimentação rápida nos ajudou a entregar um PoC funcional em apenas 6 semanas

Aaron Erickson

Gerente Sênior de Engenharia
 Equipe de Observabilidade Autônoma, NVIDIA

A equipe da NVIDIA percebeu desde cedo que, para resolver um problema complicado como o mencionado, precisava abordar os desafios de frente no início do projeto. Isso permitiria iterações rápidas e suporte ágil a diferentes fontes de dados, agentes, personas de usuário e tipos de perguntas. Eles aproveitaram a plataforma TrueFoundry para construir uma pilha GenAI abrangente.

Central API Gateway with LLM deployment, backend and DB components, and agent playground architecture diagram.

Infraestrutura de IA Generativa Alimentada por TrueFoundry

Impacto do Projeto

A demanda por GPUs NVIDIA é praticamente ilimitada na revolução da IA. Esta solução afeta a utilização e a substituição mais rápida dessas frotas de GPUs, permitindo que a NVIDIA forneça esses recursos a muito mais clientes, e de forma muito mais rápida.

Cada percentagem ou parte dela se traduz num impacto comercial substancial. Mesmo pequenas melhorias na utilização permitem que a equipe atenda novos clientes, resultando em novos negócios líquidos para a empresa. A equipe TrueFoundry teve a sorte de colaborar com a equipe NVIDIA em um projeto impactante em um momento tão transformador para a área.

Purple gradient background with curved lines on gray, rounded rectangle with subtle design elements.

Infraestrutura de GenAI - simples, mais rápida, mais barata

Confiado por empresas da Fortune 100 e startups

Experimente agora

Fale com Especialistas

Como

melhora a utilização de clusters de GPU com Agentes LLM

Resumo

NVIDIA é Sinônimo de IA Hoje

Motivação: Melhor Utilização da GPU Ajuda a Atender à Sua Enorme Demanda

Aumento do ROI dos Clusters de GPU

Atendimento Mais Rápido de Solicitações de GPU

A Abordagem Tradicional com Modelos de ML Apresenta Limitações

Uma abordagem totalmente nova para otimização usando Agentes LLM

O Agente Deve Ser Capaz de Utilizar o Conhecimento de Especialistas do Domínio

Solução: A equipe da NVIDIA desenvolveu uma abordagem inovadora baseada em múltiplos agentes

Desafio: Uma Multidão de Orquestrações de Engenharia Foram Necessárias para Concretizar a Visão

A Solução: Com a plataforma TrueFoundry resolvendo os desafios de engenharia, a equipe da NVIDIA começou a entregar em 6 semanas!

Aaron Erickson

Impacto do Projeto

Infraestrutura de GenAI - simples, mais rápida, mais barata

Recursos

Por que TrueFoundry?

Como

melhora a utilização de clusters de GPU com Agentes LLM

Resumo

NVIDIA é Sinônimo de IA Hoje

Motivação: Melhor Utilização da GPU Ajuda a Atender à Sua Enorme Demanda

Aumento do ROI dos Clusters de GPU

Atendimento Mais Rápido de Solicitações de GPU

A Abordagem Tradicional com Modelos de ML Apresenta Limitações

Uma abordagem totalmente nova para otimização usando Agentes LLM

O Agente Deve Ser Capaz de Utilizar o Conhecimento de Especialistas do Domínio

Solução: A equipe da NVIDIA desenvolveu uma abordagem inovadora baseada em múltiplos agentes

Desafio: Uma Multidão de Orquestrações de Engenharia Foram Necessárias para Concretizar a Visão

A Solução: Com a plataforma TrueFoundry resolvendo os desafios de engenharia, a equipe da NVIDIA começou a entregar em 6 semanas!

Aaron Erickson

Impacto do Projeto

Infraestrutura de GenAI - simples, mais rápida, mais barata

Recursos

Por que TrueFoundry?

Assine nossa newsletter