A NVIDIA melhora a utilização de clusters de GPU com agentes de LLM

Como a NVIDIA melhora a utilização de clusters de GPU com agentes de LLM

Resumo

A NVIDIA é a principal fornecedora de GPUs do mundo. Com uma demanda global por GPUs nunca vista antes, a equipe queria melhorar o desempenho e a utilização dos clusters de GPU nos data centers. Essa solução os ajudaria a fornecer GPUs a mais clientes e a melhorar a experiência do usuário ao reduzir o tempo de espera entre as solicitações de GPU e o atendimento delas.

A solução elaborada foi um sistema de IA que processa todos os dados de telemetria das GPUs (utilização, consumo de energia, uso de memória, erros etc.) coletados em tempo real de seus clusters, avalia as GPUs com base em sua utilização e sugere etapas para otimizar as cargas de trabalho.

A equipe construiu e implantou um sistema conversacional multiagente inédito e LLMs específicos de domínio na plataforma TrueFoundry. Os agentes construíram modelos de ML e algoritmos de otimização usando dados de telemetria para otimizar a utilização das GPUs!

A NVIDIA é sinônimo de IA hoje

A NVIDIA é uma das empresas mais valiosas do mundo atualmente, em meio à corrida do ouro da IA. Ela foi fundada em 1993 para construir computação acelerada que resolve desafios específicos de jogos e de outros casos de uso que a computação de propósito geral não conseguia resolver.

A história do nome da NVIDIA é engraçada! Antes de a empresa ter um nome, os cofundadores nomeavam todos os seus arquivos como NV, de "next version" (próxima versão). A constituição da empresa levou os cofundadores a revisar todas as palavras com essas duas letras. Em determinado momento, os cofundadores quiseram chamar a empresa de NVision, mas um fabricante de papel higiênico já havia registrado esse nome. Huang sugeriu o nome NVIDIA, derivado de "invidia", a palavra latina para "inveja".

Avançando para 2024. As GPUs da NVIDIA são a força motriz da maior parte da pesquisa e da geração de valor com LLMs e GenAI. Em um único trimestre, a NVIDIA gerou mais de US$ 25 bilhões em receita, e as GPUs da NVIDIA se tornaram tão valiosas que são transportadas em carros blindados até os data centers. Há tanta demanda pelas GPUs da NVIDIA que usuários externos e internos muitas vezes precisam esperar pelas versões de última geração.

Motivação: uma melhor utilização de GPU ajuda a atender à sua enorme demanda

Dado o quão precioso é um GPU hoje e como sua demanda cresce exponencialmente, a NVIDIA criou uma equipe dentro da empresa com os seguintes objetivos:

Aumentar o ROI dos clusters de GPU: Maximizar o desempenho e a utilização de cada cluster de GPU.
Atendimento mais rápido das solicitações de GPU: Melhorar a experiência do usuário e a geração de valor a partir das GPUs existentes.

A abordagem tradicional com modelos de ML tem limitações

Tradicionalmente, esse problema tem sido resolvido analisando dados históricos de telemetria e usando conhecimento de domínio para construir modelos de machine learning que otimizam o desempenho/utilização dos clusters em quaisquer eixos.

O problema dessa abordagem é que ela é influenciada por:

Vieses humanos: é limitada pelos eixos que as equipes de desenvolvimento conseguiram pensar em otimizar
Não escalável: não escala com o número de tipos de carga de trabalho, classes de problemas ou tipos de cluster, cada um dos quais poderia exigir sua própria técnica de otimização!

Isso deixa muitas GPUs subutilizadas, muitas cargas de trabalho em espera, muita inovação engavetada e muitas pessoas insatisfeitas.

Uma abordagem totalmente nova de otimização usando agentes de LLM

A equipe considerou aproveitar os LLMs por sua capacidade de processar grandes conjuntos de dados e deduzir ações lógicas para melhorar e escalar a otimização de GPU. Uma solução exigiria o seguinte:

Coleta de dados: os dados de telemetria do cluster (uso de GPU, temperatura, cargas de trabalho) precisam ser reunidos de data centers em diferentes regiões e provedores de nuvem.
Painel de monitoramento e análise: fornecer uma forma fluida de os operadores fazerem perguntas e analisarem os dados recebidos, monitorá-los em tempo real e criar visualizações
Otimização automatizada: um agente de monitoramento contínuo capaz de processar os dados e tomar ações para otimizar as cargas de trabalho do cluster e a utilização de recursos.

Abordagem elaborada pela equipe da NVIDIA para um sistema automatizado de otimização de clusters

A equipe da NVIDIA queria que o sistema de agentes de LLM ajudasse os especialistas de domínio e os operadores a gerar insights acionáveis, permitindo que eles fizessem perguntas relevantes e específicas do domínio. O agente de LLM deveria ser capaz de fazer toda a manipulação de dados, execução de código e construção de modelos necessários para obter esses insights. Os usuários poderiam fazer perguntas abstratas como:

O que você pode me dizer sobre os jobs cancelados? Como eles se diferenciam daqueles em que o usuário solicitou o encerramento? Por quê?
Quais equipes estão tendo mais problemas com GPUs? Há alguma característica em comum?
Há quaisquer outras anomalias nesses dados que você consideraria incomuns? Em caso afirmativo, explique por quê.

Solução: a equipe da NVIDIA criou uma abordagem inédita baseada em múltiplos agentes

A equipe de Autonomous Observability Agents da NVIDIA criou uma abordagem única para resolver esse problema, na qual decidiram automatizar essa otimização usando agentes de IA capazes de:

Cada um executar um conjunto específico de tarefas
Comunicar-se entre si
Construir modelos de análise e de ML
Executar simulações
Elaborar estratégias para otimizar a utilização de GPU

Essas estratégias podem ser apresentadas ao usuário final por meio de uma aplicação chamada Llo11yPop, que permite que ele faça perguntas abstratas e deixe o modelo realizar toda a orquestração!

Arquitetura do sistema de LLM multiagente

Desafio: foram necessárias inúmeras orquestrações de engenharia para concretizar a visão

Esse problema audacioso exigiu que a equipe da NVIDIA construísse modelos fundacionais personalizados, fizesse fine-tuning de Small Language Models (SLMs), desenvolvesse agentes especializados, automatizasse a computação distribuída em diversas fontes de dados e executasse cargas de trabalho on-prem e em provedores de serviços de nuvem. Alguns dos desafios de engenharia para construir um sistema como esse são:

Gerenciar ambientes híbridos e cross-cloud: essas GPUs estão em todos os diferentes data centers on-premise e em nuvem ao redor do mundo.
Troca de modelos sem interrupções: para usar o modelo mais adequado com base no tipo de consulta recebida ou na tarefa em questão para o sistema de agentes
Construção e benchmarking de agentes: para permitir a comunicação fluida entre agentes, o roteamento de requisições para os agentes relevantes e a avaliação de desempenho de diferentes arquiteturas de agentes.

A equipe decidiu usar a plataforma TrueFoundry para resolver esses desafios de engenharia e fornecer o toolkit necessário para pré-treinamento de modelos, fine-tuning, deployment de agentes e muito mais. A equipe queria focar exclusivamente em resolver o problema de negócio e desenvolver a solução de maior desempenho.

A stack: a TrueFoundry resolveu os desafios de engenharia, e a equipe começou a entregar em 6 semanas!

“Conseguimos trocar os modelos facilmente conforme o caso de uso e, à medida que novos eram lançados, esse ritmo de experimentação rápida nos ajudou a entregar uma PoC funcional em apenas 6 semanas”, Aaron

A equipe da NVIDIA percebeu desde cedo que, para resolver um problema complicado como o descrito acima, precisava enfrentar os desafios de frente, no início do projeto. Isso permitiria iterações rápidas e o suporte ágil a diferentes fontes de dados, agentes, perfis de usuário e tipos de pergunta. Eles aproveitaram a plataforma TrueFoundry para construir uma stack abrangente de GenAI.

Infraestrutura de IA generativa impulsionada pela TrueFoundry

Impacto do projeto

A demanda pelas GPUs da NVIDIA parece praticamente ilimitada na revolução da IA. Essa solução afeta a utilização e a substituição mais rápida dessas frotas de GPU, permitindo que a NVIDIA forneça esses recursos a mais clientes e pesquisadores. Cada aumento de 1% na capacidade de atendimento a clientes se traduz em um impacto de centenas de milhões de dólares, na escala em que a NVIDIA opera.

Como este projeto afeta a porcentagem de utilização e a produção que pode ser obtida de toda a sua frota de clusters de GPU, cada ponto percentual ou fração dele se traduz em um impacto de centenas de milhões de dólares. Mesmo pequenas melhorias na utilização permitem que a equipe atenda novos clientes, resultando em novos negócios para a empresa. Tivemos a sorte de colaborar com a equipe em um projeto de grande impacto em um momento tão transformador para o setor.

The fastest way to build, govern and scale your AI

Book a Demo

How NVIDIA Improves GPU Cluster Utilization with LLM Agents

Como a NVIDIA melhora a utilização de clusters de GPU com agentes de LLM

Resumo

A NVIDIA é sinônimo de IA hoje

Motivação: uma melhor utilização de GPU ajuda a atender à sua enorme demanda

A abordagem tradicional com modelos de ML tem limitações

Uma abordagem totalmente nova de otimização usando agentes de LLM

Solução: a equipe da NVIDIA criou uma abordagem inédita baseada em múltiplos agentes

Desafio: foram necessárias inúmeras orquestrações de engenharia para concretizar a visão

A stack: a TrueFoundry resolveu os desafios de engenharia, e a equipe começou a entregar em 6 semanas!

Impacto do projeto

Opere seu Pipeline de ML desde o Dia 0

Recursos

Por que TrueFoundry?

How NVIDIA Improves GPU Cluster Utilization with LLM Agents

Como a NVIDIA melhora a utilização de clusters de GPU com agentes de LLM

Resumo

A NVIDIA é sinônimo de IA hoje

Motivação: uma melhor utilização de GPU ajuda a atender à sua enorme demanda

A abordagem tradicional com modelos de ML tem limitações

Uma abordagem totalmente nova de otimização usando agentes de LLM

Solução: a equipe da NVIDIA criou uma abordagem inédita baseada em múltiplos agentes

Desafio: foram necessárias inúmeras orquestrações de engenharia para concretizar a visão

A stack: a TrueFoundry resolveu os desafios de engenharia, e a equipe começou a entregar em 6 semanas!

Impacto do projeto

Opere seu Pipeline de ML desde o Dia 0

Recursos

Por que TrueFoundry?

Assine nossa newsletter