A NVIDIA é a principal fornecedora de GPUs do mundo. Com uma demanda global por GPUs nunca vista antes, a equipe queria melhorar o desempenho e a utilização dos clusters de GPU nos data centers. Essa solução os ajudaria a fornecer GPUs a mais clientes e a melhorar a experiência do usuário ao reduzir o tempo de espera entre as solicitações de GPU e o atendimento delas.
A solução elaborada foi um sistema de IA que processa todos os dados de telemetria das GPUs (utilização, consumo de energia, uso de memória, erros etc.) coletados em tempo real de seus clusters, avalia as GPUs com base em sua utilização e sugere etapas para otimizar as cargas de trabalho.
A equipe construiu e implantou um sistema conversacional multiagente inédito e LLMs específicos de domínio na plataforma TrueFoundry. Os agentes construíram modelos de ML e algoritmos de otimização usando dados de telemetria para otimizar a utilização das GPUs!
A NVIDIA é uma das empresas mais valiosas do mundo atualmente, em meio à corrida do ouro da IA. Ela foi fundada em 1993 para construir computação acelerada que resolve desafios específicos de jogos e de outros casos de uso que a computação de propósito geral não conseguia resolver.
A história do nome da NVIDIA é engraçada! Antes de a empresa ter um nome, os cofundadores nomeavam todos os seus arquivos como NV, de "next version" (próxima versão). A constituição da empresa levou os cofundadores a revisar todas as palavras com essas duas letras. Em determinado momento, os cofundadores quiseram chamar a empresa de NVision, mas um fabricante de papel higiênico já havia registrado esse nome. Huang sugeriu o nome NVIDIA, derivado de "invidia", a palavra latina para "inveja".
Avançando para 2024. As GPUs da NVIDIA são a força motriz da maior parte da pesquisa e da geração de valor com LLMs e GenAI. Em um único trimestre, a NVIDIA gerou mais de US$ 25 bilhões em receita, e as GPUs da NVIDIA se tornaram tão valiosas que são transportadas em carros blindados até os data centers. Há tanta demanda pelas GPUs da NVIDIA que usuários externos e internos muitas vezes precisam esperar pelas versões de última geração.
Dado o quão precioso é um GPU hoje e como sua demanda cresce exponencialmente, a NVIDIA criou uma equipe dentro da empresa com os seguintes objetivos:
Tradicionalmente, esse problema tem sido resolvido analisando dados históricos de telemetria e usando conhecimento de domínio para construir modelos de machine learning que otimizam o desempenho/utilização dos clusters em quaisquer eixos.
O problema dessa abordagem é que ela é influenciada por:
Isso deixa muitas GPUs subutilizadas, muitas cargas de trabalho em espera, muita inovação engavetada e muitas pessoas insatisfeitas.
A equipe considerou aproveitar os LLMs por sua capacidade de processar grandes conjuntos de dados e deduzir ações lógicas para melhorar e escalar a otimização de GPU. Uma solução exigiria o seguinte:

A equipe da NVIDIA queria que o sistema de agentes de LLM ajudasse os especialistas de domínio e os operadores a gerar insights acionáveis, permitindo que eles fizessem perguntas relevantes e específicas do domínio. O agente de LLM deveria ser capaz de fazer toda a manipulação de dados, execução de código e construção de modelos necessários para obter esses insights. Os usuários poderiam fazer perguntas abstratas como:
A equipe de Autonomous Observability Agents da NVIDIA criou uma abordagem única para resolver esse problema, na qual decidiram automatizar essa otimização usando agentes de IA capazes de:
Essas estratégias podem ser apresentadas ao usuário final por meio de uma aplicação chamada Llo11yPop, que permite que ele faça perguntas abstratas e deixe o modelo realizar toda a orquestração!

Esse problema audacioso exigiu que a equipe da NVIDIA construísse modelos fundacionais personalizados, fizesse fine-tuning de Small Language Models (SLMs), desenvolvesse agentes especializados, automatizasse a computação distribuída em diversas fontes de dados e executasse cargas de trabalho on-prem e em provedores de serviços de nuvem. Alguns dos desafios de engenharia para construir um sistema como esse são:
A equipe decidiu usar a plataforma TrueFoundry para resolver esses desafios de engenharia e fornecer o toolkit necessário para pré-treinamento de modelos, fine-tuning, deployment de agentes e muito mais. A equipe queria focar exclusivamente em resolver o problema de negócio e desenvolver a solução de maior desempenho.
“Conseguimos trocar os modelos facilmente conforme o caso de uso e, à medida que novos eram lançados, esse ritmo de experimentação rápida nos ajudou a entregar uma PoC funcional em apenas 6 semanas”, Aaron
A equipe da NVIDIA percebeu desde cedo que, para resolver um problema complicado como o descrito acima, precisava enfrentar os desafios de frente, no início do projeto. Isso permitiria iterações rápidas e o suporte ágil a diferentes fontes de dados, agentes, perfis de usuário e tipos de pergunta. Eles aproveitaram a plataforma TrueFoundry para construir uma stack abrangente de GenAI.

A demanda pelas GPUs da NVIDIA parece praticamente ilimitada na revolução da IA. Essa solução afeta a utilização e a substituição mais rápida dessas frotas de GPU, permitindo que a NVIDIA forneça esses recursos a mais clientes e pesquisadores. Cada aumento de 1% na capacidade de atendimento a clientes se traduz em um impacto de centenas de milhões de dólares, na escala em que a NVIDIA opera.
Como este projeto afeta a porcentagem de utilização e a produção que pode ser obtida de toda a sua frota de clusters de GPU, cada ponto percentual ou fração dele se traduz em um impacto de centenas de milhões de dólares. Mesmo pequenas melhorias na utilização permitem que a equipe atenda novos clientes, resultando em novos negócios para a empresa. Tivemos a sorte de colaborar com a equipe em um projeto de grande impacto em um momento tão transformador para o setor.
