A NVIDIA é o principal fornecedor mundial de GPUs. Com uma demanda global por GPUs nunca antes vista, a equipe queria melhorar o desempenho e a utilização dos clusters de GPU nos centros de dados. Esta solução os ajudaria a fornecer GPUs a mais clientes e a melhorar a experiência do usuário, reduzindo o tempo de atraso entre as solicitações e o atendimento das GPUs.
A solução desenvolvida foi um sistema de IA que processa todos os dados de telemetria da GPU (utilização, consumo de energia, uso de memória, erros, etc.) coletados em tempo real dos seus clusters, classifica as GPUs com base na sua utilização e sugere passos para otimizar as cargas de trabalho.
A equipe construiu e implementou um novo sistema conversacional multiagente e LLMs específicos de domínio na plataforma TrueFoundry. Os agentes construíram modelos de ML e algoritmos de otimização usando dados de telemetria para otimizar a utilização da GPU!
A NVIDIA é uma das empresas mais valiosas do mundo hoje, em meio à Corrida do Ouro da IA. Foi fundada em 1993 para construir computação acelerada que resolvesse desafios específicos de jogos e outros casos de uso que a computação de propósito geral não conseguia resolver.
A história do nome da NVIDIA é engraçada! Antes de a empresa ter um nome, os cofundadores nomeavam todos os seus ficheiros NV, como em "next version" (próxima versão). A incorporação da empresa levou os cofundadores a rever todas as palavras com essas duas letras. A certa altura, os cofundadores queriam chamar a empresa de NVision, mas um fabricante de papel higiênico já tinha esse nome. Huang sugeriu o nome NVIDIA de ""invidia, a palavra latina para "inveja".
Avançando para 2024. As GPUs da NVIDIA são a força motriz da maioria das pesquisas e da criação de valor usando LLMs e GenAI. Em um determinado trimestre, A NVIDIA gerou mais de US$ 25 bilhões em receita, e as GPUs da NVIDIA tornaram-se tão valiosas que são transportadas em carros blindados para os centros de dados. Há tanta demanda pelas GPUs da NVIDIA que usuários externos e internos frequentemente têm de esperar pelas versões de melhor qualidade.
Dada a preciosidade de uma GPU hoje e como a sua demanda está a aumentar exponencialmente, a NVIDIA criou uma equipe dentro da empresa com os seguintes objetivos:
Maximização do desempenho e da utilização de cada cluster de GPU
Melhorar a experiência do usuário e a criação de valor a partir das GPUs existentes.
Tradicionalmente, este problema tem sido resolvido através da análise de dados históricos de telemetria e da utilização de conhecimento de domínio para construir modelos de Machine Learning que otimizam o desempenho/utilização dos clusters em quaisquer eixos dados.
O problema com esta abordagem é que ela é influenciada por:
Isso deixa muitas GPUs subutilizadas, muitas cargas de trabalho em espera, muita inovação engavetada e muitos seres humanos insatisfeitos.
A equipe considerou alavancar LLMs por sua capacidade de processar grandes conjuntos de dados e deduzir ações lógicas para melhorar e escalar a otimização de GPU. Uma solução exigiria o seguinte:
A equipe da NVIDIA queria que o sistema de Agente LLM ajudasse os especialistas de domínio e operadores a gerar insights acionáveis, permitindo que fizessem perguntas relevantes e específicas do domínio. O Agente LLM deveria ser capaz de realizar toda a manipulação de dados, execução de código e construção de modelos necessários para obter esses insights. Os usuários poderiam fazer perguntas abstratas como:
A Equipe de Agentes de Observabilidade Autônoma da NVIDIA desenvolveu uma abordagem única para resolver este problema, onde decidiram automatizar essa otimização usando Agentes de IA que podem:
Essas estratégias podem ser apresentadas ao usuário final através de um aplicativo chamado Llo11yPop que lhes permite fazer perguntas abstratas e deixar o modelo fazer toda a orquestração!
Este problema ambicioso exigiu que a equipe da NVIDIA construísse modelos fundamentais personalizados, ajustasse Modelos de Linguagem Pequenos (SLMs), desenvolvesse agentes especializados, automatizasse a computação distribuída em várias fontes de dados e executasse cargas de trabalho on-premise e em provedores de serviços em nuvem. Alguns dos desafios de engenharia para construir tal sistema são:
A equipe decidiu usar a plataforma TrueFoundry para resolver esses desafios de engenharia e fornecer o kit de ferramentas necessário para pré-treinamento de modelos, ajuste fino, implantação de agentes e muito mais. A equipe queria focar-se exclusivamente em resolver o problema de negócio e desenvolver a solução de maior desempenho.
Pudemos trocar modelos facilmente conforme o caso de uso, e à medida que novos eram lançados, esse ritmo de experimentação rápida nos ajudou a entregar um PoC funcional em apenas 6 semanas
A equipe da NVIDIA percebeu desde cedo que, para resolver um problema complicado como o mencionado, precisava abordar os desafios de frente no início do projeto. Isso permitiria iterações rápidas e suporte ágil a diferentes fontes de dados, agentes, personas de usuário e tipos de perguntas. Eles aproveitaram a plataforma TrueFoundry para construir uma pilha GenAI abrangente.
A demanda por GPUs NVIDIA é praticamente ilimitada na revolução da IA. Esta solução afeta a utilização e a substituição mais rápida dessas frotas de GPUs, permitindo que a NVIDIA forneça esses recursos a muito mais clientes, e de forma muito mais rápida.
Cada percentagem ou parte dela se traduz num impacto comercial substancial. Mesmo pequenas melhorias na utilização permitem que a equipe atenda novos clientes, resultando em novos negócios líquidos para a empresa. A equipe TrueFoundry teve a sorte de colaborar com a equipe NVIDIA em um projeto impactante em um momento tão transformador para a área.

Confiado por empresas da Fortune 100 e startups