Blank white background with no objects or features visible.

NOVA PESQUISA: 80% dos custos de IA são invisíveis na fatura. Mais de 200 líderes revelam para onde o dinheiro vai. Leia→

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

By Chinmay Singh

Updated: January 30, 2024

Nos últimos meses, tivemos a oportunidade de trabalhar com uma equipe enxuta. Eles desenvolveram um modelo de deep learning de ponta e criaram parcerias para disponibilizá-lo a mais de 10 milhões de usuários.

A última peça que faltava em sua história de impacto era lidar com a engenharia para realizar isso. O modelo era intensivo em computação e, na escala em que queriam servi-lo aos usuários finais, eles precisavam de uma pilha de infraestrutura confiável e de alto desempenho que os dois pudessem gerenciar (1 Engenheiro DevOps e 1 Engenheiro de ML).

Necessidade de Implantação Assíncrona

O modelo foi construído para processar entradas de áudio de tamanhos variados. Como o modelo tinha um alto tempo de processamento (com média de ~5 segundos), ele precisava de uma inferência assíncrona para cada solicitação, a fim de processar e responder a essas solicitações.

A equipe havia desenvolvido uma pilha no AWS Sagemaker

A equipe construiu sua pilha inicial para servir o modelo no Sagemaker. No entanto, quando realizaram seu primeiro piloto usando este design, perceberam que servir o modelo de forma confiável na escala desejada seria difícil com esta pilha.

Usuários enfrentaram atrasos de 8 a 10 minutos

Mesmo após usar a configuração assíncrona, como as instâncias demoravam para escalar (8-10 minutos por máquina), a experiência do usuário final foi comprometida quando eles tiveram que suportar esse atraso.

Configuração Inicial da Equipe no Sagemaker

No entanto, durante a PoC, eles enfrentaram grandes atrasos nos tempos de resposta. Como eram novos em muitos dos controles relacionados ao Sagemaker, perderam tempo crucial para encontrar a razão dos atrasos. Alguns dos desafios que enfrentaram foram:

  1. Difícil de aprender: Eles acharam difícil, como DS/MLEs, entender os novos conceitos necessários para usar o Sagemaker.
  2. Visibilidade Limitada: Fazer uma análise da causa raiz dos problemas, especialmente em produção, era difícil devido a painéis e interfaces pouco intuitivos.
  3. Difícil de escalar: A escalabilidade do Sagemaker era lenta, causando atrasos nas respostas aos usuários e uma experiência ruim para o cliente.
  4. Cota Separada: A AWS exige que você faça uma solicitação separada para obter capacidade para instâncias de GPU reservadas para Sagemaker. A equipe achou este processo lento e restritivo.
  5. Caro: Usar GPUs com Sagemaker era caro para a equipe porque o Sagemaker cobra a mais por essas instâncias em 25-40% em relação ao EKS puro.

Depois da PoC, a equipe perdeu a confiança no Sagemaker e decidiu que precisava de uma solução que os dois (um Engenheiro de ML e um Engenheiro de DevOps) pudessem atender ao seu público-alvo de mais de 10 milhões de usuários.

Implantação do sistema no TrueFoundry em menos de 2 dias

Quando começamos a interagir com a equipe, o piloto deles estava a cerca de 7 dias. Garantimos à equipe que poderíamos ajudá-los a migrar toda a pilha e reconstruí-la usando os módulos do TrueFoundry em menos de 2 dias, para que tivessem tempo suficiente para testar antes que o piloto deles fosse para produção.

Nova Pilha com TrueFoundry

Escalonamento muito mais rápido

A equipe realizou benchmarks enviando um pico de 88 requisições ao modelo para comparar o desempenho com o Sagemaker. TrueFoundry escalou 78% mais rápido do que o Sagemaker, proporcionando ao usuário respostas muito mais rápidas. O tempo de ponta a ponta para responder à consulta foi 40% mais rápido com o TrueFoundry.

AUTOSCALING TEST RESULTS (G5.XLARGE, 2 WORKERS, 88 REQUESTS)
AWS Sagemaker TrueFoundry
Total Time to process 88 Requests 660s 395.9s

AUTOSCALING TEST RESULTS (G5.XLARGE, 2 WORKERS, 88 REQUESTS)
AWS Sagemaker TrueFoundry
Total Time to process 88 Requests 660s 395.9s

Escalonamento confiável para mais de 150 Nós

A equipe simplesmente conseguiu escalar a aplicação para mais de 150 nós de GPU porque:

  1. Fácil de configurar: Eles só precisaram mudar um argumento na interface do usuário e puderam configurar facilmente as regras de autoescalonamento com base no backlog de solicitações recebidas. Isso, de outra forma, teria exigido várias idas e vindas com a equipe de engenharia.
  1. Cota de GPU Aumentada: Com o TrueFoundry, eles puderam usar tanto o Spot quanto o Raw ECS. Devido à escassez de GPUs com os provedores de nuvem, o TrueFoundry também deu à equipe a opção de escalar entre diferentes provedores e regiões de GPU.
Uso contínuo de instâncias Spot
  1. Uso de Instâncias Spot e Autoescalonamento: A equipe não precisou fazer nenhum esforço adicional para configurar o uso de instâncias spot para seus serviços. As instâncias também foram reduzidas quando o tráfego estava baixo. Usando o mecanismo de confiabilidade do TrueFoundry para uso de instâncias spot e configurações de autoescalonamento, a equipe economizou mais de US$ 100 mil durante o período piloto.
  2. Ambiente de Desenvolvimento e Demonstração: A equipe também implantou um serviço de Desenvolvimento e Demonstração do modelo para coletar feedback, enquanto reduz as máquinas quando não estão em uso.

1,5 milhão de usuários já atendidos e aumentando a cada dia!

Usando TrueFoundry, a equipe de 2 membros consegue gerenciar toda a sua carga de trabalho, que muitas vezes escala para mais de 150 nós de GPU!! por conta própria. Ao trabalhar conosco, o que mais se destacou para a equipe foi o nosso suporte ao cliente e os baixos tempos de resposta. O TrueFoundry está empenhado no sucesso de seus clientes e espera que todos os nossos clientes possam escalar e gerar impacto em proporções semelhantes a este projeto!

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

Govern, Deploy and Trace AI in Your Own Infrastructure

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo

Discover More

October 5, 2023
|
5 min read

<Webinar> Vitrine de GenAI para Empresas

Best Fine Tuning Tools for Model Training
May 3, 2024
|
5 min read

As 6 Melhores Ferramentas de Fine Tuning Para Treinamento de Modelos em 2026

May 25, 2023
|
5 min read

LLMs de Código Aberto: Abrace ou Pereça

August 24, 2023
|
5 min read

Implantações de Machine Learning em 2023

May 21, 2026
|
5 min read

Adicionando OAuth2 a Jupyter Notebooks no Kubernetes

Engenharia e Produto
May 21, 2026
|
5 min read

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Engenharia e Produto
May 21, 2026
|
5 min read

Acelere o Processamento de Dados em 30–40x com NVIDIA RAPIDS no TrueFoundry

GPU
Engenharia e Produto
May 21, 2026
|
5 min read

Uma Parceria para IA Responsável: Truefoundry e Enkrypt AI

No items found.
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour