Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Nos últimos meses, tivemos a oportunidade de trabalhar com uma equipe enxuta. Eles desenvolveram um modelo de deep learning de ponta e criaram parcerias para disponibilizá-lo a mais de 10 milhões de usuários.
A última peça que faltava em sua história de impacto era lidar com a engenharia para realizar isso. O modelo era intensivo em computação e, na escala em que queriam servi-lo aos usuários finais, eles precisavam de uma pilha de infraestrutura confiável e de alto desempenho que os dois pudessem gerenciar (1 Engenheiro DevOps e 1 Engenheiro de ML).
Necessidade de Implantação Assíncrona
O modelo foi construído para processar entradas de áudio de tamanhos variados. Como o modelo tinha um alto tempo de processamento (com média de ~5 segundos), ele precisava de uma inferência assíncrona para cada solicitação, a fim de processar e responder a essas solicitações.
A equipe havia desenvolvido uma pilha no AWS Sagemaker
A equipe construiu sua pilha inicial para servir o modelo no Sagemaker. No entanto, quando realizaram seu primeiro piloto usando este design, perceberam que servir o modelo de forma confiável na escala desejada seria difícil com esta pilha.
Usuários enfrentaram atrasos de 8 a 10 minutos
Mesmo após usar a configuração assíncrona, como as instâncias demoravam para escalar (8-10 minutos por máquina), a experiência do usuário final foi comprometida quando eles tiveram que suportar esse atraso.

No entanto, durante a PoC, eles enfrentaram grandes atrasos nos tempos de resposta. Como eram novos em muitos dos controles relacionados ao Sagemaker, perderam tempo crucial para encontrar a razão dos atrasos. Alguns dos desafios que enfrentaram foram:
- Difícil de aprender: Eles acharam difícil, como DS/MLEs, entender os novos conceitos necessários para usar o Sagemaker.
- Visibilidade Limitada: Fazer uma análise da causa raiz dos problemas, especialmente em produção, era difícil devido a painéis e interfaces pouco intuitivos.
- Difícil de escalar: A escalabilidade do Sagemaker era lenta, causando atrasos nas respostas aos usuários e uma experiência ruim para o cliente.
- Cota Separada: A AWS exige que você faça uma solicitação separada para obter capacidade para instâncias de GPU reservadas para Sagemaker. A equipe achou este processo lento e restritivo.
- Caro: Usar GPUs com Sagemaker era caro para a equipe porque o Sagemaker cobra a mais por essas instâncias em 25-40% em relação ao EKS puro.
Depois da PoC, a equipe perdeu a confiança no Sagemaker e decidiu que precisava de uma solução que os dois (um Engenheiro de ML e um Engenheiro de DevOps) pudessem atender ao seu público-alvo de mais de 10 milhões de usuários.
Implantação do sistema no TrueFoundry em menos de 2 dias
Quando começamos a interagir com a equipe, o piloto deles estava a cerca de 7 dias. Garantimos à equipe que poderíamos ajudá-los a migrar toda a pilha e reconstruí-la usando os módulos do TrueFoundry em menos de 2 dias, para que tivessem tempo suficiente para testar antes que o piloto deles fosse para produção.

Escalonamento muito mais rápido
A equipe realizou benchmarks enviando um pico de 88 requisições ao modelo para comparar o desempenho com o Sagemaker. TrueFoundry escalou 78% mais rápido do que o Sagemaker, proporcionando ao usuário respostas muito mais rápidas. O tempo de ponta a ponta para responder à consulta foi 40% mais rápido com o TrueFoundry.
Escalonamento confiável para mais de 150 Nós
A equipe simplesmente conseguiu escalar a aplicação para mais de 150 nós de GPU porque:
- Fácil de configurar: Eles só precisaram mudar um argumento na interface do usuário e puderam configurar facilmente as regras de autoescalonamento com base no backlog de solicitações recebidas. Isso, de outra forma, teria exigido várias idas e vindas com a equipe de engenharia.

- Cota de GPU Aumentada: Com o TrueFoundry, eles puderam usar tanto o Spot quanto o Raw ECS. Devido à escassez de GPUs com os provedores de nuvem, o TrueFoundry também deu à equipe a opção de escalar entre diferentes provedores e regiões de GPU.

- Uso de Instâncias Spot e Autoescalonamento: A equipe não precisou fazer nenhum esforço adicional para configurar o uso de instâncias spot para seus serviços. As instâncias também foram reduzidas quando o tráfego estava baixo. Usando o mecanismo de confiabilidade do TrueFoundry para uso de instâncias spot e configurações de autoescalonamento, a equipe economizou mais de US$ 100 mil durante o período piloto.
- Ambiente de Desenvolvimento e Demonstração: A equipe também implantou um serviço de Desenvolvimento e Demonstração do modelo para coletar feedback, enquanto reduz as máquinas quando não estão em uso.
1,5 milhão de usuários já atendidos e aumentando a cada dia!
Usando TrueFoundry, a equipe de 2 membros consegue gerenciar toda a sua carga de trabalho, que muitas vezes escala para mais de 150 nós de GPU!! por conta própria. Ao trabalhar conosco, o que mais se destacou para a equipe foi o nosso suporte ao cliente e os baixos tempos de resposta. O TrueFoundry está empenhado no sucesso de seus clientes e espera que todos os nossos clientes possam escalar e gerar impacto em proporções semelhantes a este projeto!
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI
















.webp)






.webp)

.webp)
.webp)





.png)



