Avaliação de Desempenho do Gateway LLM da TrueFoundry: é incrivelmente rápido ⚡

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
- O TrueFoundry LLM Gateway oferece uma interface unificada compatível com OpenAI para vários provedores de LLM, como Anthropic, OpenAI, Bedrock, Gemini e muitos outros
- O TrueFoundry LLM Gateway escala perfeitamente para 350 RPS em uma única réplica de 1 unidade de CPU, utilizando 270 MB de memória. Comparamos com outro produto de gateway, o LiteLLM, em uma configuração semelhante, e o LiteLLM não conseguiu escalar além de 50 RPS.
- O TrueFoundry LLM Gateway adiciona apenas uma latência extra de 3-5 ms, enquanto o LiteLLM adiciona entre 15-30 ms por solicitação.
Por que sua organização precisa de um LLM Gateway?
Um LLM Gateway oferece uma interface unificada para gerenciar o uso de LLM da sua organização:
- API Unificada: Acesse vários provedores de LLM através de uma única compatível com OpenAI interface, sem necessidade de alterações no código
- Segurança da Chave de API: Gerenciamento seguro e centralizado de credenciais
- Governança e Controle: Defina limites, controles de acesso e filtragem de conteúdo
- Limitação de Taxa: Evite abusos e garanta o uso justo
- Observabilidade: Monitore o uso, custos, latência e desempenho
- Balanceamento de Carga: Encaminhe solicitações entre provedores automaticamente
- Gestão de Custos: Monitore gastos e defina alertas de orçamento
- Trilhas de Auditoria: Registre todas as interações de LLM para conformidade
Qual a velocidade do TrueFoundry LLM Gateway?
Configuração do Teste de Carga
Para o nosso experimento de teste de carga, configuramos e implantamos este serviço de endpoint falso do OpenAI usando TrueFoundry. O serviço simularia o formato de solicitação e resposta do OpenAI sem realmente produzir tokens.
Também implantamos o TrueFoundry LLM Gateway e o LiteLLM Proxy Server, ambos rodando em uma única réplica com 1 unidade de CPU e 1 GB de memória.

Adicionamos nosso provedor OpenAI falso aos gateways TrueFoundry e LiteLLM. Durante o teste de carga, fizemos solicitações ao servidor OpenAI falso de 3 maneiras diferentes:
- Configuração 1: Diretamente, sem usar nenhum proxy ou gateway
- Configuração 2: Através do TrueFoundry LLM Gateway implantado com 1 unidade de CPU e 1 GB de memória
- Configuração 3: Através do LiteLLM Proxy Server implantado com 1 unidade de CPU e 1 GB de memória
Observações
- O TrueFoundry Gateway adiciona apenas 3 ms extras de latência até 250 RPS e 4 ms para RPS > 300
- O TrueFoundry LLM Gateway conseguiu escalar sem qualquer degradação de desempenho até aproximadamente 350 RPS (máquina de 1 vCPU, 1 GB) antes que a utilização da CPU atingisse 100% e as latências começassem a ser afetadas. Com mais CPU ou mais réplicas, o LLM Gateway pode escalar para dezenas de milhares de solicitações por segundo.
- LiteLLM na mesma máquina não conseguiu escalar além de 40-50 RPS antes de atingir o limite da CPU
Mais métricas
Configuração 1: Chamada direta ao endpoint da OpenAI



Configuração 2: Gateway LLM TrueFoundry



Configuração 3: LiteLLM


Recursos de velocidade do Gateway LLM
- Sobrecarga Quase Zero: Apenas 3-5 ms de latência adicionada
- Backend Otimizado: Construído com framework Node.js de alto desempenho
- Cache de Configuração: A configuração é armazenada em memória para consulta rápida
- Roteamento Inteligente: Sobrecarga mínima de processamento
- Pronto para Edge: Implante próximo aos seus aplicativos
- Alta Capacidade: Uma
t2.2xlargeinstância AWS (43$ por mês no spot) pode escalar até ~3000 RPS sem problemas.

Provedores Suportados
Abaixo está uma lista abrangente de provedores LLM populares que são suportados pelo Gateway LLM da TrueFoundry:
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI

















.webp)






.webp)

.webp)
.webp)





.png)



