Avaliação de LLMs de Código Aberto Populares: Llama2, Falcon e Mistral

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Neste blog, mostraremos o resumo de vários LLMs de código aberto que avaliamos. Avaliamos esses modelos sob as perspectivas de latência, custo e requisições por segundo. Isso o ajudará a avaliar se pode ser uma boa escolha com base nos requisitos de negócio. Observe que não abordamos o desempenho qualitativo neste artigo – existem diferentes métodos para comparar LLMs, que podem ser encontrados aqui.
Casos de Uso Avaliados
Os principais casos de uso que avaliamos são:
- 1500 tokens de entrada, 100 tokens de saída (Semelhante a casos de uso de Geração Aumentada por Recuperação)
- 50 tokens de entrada, 500 tokens de saída (Casos de uso com forte geração)
Configuração do Benchmarking
Para o benchmarking, utilizamos o Locust, uma ferramenta de teste de carga de código aberto. O Locust funciona criando usuários/trabalhadores para enviar requisições em paralelo. No início de cada teste, podemos definir o Número de Usuários e Taxa de Geração. Aqui, o Número de Usuários representam o número máximo de utilizadores que podem ser gerados/executados simultaneamente, enquanto que a Taxa de Geração significa quantos utilizadores serão gerados por segundo.
Em cada teste de benchmarking para uma configuração de deployment, começámos com 1 utilizador e fomos aumentando o Número de Utilizadores gradualmente até vermos um aumento constante no RPS. Durante o teste, também traçámos os tempos de resposta (em ms) e total de pedidos por segundo.
Em cada uma das 2 configurações de deployment, utilizámos o servidor de modelo huggingface text-generation-inference com version=0.9.4. Os seguintes são os parâmetros passados para a imagem text-generation-inference para diferentes configurações de modelo:
LLMs Avaliados
Os 5 LLMs de código aberto avaliados são os seguintes:
A tabela a seguir apresenta um resumo da avaliação de LLMs:
Detalhes dos Blogs de Avaliação de LLMs para cada LLM
Para cada um dos modelos mencionados acima, consulte os blogs detalhados de avaliação de LLMs, conforme mostrado abaixo:
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI

















.webp)






.webp)

.webp)
.webp)





.png)



