Benchmarking do Llama-2-13B

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Neste artigo, avaliamos o desempenho do LLama2-13B sob as perspectivas de latência, custo e requisições por segundo. Isso nos ajudará a determinar se ele pode ser uma boa escolha com base nos requisitos de negócio. Observe que não abordamos o desempenho qualitativo neste artigo – existem diferentes métodos para comparar LLMs que podem ser encontrados aqui.
Modelo: Llama2-13B
Neste blog, avaliamos o Llama-2-13B modelo da NousResearch. Esta é uma versão pré-treinada do Llama-2 com 13 bilhões de parâmetros.
A Meta desenvolveu e lançou publicamente a família Llama 2 de grandes modelos de linguagem (LLMs), uma coleção de modelos de texto generativos pré-treinados e ajustados, com escalas que variam de 7 bilhões a 70 bilhões de parâmetros.
Métricas para Avaliar
- Requisições por segundo (RPS): Requisições por segundo que o modelo está processando. Com um RPS mais alto, a latência geralmente aumenta.
- Latência: Quanto tempo é necessário para completar uma requisição de inferência?
- Custos: Quais são os custos associados à implantação de um LLM?
Casos de uso e Modos de Implantação Avaliados
Os principais fatores que usamos para a avaliação são:
Tipo de GPU:
- A100 40GB GPU
- 2 x A10 24GB GPU
Comprimento do Prompt:
- 1500 tokens de entrada, 100 tokens de saída (Semelhante a casos de uso de Geração Aumentada por Recuperação)
- 50 tokens de entrada, 500 tokens de saída (Casos de uso intensivos em Geração)
Configuração de Benchmarking
Para o benchmarking, utilizamos o Locust, uma ferramenta de código aberto para teste de carga. O Locust funciona criando usuários/trabalhadores para enviar requisições em paralelo. No início de cada teste, podemos definir o Número de Usuários e Taxa de Criação. Aqui o Número de Usuários significa o número máximo de usuários que podem ser criados/executados simultaneamente, enquanto a Taxa de Geração indica quantos usuários serão gerados por segundo.
Em cada teste de benchmark para uma configuração de implantação, começamos com 1 usuário e continuamos a aumentar o Número de Usuários gradualmente até vermos um aumento constante no RPS. Durante o teste, também plotamos os tempos de resposta (em ms) e total de requisições por segundo.
Em cada uma das 2 configurações de implantação, utilizamos o huggingface text-generation-inference servidor de modelo com version=0.9.4. Os seguintes são os parâmetros passados para o text-generation-inference imagem para diferentes configurações de modelo:
Resumo dos Resultados de Benchmarking
Latência, RPS e Custo
Calculamos a melhor latência com base no envio de apenas uma solicitação por vez. Para aumentar o throughput, enviamos solicitações em paralelo ao LLM. O throughput máximo ocorre quando o modelo é capaz de processar as solicitações de entrada sem deterioração significativa na latência.

Tokens Por Segundo
LLMs processam tokens de entrada e geração de forma diferente - por isso, calculamos as taxas de processamento de tokens de entrada e saída de forma distinta.

Resultados Detalhados
2 x GPU A10 de 24GB (1500 tokens de entrada + 100 tokens de saída)


Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é de 4,5 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver o throughput aumentando até 0,8 RPS sem uma queda significativa na latência. Acima de 0,8 RPS, a latência aumenta drasticamente, o que significa que as solicitações estão sendo enfileiradas.
2 x GPU A10 de 24GB (50 tokens de entrada + 500 tokens de saída)


Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é 17 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver a taxa de transferência aumentando até 0.6 RPS sem uma queda significativa na latência. Acima de 0.6 RPS, a latência aumenta drasticamente, o que significa que as requisições estão sendo enfileiradas.
A100 40GB GPU (1500 tokens de entrada + 100 tokens de saída)


Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é 3.3 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver a taxa de transferência aumentando até 1.4 RPS sem uma queda significativa na latência. Além de 1.4 RPS, a latência aumenta drasticamente, o que significa que as requisições estão sendo enfileiradas.
GPU A100 40GB (50 tokens de entrada + 500 tokens de saída)


Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é de 13 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver o throughput aumentando até 1.2 RPS sem uma queda significativa na latência. Além de 1.2 RPS, a latência aumenta drasticamente, o que significa que as requisições estão sendo enfileiradas.
Esperamos que isso seja útil para você decidir se o LLama2-13B se adequa ao seu caso de uso e os custos que você pode esperar ter ao hospedar o LLama2-13B.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI

















.webp)






.webp)

.webp)
.webp)





.png)



