Blank white background with no objects or features visible.

NOVA PESQUISA: 80% dos custos de IA são invisíveis na fatura. Mais de 200 líderes revelam para onde o dinheiro vai. Leia→

Entendendo os Benchmarks do Modelo LLAMA 2 para Avaliação de Desempenho

By TrueFoundry

Updated: September 12, 2023

Neste artigo, fazemos o benchmark do desempenho do LLama2-7B sob a perspectiva de latência, custo e requisições por segundo. Isso nos ajudará a avaliar se ele pode ser uma boa escolha com base nos requisitos de negócio. Observe que não abordamos o desempenho qualitativo neste artigo — existem diferentes métodos para comparar LLMs que podem ser encontrados aqui.

Modelo: Llama2-7B

Neste blog, fizemos o benchmark do Llama-2-7B modelo da NousResearch. Esta é uma versão pré-treinada do Llama-2 com 7 bilhões de parâmetros.

A Meta desenvolveu e lançou publicamente a família Llama 2 de grandes modelos de linguagem (LLMs), uma coleção de modelos de texto generativos pré-treinados e ajustados, com escala variando de 7 bilhões a 70 bilhões de parâmetros.

Métricas de Benchmark com o Modelo LLAMA 2: Avaliando Indicadores Chave de Desempenho

  1. Requisições por segundo. (RPS): Requisições por segundo que o modelo está processando. Com um RPS mais alto, a latência geralmente aumenta.
  2. Latência: Quanto tempo é necessário para completar uma requisição de inferência?
  3. Economia: Quais são os custos associados à implantação de um LLM?

Casos de Uso e Modos de Implantação com LLAMA 2: Avaliando Cenários

Os principais fatores que usamos como base para o benchmarking são:

Tipo de GPU:

  1. A100 40GB GPU
  2. A10  24GB GPU

Comprimento do Prompt:

  1. 1500 tokens de entrada, 100 tokens de saída (Semelhante a casos de uso de Geração Aumentada por Recuperação)
  2. 50 tokens de entrada, 500 tokens de saída (Casos de uso com alta demanda de geração)

Configuração de Benchmarking com LLAMA 2: Configurando Ambientes de Teste

Para o benchmarking, utilizamos o Locust, uma ferramenta de teste de carga de código aberto. O Locust funciona criando usuários/trabalhadores para enviar requisições em paralelo. No início de cada teste, podemos definir o Número de Usuários e Taxa de Criação. Aqui o Número de Usuários significam o número máximo de usuários que podem ser gerados/executados simultaneamente, enquanto a Taxa de Geração significa quantos usuários serão gerados por segundo.

Em cada teste de benchmarking para uma configuração de implantação, começamos com 1 usuário e continuamos aumentando o Número de Usuários gradualmente até vermos um aumento constante no RPS. Durante o teste, também plotamos os tempos de resposta (em ms) e total de requisições por segundo.

Em cada uma das 2 configurações de implantação, utilizamos o servidor de modelo huggingface text-generation-inference com version=0.9.4. A seguir estão os parâmetros passados para a imagem text-generation-inference para diferentes configurações de modelo:

PARAMETERS LLAMA-2-7B ON A100 LLAMA-2-7B ON A10G
Max Batch Prefill Tokens 6100 10000

Resumo dos Resultados de Benchmarking: Resumindo as Descobertas do LLAMA 2

Latência, RPS e Custo

Calculamos a melhor latência com base no envio de apenas uma requisição por vez. Para aumentar o throughput, enviamos requisições em paralelo ao LLM. O throughput máximo ocorre quando o modelo é capaz de processar as requisições de entrada sem deterioração significativa na latência.

Resultados de Benchmarking para LLama-2 7B

Tokens Por Segundo

LLMs processam tokens de entrada e geração de forma diferente - por isso, calculamos a taxa de processamento de tokens de entrada e de saída de forma diferente.

Resultados Detalhados: Análise Aprofundada do LLAMA 2

GPU A10 de 24GB (1500 tokens de entrada + 100 tokens de saída)

Podemos observar nos gráficos acima que a Melhor Tempo de Resposta (com 1 usuário) é de 4,1 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver o throughput aumentando até 0.9 RPS sem uma queda significativa na latência. Acima de 0.9 RPS, a latência aumenta drasticamente, o que significa que as requisições estão sendo enfileiradas.

A10 24GB GPU (50 tokens de entrada + 500 tokens de saída)

Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é 15 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver o throughput aumentando até 0.9 RPS sem uma queda significativa na latência. Além de 0.9 RPS, a latência aumenta drasticamente, o que significa que as requisições estão sendo enfileiradas.

A100 40GB GPU (1500 tokens de entrada + 100 tokens de saída)

Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é 2 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver o throughput aumentando até 3.6 RPS sem uma queda significativa na latência. Acima de 3.6 RPS, a latência aumenta drasticamente, o que significa que os pedidos estão a ser enfileirados.

GPU A100 40GB (50 tokens de entrada + 500 tokens de saída)

Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 utilizador) é de 8,5 segundos. Podemos aumentar o número de utilizadores para direcionar mais tráfego para o modelo – podemos ver o débito a aumentar até 3.5 RPS sem uma queda significativa na latência. Acima de 3.5 RPS, a latência aumenta drasticamente, o que significa que os pedidos estão a ser enfileirados.

Esperamos que isto lhe seja útil para decidir se o LLama7B se adequa ao seu caso de uso e os custos que pode esperar ter ao alojar o Llama7B.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

Govern, Deploy and Trace AI in Your Own Infrastructure

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo

Discover More

July 20, 2023
|
5 min read

LLMOps CoE: A próxima fronteira no cenário de MLOps

May 25, 2023
|
5 min read

LLMs de Código Aberto: Abrace ou Pereça

August 27, 2025
|
5 min read

Mapeando o Mercado de IA On-Prem: De Chips a Planos de Controle

September 28, 2023
|
5 min read

O que é Ajuste Fino LoRA? O Guia Definitivo

May 21, 2026
|
5 min read

Adicionando OAuth2 a Jupyter Notebooks no Kubernetes

Engenharia e Produto
May 21, 2026
|
5 min read

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Engenharia e Produto
May 21, 2026
|
5 min read

Acelere o Processamento de Dados em 30–40x com NVIDIA RAPIDS no TrueFoundry

GPU
Engenharia e Produto
May 21, 2026
|
5 min read

Uma Parceria para IA Responsável: Truefoundry e Enkrypt AI

No items found.
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour