Blank white background with no objects or features visible.

NOVA PESQUISA: 80% dos custos de IA são invisíveis na fatura. Mais de 200 líderes revelam para onde o dinheiro vai. Leia→

Benchmarking do Llama-2-70B

By TrueFoundry

Updated: October 6, 20235

Neste artigo, avaliamos o desempenho do Llama2-70B sob a perspectiva de latência, custo e requisições por segundo. Isso nos ajudará a avaliar se ele pode ser uma boa escolha com base nos requisitos de negócio. Observe que não abordamos o desempenho qualitativo neste artigo — existem diferentes métodos para comparar LLMs que podem ser encontrados aqui.

Modelo: Llama2-70B

Neste blog, fizemos o benchmarking do Llama-2-70B modelo da NousResearch. Esta é uma versão pré-treinada do Llama-2 com 70 bilhões de parâmetros.

A Meta desenvolveu e lançou publicamente a família Llama 2 de grandes modelos de linguagem (LLMs), uma coleção de modelos de texto generativos pré-treinados e ajustados, com escala variando de 7 bilhões a 70 bilhões de parâmetros.

Métricas para Avaliar

  1. Requisições por segundo. (RPS): Requisições por segundo que o modelo está processando. Com um RPS mais alto, a latência geralmente aumenta.
  2. Latência: Quanto tempo é necessário para completar uma requisição de inferência?
  3. Economia: Quais são os custos associados à implantação de um LLM?

Casos de uso e Modos de Implantação Avaliados

Os principais fatores que avaliamos são:

Tipo de GPU:

  1. 4 x A100 40GB GPU

Comprimento do Prompt:

  1. 1500 tokens de entrada, 100 tokens de saída (Semelhante a casos de uso de Geração Aumentada por Recuperação)
  2. 50 tokens de entrada, 500 tokens de saída (Casos de uso intensivos em geração)

Configuração do Benchmark

Para o benchmark, utilizamos o Locust, uma ferramenta de teste de carga de código aberto. O Locust funciona criando usuários/trabalhadores para enviar requisições em paralelo. No início de cada teste, podemos definir o Número de Usuários e Taxa de Geração. Aqui o Número de Usuários significa o número máximo de usuários que podem ser gerados/executados simultaneamente, enquanto a Taxa de Geração significa quantos usuários serão gerados por segundo.

Em cada teste de benchmark para uma configuração de implantação, começamos com 1 usuário e fomos aumentando o Número de Usuários gradualmente até vermos um aumento constante no RPS. Durante o teste, também plotamos o tempos de resposta (em ms) e total de requisições por segundo.

Em cada uma das 2 configurações de implantação, utilizamos o huggingface text-generation-inference servidor de modelo com version=0.9.4. Os seguintes são os parâmetros passados para o text-generation-inference imagem para diferentes configurações de modelo:

PARAMETERS LLAMA-2-70B ON A100
Max Batch Prefill Tokens 14000

Resumo dos Resultados de Benchmark

Latência, RPS e Custo

Calculamos a melhor latência com base no envio de apenas uma solicitação por vez. Para aumentar o rendimento, enviamos solicitações em paralelo ao LLM. O rendimento máximo ocorre quando o modelo é capaz de processar as solicitações de entrada sem deterioração significativa na latência.

Resultados de Benchmarking para LLama-2 70B

Tokens Por Segundo

LLMs processam tokens de entrada e geração de forma diferente - por isso, calculamos a taxa de processamento de tokens de entrada e saída de forma diferente.

Resultados Detalhados

4 x GPU A100 de 40GB (1500 tokens de entrada + 100 tokens de saída)

Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é 7,4 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver o rendimento aumentando até 1.1 RPS sem uma queda significativa na latência. Acima de 1.1 RPS, a latência aumenta drasticamente, o que significa que as solicitações estão sendo enfileiradas.

4 x GPU A100 de 40GB (50 tokens de entrada + 500 tokens de saída)

Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é 33 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver o rendimento aumentando até 0.8 RPS sem uma queda significativa na latência. Além de 0.8 RPS, a latência aumenta drasticamente, o que significa que as requisições estão sendo enfileiradas.

Esperamos que isso seja útil para você decidir se o LLama2-70B se adequa ao seu caso de uso e os custos que você pode esperar ter ao hospedar o LLama2-70B.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

Govern, Deploy and Trace AI in Your Own Infrastructure

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo

Discover More

July 20, 2023
|
5 min read

LLMOps CoE: A próxima fronteira no cenário de MLOps

May 25, 2023
|
5 min read

LLMs de Código Aberto: Abrace ou Pereça

August 27, 2025
|
5 min read

Mapeando o Mercado de IA On-Prem: De Chips a Planos de Controle

September 28, 2023
|
5 min read

O que é Ajuste Fino LoRA? O Guia Definitivo

May 21, 2026
|
5 min read

Adicionando OAuth2 a Jupyter Notebooks no Kubernetes

Engenharia e Produto
May 21, 2026
|
5 min read

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Engenharia e Produto
May 21, 2026
|
5 min read

Acelere o Processamento de Dados em 30–40x com NVIDIA RAPIDS no TrueFoundry

GPU
Engenharia e Produto
May 21, 2026
|
5 min read

Uma Parceria para IA Responsável: Truefoundry e Enkrypt AI

No items found.
May 21, 2026
|
5 min read

Entendendo os Benchmarks do Modelo LLAMA 2 para Avaliação de Desempenho

LLMs & GenAI
May 21, 2026
|
5 min read

Benchmarking do Llama-2-13B

LLMs & GenAI
May 21, 2026
|
5 min read

Benchmark do Falcon-40B

LLMs & GenAI
May 21, 2026
|
5 min read

Benchmark do Mistral-7B

LLMs & GenAI
May 21, 2026
|
5 min read

Llama 2 LLM: Implante e Otimize na sua nuvem

Engenharia e Produto
LLMs & GenAI

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour