Blank white background with no objects or features visible.

A TrueFoundry anuncia a aquisição da Seldon AI, expandindo sua Plataforma de Controle para IA Empresarial. Comunicado oficial completo →

Benchmark do Mistral-7B

By TrueFoundry

Published: May 21, 2026

Neste artigo, avaliamos o desempenho do Mistral-7B sob a perspectiva de latência, custo e requisições por segundo. Isso nos ajudará a avaliar se ele pode ser uma boa escolha com base nos requisitos de negócio. Observe que não abordamos o desempenho qualitativo neste artigo — existem diferentes métodos para comparar LLMs que podem ser encontrados aqui.

Modelo: Mistral-7B

Neste blog, fizemos o benchmarking do Mistral-7B-Instruct-v0.1 modelo da mistralai. O LLM Mistral-7B-Instruct-v0.1 é uma versão ajustada (fine-tuned) para instruções do Mistral-7B-v0.1 modelo de texto generativo (com 7 bilhões de parâmetros) usando uma variedade de conjuntos de dados de conversação disponíveis publicamente.

Métricas para Avaliação

  1. Requisições por segundo (RPS): Requisições por segundo que o modelo está processando. Com um RPS mais alto, a latência geralmente aumenta.
  2. Latência: Quanto tempo é necessário para completar uma requisição de inferência?
  3. Economia: Quais são os custos associados à implementação de um LLM?

Casos de Uso e Modos de Implantação Avaliados

Os principais fatores que avaliamos são:

Tipo de GPU:

  1. A100 40GB GPU
  2. A10 24GB GPU

Comprimento do Prompt:

  1. 1500 tokens de entrada, 100 tokens de saída (Semelhante a casos de uso de Geração Aumentada por Recuperação)
  2. 50 tokens de entrada, 500 tokens de saída (Casos de uso intensivos em geração)

Configuração do Benchmark

Para o benchmark, utilizamos o Locust, uma ferramenta de teste de carga de código aberto. O Locust funciona criando usuários/trabalhadores para enviar requisições em paralelo. No início de cada teste, podemos definir o Número de Usuários e a Taxa de Geração. Aqui o Número de Usuários significam o número máximo de usuários que podem ser gerados/executados simultaneamente, ao passo que a Taxa de Geração significa quantos usuários serão gerados por segundo.

Em cada teste de benchmark para uma configuração de implantação, começamos com 1 usuário e continuamos a aumentar o Número de Usuários gradualmente até observarmos um aumento constante no RPS. Durante o teste, também plotamos o tempos de resposta (em ms) e total de requisições por segundo.

Em cada uma das 2 configurações de implantação, utilizamos o servidor de modelo vLLM com version=0.2.0-d849de0.

Resumo dos Resultados do Benchmark

Latência, RPS e Custo

Calculamos a melhor latência com base no envio de apenas uma solicitação por vez. Para aumentar o rendimento, enviamos solicitações em paralelo ao LLM. O rendimento máximo ocorre quando o modelo é capaz de processar as solicitações de entrada sem uma deterioração significativa na latência.

Resultados de Benchmarking para Mistral-7B-Instruct

Tokens Por Segundo

LLMs processam tokens de entrada e geração de forma diferente - por isso, calculamos as taxas de processamento de tokens de entrada e de saída de forma diferente.

Resultados Detalhados

GPU A10 de 24GB (1500 tokens de entrada + 100 tokens de saída)

Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é 4,6 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver o rendimento aumentando até 0,8 RPS sem uma queda significativa na latência. Acima de 0,8 RPS, a latência aumenta drasticamente, o que significa que as solicitações estão sendo enfileiradas.

GPU A10 de 24GB (50 tokens de entrada + 500 tokens de saída)

Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é 18 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver o rendimento aumentando até 0.4RPS sem uma queda significativa na latência. Além de 0.4 RPS, a latência aumenta drasticamente, o que significa que as requisições estão sendo enfileiradas.

GPU A100 40GB (1500 tokens de entrada + 100 tokens de saída)

Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é 2,3 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo - podemos ver o rendimento aumentando até 2.8 RPS sem uma queda significativa na latência. Além de 2.8 RPS, a latência aumenta drasticamente, o que significa que as requisições estão sendo enfileiradas.

GPU A100 de 40GB (50 tokens de entrada + 500 tokens de saída)

Podemos observar nos gráficos acima que o Melhor Tempo de Resposta (com 1 usuário) é 9,7 segundos. Podemos aumentar o número de usuários para direcionar mais tráfego ao modelo – podemos ver o rendimento aumentando até 1.5 RPS sem uma queda significativa na latência. Acima de 1.5 RPS, a latência aumenta drasticamente, o que significa que as requisições estão sendo enfileiradas.

Esperamos que isso seja útil para você decidir se o Mistral-7B-Instruct se adequa ao seu caso de uso e os custos que você pode esperar ter ao hospedar o Mistral-7B-Instruct.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

One Gateway for Every LLM, Agent and MCP Server

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo
Summarize with
ChatGPT logo by OpenAI
Perplexity AI logo
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Discover More

July 20, 2023
|
5 min read

LLMOps CoE: A próxima fronteira no cenário de MLOps

May 25, 2023
|
5 min read

LLMs de Código Aberto: Abrace ou Pereça

August 27, 2025
|
5 min read

Mapeando o Mercado de IA On-Prem: De Chips a Planos de Controle

September 28, 2023
|
5 min read

O que é Ajuste Fino LoRA? O Guia Definitivo

llm observability platforms
July 3, 2026
|
5 min read

Melhores Ferramentas de Observabilidade de LLM

No items found.
July 4, 2026
|
5 min read

Schema-Driven Forms in React: Building with TrueFoundry FormBuilder

No items found.
July 2, 2026
|
5 min read

Integração Pangea com o Gateway de IA da TrueFoundry

No items found.
July 1, 2026
|
5 min read

As 5 Melhores Alternativas ao LiteLLM para Empresas em 2026

No items found.
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour