Blank white background with no objects or features visible.

NOVA PESQUISA: 80% dos custos de IA são invisíveis na fatura. Mais de 200 líderes revelam para onde o dinheiro vai. Leia→

LLM Locust: Uma Ferramenta para Benchmarking de Desempenho de LLMs

By Kunwar Raj Singh

Updated: April 17, 2025

O que é Benchmarking de LLMs?

Benchmarking de LLMs é o processo de avaliar quão eficientemente um servidor de inferência de Large Language Model (LLM) se comporta sob carga. Vai além dos testes de desempenho tradicionais ao focar em características de resposta em tempo real que impactam diretamente a experiência do usuário e a escalabilidade do sistema.

A seguir, algumas das principais métricas envolvidas:

  • Tempo para o Primeiro Token (TTFT):
    O atraso entre o envio de uma requisição e o recebimento do primeiro token da resposta. Isso reflete a latência de processamento inicial do modelo.
  • Tokens de Saída por Segundo (tokens/s):
    Mede a rapidez com que o modelo gera tokens de resposta, indicando a velocidade de geração e a capacidade de resposta do sistema.
  • Latência Inter-Token:
    O tempo entre tokens consecutivos em uma resposta de streaming. Valores mais baixos indicam uma saída mais fluida e com sensação mais natural em aplicações em tempo real.
  • Requisições por Segundo (RPS):
    O número de requisições de inferência que um LLM pode processar por segundo — uma medida essencial de vazão.

Acompanhar e analisar essas métricas é fundamental para:

  • Comparar provedores de LLM
  • Otimizar implantações em CPUs, GPUs ou aceleradores especializados
  • Ajustar configurações de servidor para aplicações sensíveis à latência

É aí que LLM Locust entra em ação.

Por Que Ferramentas Tradicionais de Teste de Carga Como o Locust Ficam Aquém para o Benchmarking de LLMs (E Como o LLM Locust Resolve Isso)

À medida que os LLMs continuam a impulsionar mais aplicações em tempo real e interativas, avaliar o seu desempenho com precisão é mais importante do que nunca. Embora ferramentas como Locust sejam excelentes para testes de carga tradicionais, elas ficam aquém quando se trata da granularidade de nível de token e streaming que os LLMs exigem.

Surge LLM Locust—uma ferramenta desenvolvida especificamente para preencher essa lacuna.

Por Que o Locust É Ótimo para Testes de Carga Tradicionais

É preciso reconhecer. O Locust continua sendo uma das ferramentas mais apreciadas para testes de carga devido à sua:

  • Scripting nativo em Python: Flexível e intuitivo para a criação de cenários de teste
  • Concorrência leve: Greenlets permitem milhares de usuários simulados
  • Interface Web em tempo real: Simples e poderosa para monitorar testes de carga ao vivo

Para APIs ou serviços padrão, é uma escolha fantástica. Mas para LLMs? Não é o bastante.

O Problema: LLMs Quebram o Paradigma dos Testes de Carga

1. Sem Suporte para Métricas Específicas de LLMs

O Locust não monitora nativamente indicadores de desempenho específicos para LLMs, como:

  • Tempo para o Primeiro Token (TTFT)
  • Tokens de saída por segundo
  • Latência entre tokens

Essas dinâmicas de streaming são fundamentais para entender o desempenho de um LLM, especialmente em casos de uso em tempo real.

2. Inconsistência no Streaming de Tokens + Gargalos de CPU

APIs de LLM frequentemente transmitem tokens de forma inconsistente — algumas retornam zero tokens inicialmente, outras enviam um token por vez, e algumas entregam múltiplos tokens em um único bloco.
Para medir os tokens de saída com precisão, as respostas devem ser re-tokenizadas, já que as respostas da API não podem ser confiadas para seguir um formato consistente.

Mas o problema é: a tokenização é uma tarefa limitada pela CPU, especialmente quando feito para cada resposta de streaming. O Locust usa greenlets para concorrência leve, mas eles ainda operam sob o Global Interpreter Lock (GIL). Isso significa que operações que exigem muito da CPU, como a tokenização, podem bloquear o loop de eventos, reduzindo o rendimento e distorcendo os resultados do seu benchmark.

A combinação de comportamento de streaming inconsistente e o GIL do Python torna isso um gargalo de desempenho significativo em configurações tradicionais do Locust.

3. Sem Gráficos Personalizados

Quer plotar TTFT ou o rendimento de streaming? A interface do usuário do Locust não suporta métricas LLM personalizadas de fábrica, deixando dados importantes invisíveis durante as execuções de teste.

4.  Ferramentas Concorrentes São Limitadas

Ferramentas como genai-perf são valiosas, mas frequentemente fornecem:

  • Instantâneos de benchmark pontuais
  • Configurabilidade limitada
  • Sem feedback visual em tempo real

Eles carecem da flexibilidade iterativa e exploratória necessária para o benchmarking no mundo real.

A Solução: Conheça o LLM Locust

O LLM Locust combina a simplicidade do Locust com suporte aprofundado para benchmarking específico de LLMs. Inspirado por llm-bench da BentoML, ele introduz uma arquitetura modular e um frontend personalizado para insights em tempo real.

Como o LLM Locust Funciona

1. Geração de Requisições Assíncronas
Usuários simulados enviam requisições assíncronas contínuas para a sua API LLM, mimetizando a carga do mundo real. Isso é executado em um processo Python separado, eliminando gargalos de tokenização. 

2. Coleta de Respostas em Streaming
As respostas do LLM são transmitidas e encaminhadas para um daemon de métricas para análise e parsing leves.

3. Processamento de Métricas
O daemon tokeniza as respostas, calcula o TTFT, tokens/s e a latência inter-token, e agrupa os resultados.

4. Agregação
A cada 2 segundos, os dados são enviados para um backend FastAPI que mimetiza o backend do Locust, que armazena e agrega métricas globalmente.

5. Visualização em Tempo Real
Uma versão personalizada do frontend do Locust exibe:

  • TTFT por requisição
  • Vazão de tokens ao longo do tempo
  • 📊 RPS, latência e outras estatísticas importantes

Aqui está a arquitetura detalhada: 


Aqui está uma demonstração de como ele se parece: 

Conclusão

Locust é uma ótima ferramenta de teste de carga — mas não para LLMs de forma nativa.
LLM Locust oferece a precisão de streaming e de nível de token necessária para fazer o benchmark adequado dos poderosos modelos de linguagem atuais.

Seja você implantando um modelo de código aberto em sua própria infraestrutura ou comparando o desempenho entre APIs de LLM, o LLM Locust oferece a clareza, flexibilidade e controle para fazer isso corretamente.

Link do Github: https://github.com/truefoundry/llm-locust

Perguntas Frequentes

O que é LLM Locust?

O LLM Locust é uma ferramenta de benchmarking de código aberto construída sobre o framework Locust, especificamente para avaliar Grandes Modelos de Linguagem. Ao contrário das ferramentas padrão de teste de carga, ele mede métricas específicas de GenAI, como Tempo para o Primeiro Token (TTFT) e tokens por segundo, para garantir que seus modelos lidem com alto tráfego concorrente em ambientes de produção.

Como o LLM Locust ajuda no teste de desempenho de modelos de linguagem?

Ele oferece visibilidade aprofundada sobre como os modelos se comportam sob cargas pesadas e simultâneas, analisando respostas de streaming e taxas de geração de tokens. Esses dados permitem que os engenheiros otimizem a infraestrutura, identifiquem possíveis gargalos antes da implantação e garantam velocidades de resposta consistentes para os usuários finais em várias configurações de hardware e motores de serviço.

O Locust pode ser usado para testar a carga de APIs LLM?

Sim, mas enquanto o Locust padrão funciona para APIs básicas, o LLM Locust é especificamente projetado para os requisitos únicos da IA generativa. Ele rastreia com precisão as respostas de streaming e calcula o throughput em múltiplas requisições concorrentes, fornecendo uma imagem mais clara de como um LLM escala em comparação com as ferramentas tradicionais de teste de carga.

Como combino o LLM Locust com ferramentas de observabilidade como o Langfuse?

A integração do LLM Locust com plataformas como o Langfuse permite visualizar rastros de desempenho durante testes de alto estresse diretamente em seus painéis. Você pode correlacionar padrões de carga específicos com falhas de modelo ou picos de latência, fornecendo insights aprofundados sobre a confiabilidade e a qualidade de seus agentes autônomos sob pressão do mundo real.

Como usar o LLM Locust com o TrueFoundry?

Executar o LLM Locust com o TrueFoundry permite que você faça o benchmarking de modelos implantados em sua nuvem privada. Você pode testar facilmente diferentes motores de serviço como vLLM ou TGI para encontrar a configuração ideal para seu hardware específico, garantindo que sua implantação seja totalmente otimizada para custo e velocidade.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

Govern, Deploy and Trace AI in Your Own Infrastructure

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo

Discover More

No items found.
May 21, 2026
|
5 min read

Adicionando OAuth2 a Jupyter Notebooks no Kubernetes

Engenharia e Produto
May 21, 2026
|
5 min read

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Engenharia e Produto
May 21, 2026
|
5 min read

Acelere o Processamento de Dados em 30–40x com NVIDIA RAPIDS no TrueFoundry

GPU
Engenharia e Produto
May 21, 2026
|
5 min read

Uma Parceria para IA Responsável: Truefoundry e Enkrypt AI

No items found.
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour