What is LLM Benchmarking?

LLM benchmarking is the process of measuring how well a language model performs in real usage, especially under load. It evaluates latency, generation speed, and throughput by tracking metrics like time to first token, token generation rate, streaming smoothness, and requests handled per second. These insights help teams compare providers, tune infrastructure, and optimize deployments for responsive and scalable AI applications.

Why Locust Is Great for Traditional Load Testing?

Locust is a popular load testing tool because it uses simple Python scripts to create realistic test scenarios, can simulate thousands of concurrent users efficiently, and provides a real-time web dashboard to monitor results. It works very well for traditional APIs and web services, though it doesn’t fully capture the unique performance behaviors of language models.

LLM Locust is an open-source benchmarking tool built on the Locust framework specifically for evaluating Large Language Models. Unlike standard load-testing tools, it measures GenAI-specific metrics like Time to First Token (TTFT) and tokens per second to ensure your models handle high concurrent traffic in production environments.

How does LLM Locust help with performance testing of language models?

It provides deep visibility into how models behave under heavy, simultaneous loads by analyzing streaming responses and token generation rates. This data allows engineers to optimize infrastructure, identify potential bottlenecks before deployment, and ensure consistent response speeds for end users across various hardware and serving engine configurations.

Can Locust be used to load test LLM APIs?

Yes, but while standard Locust works for basic APIs, LLM Locust is specifically engineered for the unique requirements of generative AI. It accurately tracks streaming responses and calculates throughput across multiple concurrent requests, providing a clearer picture of how an LLM scales compared to traditional load-testing tools.

How do I combine LLM Locust with observability tools like Langfuse?

Integrating LLM Locust with platforms like Langfuse allows you to visualize performance traces during high-stress tests directly on your dashboards. You can correlate specific load patterns with model failures or latency spikes, providing deep insights into the reliability and quality of your autonomous agents under real-world pressure.

How to use LLM Locust with TrueFoundry?

Running LLM Locust with TrueFoundry enables you to benchmark models deployed within your private cloud. You can easily test different serving engines like vLLM or TGI to find the optimal configuration for your specific hardware, ensuring your deployment is fully optimized for cost and speed.

LLM Locust: Avaliação de Desempenho de LLMs em Escala

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

O que é Benchmarking de LLMs?

Benchmarking de LLMs é o processo de avaliar quão eficientemente um servidor de inferência de Large Language Model (LLM) se comporta sob carga. Vai além dos testes de desempenho tradicionais ao focar em características de resposta em tempo real que impactam diretamente a experiência do usuário e a escalabilidade do sistema.

A seguir, algumas das principais métricas envolvidas:

Tempo para o Primeiro Token (TTFT):
O atraso entre o envio de uma requisição e o recebimento do primeiro token da resposta. Isso reflete a latência de processamento inicial do modelo.
Tokens de Saída por Segundo (tokens/s):
Mede a rapidez com que o modelo gera tokens de resposta, indicando a velocidade de geração e a capacidade de resposta do sistema.
Latência Inter-Token:
O tempo entre tokens consecutivos em uma resposta de streaming. Valores mais baixos indicam uma saída mais fluida e com sensação mais natural em aplicações em tempo real.
Requisições por Segundo (RPS):
O número de requisições de inferência que um LLM pode processar por segundo — uma medida essencial de vazão.

Acompanhar e analisar essas métricas é fundamental para:

Comparar provedores de LLM
Otimizar implantações em CPUs, GPUs ou aceleradores especializados
Ajustar configurações de servidor para aplicações sensíveis à latência

É aí que LLM Locust entra em ação.

Por Que Ferramentas Tradicionais de Teste de Carga Como o Locust Ficam Aquém para o Benchmarking de LLMs (E Como o LLM Locust Resolve Isso)

À medida que os LLMs continuam a impulsionar mais aplicações em tempo real e interativas, avaliar o seu desempenho com precisão é mais importante do que nunca. Embora ferramentas como Locust sejam excelentes para testes de carga tradicionais, elas ficam aquém quando se trata da granularidade de nível de token e streaming que os LLMs exigem.

Surge LLM Locust—uma ferramenta desenvolvida especificamente para preencher essa lacuna.

Por Que o Locust É Ótimo para Testes de Carga Tradicionais

É preciso reconhecer. O Locust continua sendo uma das ferramentas mais apreciadas para testes de carga devido à sua:

Scripting nativo em Python: Flexível e intuitivo para a criação de cenários de teste
Concorrência leve: Greenlets permitem milhares de usuários simulados
Interface Web em tempo real: Simples e poderosa para monitorar testes de carga ao vivo

Para APIs ou serviços padrão, é uma escolha fantástica. Mas para LLMs? Não é o bastante.

O Problema: LLMs Quebram o Paradigma dos Testes de Carga

1. Sem Suporte para Métricas Específicas de LLMs

O Locust não monitora nativamente indicadores de desempenho específicos para LLMs, como:

Tempo para o Primeiro Token (TTFT)
Tokens de saída por segundo
Latência entre tokens

Essas dinâmicas de streaming são fundamentais para entender o desempenho de um LLM, especialmente em casos de uso em tempo real.

2. Inconsistência no Streaming de Tokens + Gargalos de CPU

APIs de LLM frequentemente transmitem tokens de forma inconsistente — algumas retornam zero tokens inicialmente, outras enviam um token por vez, e algumas entregam múltiplos tokens em um único bloco.
Para medir os tokens de saída com precisão, as respostas devem ser re-tokenizadas, já que as respostas da API não podem ser confiadas para seguir um formato consistente.

Mas o problema é: a tokenização é uma tarefa limitada pela CPU, especialmente quando feito para cada resposta de streaming. O Locust usa greenlets para concorrência leve, mas eles ainda operam sob o Global Interpreter Lock (GIL). Isso significa que operações que exigem muito da CPU, como a tokenização, podem bloquear o loop de eventos, reduzindo o rendimento e distorcendo os resultados do seu benchmark.

A combinação de comportamento de streaming inconsistente e o GIL do Python torna isso um gargalo de desempenho significativo em configurações tradicionais do Locust.

3. Sem Gráficos Personalizados

Quer plotar TTFT ou o rendimento de streaming? A interface do usuário do Locust não suporta métricas LLM personalizadas de fábrica, deixando dados importantes invisíveis durante as execuções de teste.

4. Ferramentas Concorrentes São Limitadas

Ferramentas como genai-perf são valiosas, mas frequentemente fornecem:

Instantâneos de benchmark pontuais
Configurabilidade limitada
Sem feedback visual em tempo real

Eles carecem da flexibilidade iterativa e exploratória necessária para o benchmarking no mundo real.

A Solução: Conheça o LLM Locust

O LLM Locust combina a simplicidade do Locust com suporte aprofundado para benchmarking específico de LLMs. Inspirado por llm-bench da BentoML, ele introduz uma arquitetura modular e um frontend personalizado para insights em tempo real.

Como o LLM Locust Funciona

1. Geração de Requisições Assíncronas
Usuários simulados enviam requisições assíncronas contínuas para a sua API LLM, mimetizando a carga do mundo real. Isso é executado em um processo Python separado, eliminando gargalos de tokenização.

2. Coleta de Respostas em Streaming
As respostas do LLM são transmitidas e encaminhadas para um daemon de métricas para análise e parsing leves.

3. Processamento de Métricas
O daemon tokeniza as respostas, calcula o TTFT, tokens/s e a latência inter-token, e agrupa os resultados.

4. Agregação
A cada 2 segundos, os dados são enviados para um backend FastAPI que mimetiza o backend do Locust, que armazena e agrega métricas globalmente.

5. Visualização em Tempo Real
Uma versão personalizada do frontend do Locust exibe:

TTFT por requisição
Vazão de tokens ao longo do tempo
📊 RPS, latência e outras estatísticas importantes

Aqui está a arquitetura detalhada:

Aqui está uma demonstração de como ele se parece:

‍

Conclusão

Locust é uma ótima ferramenta de teste de carga — mas não para LLMs de forma nativa.
LLM Locust oferece a precisão de streaming e de nível de token necessária para fazer o benchmark adequado dos poderosos modelos de linguagem atuais.

Seja você implantando um modelo de código aberto em sua própria infraestrutura ou comparando o desempenho entre APIs de LLM, o LLM Locust oferece a clareza, flexibilidade e controle para fazer isso corretamente.

Link do Github: https://github.com/truefoundry/llm-locust

Perguntas Frequentes

O que é LLM Locust?

O LLM Locust é uma ferramenta de benchmarking de código aberto construída sobre o framework Locust, especificamente para avaliar Grandes Modelos de Linguagem. Ao contrário das ferramentas padrão de teste de carga, ele mede métricas específicas de GenAI, como Tempo para o Primeiro Token (TTFT) e tokens por segundo, para garantir que seus modelos lidem com alto tráfego concorrente em ambientes de produção.

Como o LLM Locust ajuda no teste de desempenho de modelos de linguagem?

Ele oferece visibilidade aprofundada sobre como os modelos se comportam sob cargas pesadas e simultâneas, analisando respostas de streaming e taxas de geração de tokens. Esses dados permitem que os engenheiros otimizem a infraestrutura, identifiquem possíveis gargalos antes da implantação e garantam velocidades de resposta consistentes para os usuários finais em várias configurações de hardware e motores de serviço.

O Locust pode ser usado para testar a carga de APIs LLM?

Sim, mas enquanto o Locust padrão funciona para APIs básicas, o LLM Locust é especificamente projetado para os requisitos únicos da IA generativa. Ele rastreia com precisão as respostas de streaming e calcula o throughput em múltiplas requisições concorrentes, fornecendo uma imagem mais clara de como um LLM escala em comparação com as ferramentas tradicionais de teste de carga.

Como combino o LLM Locust com ferramentas de observabilidade como o Langfuse?

A integração do LLM Locust com plataformas como o Langfuse permite visualizar rastros de desempenho durante testes de alto estresse diretamente em seus painéis. Você pode correlacionar padrões de carga específicos com falhas de modelo ou picos de latência, fornecendo insights aprofundados sobre a confiabilidade e a qualidade de seus agentes autônomos sob pressão do mundo real.

Como usar o LLM Locust com o TrueFoundry?

Executar o LLM Locust com o TrueFoundry permite que você faça o benchmarking de modelos implantados em sua nuvem privada. Você pode testar facilmente diferentes motores de serviço como vLLM ou TGI para encontrar a configuração ideal para seu hardware específico, garantindo que sua implantação seja totalmente otimizada para custo e velocidade.

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now