What is LLM Benchmarking?

LLM benchmarking is the process of measuring how well a language model performs in real usage, especially under load. It evaluates latency, generation speed, and throughput by tracking metrics like time to first token, token generation rate, streaming smoothness, and requests handled per second. These insights help teams compare providers, tune infrastructure, and optimize deployments for responsive and scalable AI applications.

Why Locust Is Great for Traditional Load Testing?

Locust is a popular load testing tool because it uses simple Python scripts to create realistic test scenarios, can simulate thousands of concurrent users efficiently, and provides a real-time web dashboard to monitor results. It works very well for traditional APIs and web services, though it doesn’t fully capture the unique performance behaviors of language models.

LLM Locust is an open-source benchmarking tool built on the Locust framework specifically for evaluating Large Language Models. Unlike standard load-testing tools, it measures GenAI-specific metrics like Time to First Token (TTFT) and tokens per second to ensure your models handle high concurrent traffic in production environments.

How does LLM Locust help with performance testing of language models?

It provides deep visibility into how models behave under heavy, simultaneous loads by analyzing streaming responses and token generation rates. This data allows engineers to optimize infrastructure, identify potential bottlenecks before deployment, and ensure consistent response speeds for end users across various hardware and serving engine configurations.

Can Locust be used to load test LLM APIs?

Yes, but while standard Locust works for basic APIs, LLM Locust is specifically engineered for the unique requirements of generative AI. It accurately tracks streaming responses and calculates throughput across multiple concurrent requests, providing a clearer picture of how an LLM scales compared to traditional load-testing tools.

How do I combine LLM Locust with observability tools like Langfuse?

Integrating LLM Locust with platforms like Langfuse allows you to visualize performance traces during high-stress tests directly on your dashboards. You can correlate specific load patterns with model failures or latency spikes, providing deep insights into the reliability and quality of your autonomous agents under real-world pressure.

How to use LLM Locust with TrueFoundry?

Running LLM Locust with TrueFoundry enables you to benchmark models deployed within your private cloud. You can easily test different serving engines like vLLM or TGI to find the optimal configuration for your specific hardware, ensuring your deployment is fully optimized for cost and speed.

LLM Locust: una herramienta para comparar el rendimiento de LLM

Por Kunwar Raj Singh

Actualizado: April 17, 2025

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

¿Qué es el LLM Benchmarking?

Evaluación comparativa de LLM es el proceso de evaluar la eficiencia con la que funciona un servidor de inferencia de modelos de lenguaje grande (LLM) bajo carga. Va más allá de las pruebas de rendimiento tradicionales y se centra en las características de respuesta en tiempo real que afectan directamente a la experiencia del usuario y a la escalabilidad del sistema.

Estas son algunas de las métricas clave involucradas:

Time to the first token (TTFT):
El retraso entre el envío de una solicitud y la recepción del primer símbolo de la respuesta. Esto refleja la latencia del procesamiento inicial del modelo.
Tokens de salida por segundo (tokens/s):
Mide la rapidez con la que el modelo genera los tokens de respuesta, lo que indica la velocidad de generación y la capacidad de respuesta del sistema.
Latencia entre los tokens:
El tiempo transcurrido entre los tokens consecutivos de una respuesta de streaming. Los valores más bajos indican resultados más fluidos y naturales en aplicaciones en tiempo real.
Solicitudes por segundo (RPS):
La cantidad de solicitudes de inferencia que un LLM puede gestionar por segundo, una medida esencial del rendimiento.

El seguimiento y el análisis de estas métricas son fundamentales para:

Comparación de proveedores de LLM
Optimización de las implementaciones en CPU, GPU o aceleradores especializados
Ajustar las configuraciones del servidor para aplicaciones sensibles a la latencia

Ahí es donde LLM Locust entra.

Por qué las herramientas tradicionales de pruebas de carga como Locust no son suficientes para la evaluación comparativa de LLM (y cómo LLM Locust lo soluciona)

A medida que los LLM siguen impulsando más aplicaciones interactivas y en tiempo real, la evaluación comparativa de su rendimiento con precisión es más importante que nunca. Is well tools as Langosta son excelentes para las pruebas de carga tradicionales, se quedan cortas cuando se trata de la transmisión y la granularidad a nivel de token que requieren los LLM.

Entrar LLM Locust—una herramienta diseñada específicamente para cerrar esta brecha.

Por qué Locust es ideal para las pruebas de carga tradicionales

Demos crédito a lo que se debe. Locust sigue siendo una de las herramientas más queridas para realizar pruebas de carga debido a su:

Secuencias de comandos nativas de Python: Flexible e intuitivo para la creación de escenarios de prueba
Competencia ligera: Los Greenlets permiten miles de usuarios simulados
Interfaz de usuario web en tiempo real: Sencillo y potente para monitorear las pruebas de carga en vivo

For API or standard services, is a fantastic option. ¿Pero para los LLM? No lo suficiente.

El problema: los LLM rompen el molde de las pruebas de carga

1. No hay soporte para métricas específicas de LLM

Locust no rastrea de forma nativa los indicadores de rendimiento específicos de LLM, como:

Time until the first token (TTFT)
Second Output Tokens
Latencia entre fichas

Estas dinámicas de transmisión son fundamentales para comprender qué tan bien funciona un LLM, especialmente en casos de uso en tiempo real.

2. Inconsistencia en la transmisión de tokens y cuellos de botella en la CPU

Las API de LLM suelen transmitir los tokens de forma inconsistente; algunas devuelven cero fichas al principio, other envían un token a la vez, y algunos entregan varios tokens en un solo fragmento.
Para medir los tokens de salida con precisión, las respuestas deben ser retokenizado, ya que no se puede confiar en que las respuestas de la API sigan un formato coherente.

Pero este es el truco: la tokenización es una tarea vinculada a la CPU, especialmente cuando se hace para cada respuesta de streaming. Usos de la langosta veranetas para una concurrencia ligera, pero aún funcionan con Python Global Intérpretes Block (GIL). Eso significa que las operaciones que consumen mucha CPU, como la tokenización, pueden bloquear el ciclo de eventos, lo que reduce el rendimiento y sesga los resultados de los índices de referencia.

La combinación de un comportamiento de transmisión inconsistente y el GIL de Python hace que esto sea un important bottle neck in the performance en las configuraciones tradicionales de Locust.

3. Sin gráficos personalizados

¿Quieres trazar el rendimiento de streaming en TTFT? La interfaz de usuario de Locust no es compatible métricas LLM personalizadas listo para usar, lo que deja los datos clave invisibles durante las ejecuciones de prueba.

4. Las herramientas de la competencia son limitadas

Tools comme genai-perf son valiosos, pero a menudo proporcionan:

Instantáneas únicas de puntos de referencia
Configurabilidad limitada
Sin retroalimentación visual en tiempo real

Carecen de la flexibilidad iterativa y exploratoria necesaria en la evaluación comparativa del mundo real.

La solución: conozca el LLM Locust

LLM Locust combina la simplicidad de Locust con un profundo soporte para la evaluación comparativa específica de LLM. Inspirado en Banco LLM de BentoML, presenta una arquitectura modular y una interfaz personalizada para obtener información en tiempo real.

How work LLM Locust

1. Generación asincrónica de solicitudes
Los usuarios simulados envían solicitudes asincrónicas continuas a su API de LLM, imitando la carga del mundo real. Esto se ejecuta en un proceso de Python independiente, por lo que no hay cuellos de botella en la tokenización.

2. Colección Streaming Response
Las respuestas de LLM se transmiten por streaming y se dirigen a un metric demonio for a analysis and a Singles Analysis.

3. Procesamiento de métricas
El daemon tokeniza las respuestas, calcula el TTFT, los tokens/s y la latencia entre los tokens, y segmenta los resultados.

4. Agregación
Cada 2 segundos, los datos se envían a Backend de FastAPI que imita el backend de Locust, que almacena y agrega métricas a nivel mundial.

5. Visualización en tiempo real
Una versión personalizada de la interfaz de Locust muestra:

TTFT for request
Rendimiento de los tokens a lo largo del tiempo
📊 RPS, latencia y otras estadísticas clave

Esta es la arquitectura detallada:

He aquí una demostración de cómo se ve:

‍

Conclusión

Locust es una excelente herramienta de pruebas de carga, pero no para los LLM listos para usar.
LLM Locust ofrece la precisión de transmisión al nivel de token necesario para comparar adecuadamente los potentes modelos lingüísticos actuales.

Ya sea que esté implementando un modelo de código abierto en su propia infraestructura o comparando el rendimiento entre las API de LLM, LLM Locust le brinda la claridad, flexibilidad y control para hacerlo bien.

Github Link: https://github.com/truefoundry/llm-locust

Questions frecuentes

¿Qué es LLM Locust?

LLM Locust es una herramienta de evaluación comparativa de código abierto basada en el marco de Locust específicamente para evaluar modelos lingüísticos de gran tamaño. A diferencia de las herramientas estándar de pruebas de carga, mide métricas específicas de Genai, como el tiempo hasta el primer token (TTFT) y los tokens por segundo, para garantizar que sus modelos gestionen un elevado tráfico simultáneo en los entornos de producción.

¿Cómo ayuda LLM Locust a las pruebas de rendimiento de los modelos lingüísticos?

Proporciona una visibilidad profunda del comportamiento de los modelos bajo cargas pesadas y simultáneas al analizar las respuestas de transmisión y las tasas de generación de tokens. Estos datos permiten a los ingenieros optimizar la infraestructura, identificar los posibles cuellos de botella antes de la implementación y garantizar velocidades de respuesta uniformes para los usuarios finales en diversas configuraciones de hardware y motores de servicio.

¿Se puede usar Locust para cargar las API de LLM de prueba?

Sí, pero si bien Locust standard funciona para las API básicas, LLM Locust está diseñado específicamente para los requisitos únicos de la IA generativa. Realiza un seguimiento preciso de las respuestas de streaming y calcula el rendimiento de varias solicitudes simultáneas, lo que proporciona una imagen más clara de cómo se amplía un LLM en comparación con las herramientas tradicionales de pruebas de carga.

¿Cómo combinar LLM Locust con herramientas de observación como Langfuse?

La integración de LLM Locust con plataformas como Langfuse le permite visualizar los rastros de rendimiento durante las pruebas de alto estrés directamente en sus paneles. Puede correlacionar patrones de carga específicos con las fallas del modelo o los picos de latencia, lo que le permitirá obtener información detallada sobre la confiabilidad y la calidad de sus agentes autónomos bajo la presión del mundo real.

¿Cómo usar LLM Locust con TrueFoundry?

Ejecutar LLM Locust con TrueFoundry le permite comparar los modelos implementados en su nube privada. Puede probar fácilmente diferentes motores de servicio, como vLLM o TGI, para encontrar la configuración óptima para su hardware específico y garantizar que su implementación esté totalmente optimizada en términos de costo y velocidad.

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora