LLM Locust: una herramienta para comparar el rendimiento de LLM

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
¿Qué es el LLM Benchmarking?
Evaluación comparativa de LLM es el proceso de evaluar la eficiencia con la que funciona un servidor de inferencia de modelos de lenguaje grande (LLM) bajo carga. Va más allá de las pruebas de rendimiento tradicionales y se centra en las características de respuesta en tiempo real que afectan directamente a la experiencia del usuario y a la escalabilidad del sistema.
Estas son algunas de las métricas clave involucradas:
- Time to the first token (TTFT):
El retraso entre el envío de una solicitud y la recepción del primer símbolo de la respuesta. Esto refleja la latencia del procesamiento inicial del modelo. - Tokens de salida por segundo (tokens/s):
Mide la rapidez con la que el modelo genera los tokens de respuesta, lo que indica la velocidad de generación y la capacidad de respuesta del sistema. - Latencia entre los tokens:
El tiempo transcurrido entre los tokens consecutivos de una respuesta de streaming. Los valores más bajos indican resultados más fluidos y naturales en aplicaciones en tiempo real. - Solicitudes por segundo (RPS):
La cantidad de solicitudes de inferencia que un LLM puede gestionar por segundo, una medida esencial del rendimiento.
El seguimiento y el análisis de estas métricas son fundamentales para:
- Comparación de proveedores de LLM
- Optimización de las implementaciones en CPU, GPU o aceleradores especializados
- Ajustar las configuraciones del servidor para aplicaciones sensibles a la latencia
Ahí es donde LLM Locust entra.
Por qué las herramientas tradicionales de pruebas de carga como Locust no son suficientes para la evaluación comparativa de LLM (y cómo LLM Locust lo soluciona)
A medida que los LLM siguen impulsando más aplicaciones interactivas y en tiempo real, la evaluación comparativa de su rendimiento con precisión es más importante que nunca. Is well tools as Langosta son excelentes para las pruebas de carga tradicionales, se quedan cortas cuando se trata de la transmisión y la granularidad a nivel de token que requieren los LLM.
Entrar LLM Locust—una herramienta diseñada específicamente para cerrar esta brecha.
Por qué Locust es ideal para las pruebas de carga tradicionales
Demos crédito a lo que se debe. Locust sigue siendo una de las herramientas más queridas para realizar pruebas de carga debido a su:
- Secuencias de comandos nativas de Python: Flexible e intuitivo para la creación de escenarios de prueba
- Competencia ligera: Los Greenlets permiten miles de usuarios simulados
- Interfaz de usuario web en tiempo real: Sencillo y potente para monitorear las pruebas de carga en vivo
For API or standard services, is a fantastic option. ¿Pero para los LLM? No lo suficiente.
El problema: los LLM rompen el molde de las pruebas de carga
1. No hay soporte para métricas específicas de LLM
Locust no rastrea de forma nativa los indicadores de rendimiento específicos de LLM, como:
- Time until the first token (TTFT)
- Second Output Tokens
- Latencia entre fichas
Estas dinámicas de transmisión son fundamentales para comprender qué tan bien funciona un LLM, especialmente en casos de uso en tiempo real.
2. Inconsistencia en la transmisión de tokens y cuellos de botella en la CPU
Las API de LLM suelen transmitir los tokens de forma inconsistente; algunas devuelven cero fichas al principio, other envían un token a la vez, y algunos entregan varios tokens en un solo fragmento.
Para medir los tokens de salida con precisión, las respuestas deben ser retokenizado, ya que no se puede confiar en que las respuestas de la API sigan un formato coherente.
Pero este es el truco: la tokenización es una tarea vinculada a la CPU, especialmente cuando se hace para cada respuesta de streaming. Usos de la langosta veranetas para una concurrencia ligera, pero aún funcionan con Python Global Intérpretes Block (GIL). Eso significa que las operaciones que consumen mucha CPU, como la tokenización, pueden bloquear el ciclo de eventos, lo que reduce el rendimiento y sesga los resultados de los índices de referencia.
La combinación de un comportamiento de transmisión inconsistente y el GIL de Python hace que esto sea un important bottle neck in the performance en las configuraciones tradicionales de Locust.
3. Sin gráficos personalizados
¿Quieres trazar el rendimiento de streaming en TTFT? La interfaz de usuario de Locust no es compatible métricas LLM personalizadas listo para usar, lo que deja los datos clave invisibles durante las ejecuciones de prueba.
4. Las herramientas de la competencia son limitadas
Tools comme genai-perf son valiosos, pero a menudo proporcionan:
- Instantáneas únicas de puntos de referencia
- Configurabilidad limitada
- Sin retroalimentación visual en tiempo real
Carecen de la flexibilidad iterativa y exploratoria necesaria en la evaluación comparativa del mundo real.
La solución: conozca el LLM Locust
LLM Locust combina la simplicidad de Locust con un profundo soporte para la evaluación comparativa específica de LLM. Inspirado en Banco LLM de BentoML, presenta una arquitectura modular y una interfaz personalizada para obtener información en tiempo real.
How work LLM Locust
1. Generación asincrónica de solicitudes
Los usuarios simulados envían solicitudes asincrónicas continuas a su API de LLM, imitando la carga del mundo real. Esto se ejecuta en un proceso de Python independiente, por lo que no hay cuellos de botella en la tokenización.
2. Colección Streaming Response
Las respuestas de LLM se transmiten por streaming y se dirigen a un metric demonio for a analysis and a Singles Analysis.
3. Procesamiento de métricas
El daemon tokeniza las respuestas, calcula el TTFT, los tokens/s y la latencia entre los tokens, y segmenta los resultados.
4. Agregación
Cada 2 segundos, los datos se envían a Backend de FastAPI que imita el backend de Locust, que almacena y agrega métricas a nivel mundial.
5. Visualización en tiempo real
Una versión personalizada de la interfaz de Locust muestra:
- TTFT for request
- Rendimiento de los tokens a lo largo del tiempo
- 📊 RPS, latencia y otras estadísticas clave
Esta es la arquitectura detallada:

He aquí una demostración de cómo se ve:


Conclusión
Locust es una excelente herramienta de pruebas de carga, pero no para los LLM listos para usar.
LLM Locust ofrece la precisión de transmisión al nivel de token necesario para comparar adecuadamente los potentes modelos lingüísticos actuales.
Ya sea que esté implementando un modelo de código abierto en su propia infraestructura o comparando el rendimiento entre las API de LLM, LLM Locust le brinda la claridad, flexibilidad y control para hacerlo bien.
Github Link: https://github.com/truefoundry/llm-locust
Questions frecuentes
¿Qué es LLM Locust?
LLM Locust es una herramienta de evaluación comparativa de código abierto basada en el marco de Locust específicamente para evaluar modelos lingüísticos de gran tamaño. A diferencia de las herramientas estándar de pruebas de carga, mide métricas específicas de Genai, como el tiempo hasta el primer token (TTFT) y los tokens por segundo, para garantizar que sus modelos gestionen un elevado tráfico simultáneo en los entornos de producción.
¿Cómo ayuda LLM Locust a las pruebas de rendimiento de los modelos lingüísticos?
Proporciona una visibilidad profunda del comportamiento de los modelos bajo cargas pesadas y simultáneas al analizar las respuestas de transmisión y las tasas de generación de tokens. Estos datos permiten a los ingenieros optimizar la infraestructura, identificar los posibles cuellos de botella antes de la implementación y garantizar velocidades de respuesta uniformes para los usuarios finales en diversas configuraciones de hardware y motores de servicio.
¿Se puede usar Locust para cargar las API de LLM de prueba?
Sí, pero si bien Locust standard funciona para las API básicas, LLM Locust está diseñado específicamente para los requisitos únicos de la IA generativa. Realiza un seguimiento preciso de las respuestas de streaming y calcula el rendimiento de varias solicitudes simultáneas, lo que proporciona una imagen más clara de cómo se amplía un LLM en comparación con las herramientas tradicionales de pruebas de carga.
¿Cómo combinar LLM Locust con herramientas de observación como Langfuse?
La integración de LLM Locust con plataformas como Langfuse le permite visualizar los rastros de rendimiento durante las pruebas de alto estrés directamente en sus paneles. Puede correlacionar patrones de carga específicos con las fallas del modelo o los picos de latencia, lo que le permitirá obtener información detallada sobre la confiabilidad y la calidad de sus agentes autónomos bajo la presión del mundo real.
¿Cómo usar LLM Locust con TrueFoundry?
Ejecutar LLM Locust con TrueFoundry le permite comparar los modelos implementados en su nube privada. Puede probar fácilmente diferentes motores de servicio, como vLLM o TGI, para encontrar la configuración óptima para su hardware específico y garantizar que su implementación esté totalmente optimizada en términos de costo y velocidad.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA















.png)


.webp)




.webp)







