LLM Locust: Ein Tool zum Benchmarking der LLM-Leistung

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
Was ist LLM Benchmarking?
LLM-Benchmarking ist der Prozess der Bewertung, wie effizient ein LLM-Inferenzserver (Large Language Model) unter Last arbeitet. Es geht über herkömmliche Leistungstests hinaus und konzentriert sich auf Reaktionsmerkmale in Echtzeit, die sich direkt auf das Benutzererlebnis und die Systemskalierbarkeit auswirken.
Hier sind einige der wichtigsten Kennzahlen aufgeführt:
- Zeit bis zum ersten Token (TTFT):
Die Verzögerung zwischen dem Senden einer Anfrage und dem Empfangen des ersten Tokens der Antwort. Dies spiegelt die anfängliche Verarbeitungslatenz des Modells wider. - Ausgabe-Tokens pro Sekunde (Token/s):
Misst, wie schnell das Modell Antwort-Token generiert, was die Generierungsgeschwindigkeit und die Reaktionsfähigkeit des Systems angibt. - Latenz zwischen den Token:
Die Zeit zwischen aufeinanderfolgenden Tokens in einer Streaming-Antwort. Niedrigere Werte deuten auf eine gleichmäßigere, natürlichere Ausgabe bei Echtzeitanwendungen hin. - Anfragen pro Sekunde (RPS):
Die Anzahl der Inferenzanforderungen, die ein LLM pro Sekunde verarbeiten kann — ein wesentliches Maß für den Durchsatz.
Die Verfolgung und Analyse dieser Kennzahlen ist entscheidend für:
- LLM-Anbieter im Vergleich
- Optimierung von Bereitstellungen auf CPUs, GPUs oder speziellen Beschleunigern
- Feinabstimmung der Serverkonfigurationen für latenzempfindliche Anwendungen
Das ist wo LLM Heuschrecke kommt rein.
Warum herkömmliche Lasttesttools wie Locust für LLM-Benchmarking nicht ausreichen (und wie LLM Locust das behebt)
Da LLMs immer mehr Echtzeit- und interaktive Anwendungen unterstützen, ist es wichtiger denn je, ihre Leistung genau zu vergleichen. Während Tools wie Heuschrecke eignen sich hervorragend für traditionelle Belastungstests. Sie sind unzureichend, wenn es um das Streaming geht, die Granularität auf Token-Ebene, die LLMs erfordern.
Geben Sie ein LLM Heuschrecke—ein Tool, das speziell dafür entwickelt wurde, diese Lücke zu schließen.
Warum Locust ideal für traditionelle Belastungstests ist
Lassen Sie uns Anerkennung zollen, wo sie fällig ist. Locust ist nach wie vor eines der beliebtesten Tools für Belastungstests, und zwar aus folgenden Gründen:
- Python-natives Scripting: Flexibel und intuitiv für die Erstellung von Testszenarien
- Leichte Parallelität: Greenlets ermöglichen Tausende von simulierten Benutzern
- Web-UI in Echtzeit: Einfach und leistungsstark für die Live-Überwachung von Lasttests
Für Standard-APIs oder -Dienste ist es eine fantastische Wahl. Aber für LLMs? Nicht ganz genug.
Das Problem: LLMs sprengen die Grenzen der Belastungstests
1. Keine Unterstützung für LLM-spezifische Metriken
Locust verfolgt nicht nativ LLM-spezifische Leistungsindikatoren wie:
- Zeit bis zum ersten Token (TTFT)
- Ausgabe-Tokens pro Sekunde
- Latenz zwischen den Token
Diese Streaming-Dynamik ist grundlegend, um zu verstehen, wie gut ein LLM abschneidet, insbesondere in Anwendungsfällen in Echtzeit.
2. Inkonsistenz beim Token-Streaming + CPU-Engpässe
LLM-APIs streamen Token oft inkonsistent — einige kehren zurück zuerst null Tokens, andere senden ein Token nach dem anderen, und manche liefern mehrere Tokens in einem einzigen Chunk.
Um die Output-Token genau zu messen, müssen die Antworten retokenisiert, da den API-Antworten nicht vertraut werden kann, dass sie einem konsistenten Format folgen.
Aber hier ist der Haken: Tokenisierung ist eine CPU-gebundene Aufgabe, vor allem, wenn es für jede Streaming-Antwort getan wird. Locust verwendet Grünlinge für leichte Parallelität, aber sie funktionieren immer noch unter Pythons Globale Interpretersperre (GIL). Das bedeutet, dass CPU-lastige Operationen wie die Tokenisierung blockiere die Event-Schleife, was den Durchsatz reduziert und Ihre Benchmark-Ergebnisse verzerrt.
Die Kombination aus inkonsistentem Streaming-Verhalten und Pythons GIL macht dies zu einem erheblicher Leistungsengpass in traditionellen Locust-Setups.
3. Keine benutzerdefinierten Diagramme
Möchten Sie den TTFT- oder Streaming-Durchsatz plotten? Die Benutzeroberfläche von Locust unterstützt nicht benutzerdefinierte LLM-Metriken sofort einsatzbereit, sodass wichtige Daten während der Testläufe unsichtbar bleiben.
4. Konkurrierende Tools sind begrenzt
Tools wie genai-perf sind wertvoll, bieten aber oft:
- Einmalige Benchmark-Snapshots
- Eingeschränkte Konfigurierbarkeit
- Kein visuelles Feedback in Echtzeit
Ihnen fehlt die iterative, explorative Flexibilität, die für Benchmarking in der realen Welt erforderlich ist.
Die Lösung: Lernen Sie LLM Locust kennen
LLM Locust kombiniert die Einfachheit von Locust mit umfassender Unterstützung für LLM-spezifisches Benchmarking. Inspiriert von BenTomls LLM-Bank, es führt eine modulare Architektur und ein benutzerdefiniertes Frontend für Einblicke in Echtzeit ein.
So funktioniert LLM Locust
1. Asynchrone Generierung von Anfragen
Simulierte Benutzer senden kontinuierlich asynchrone Anfragen an Ihre LLM-API und ahmen so die reale Last nach. Dies wird auf einem separaten Python-Prozess ausgeführt, sodass es keine Engpässe bei der Tokenisierung gibt.
2. Erfassung von Streaming-Antworten
LLM-Antworten werden gestreamt und an eine weitergeleitet Metrik-Daemon für leichtes Parsen und Analysieren.
3. Verarbeitung von Metriken
Der Daemon tokenisiert Antworten, berechnet TTFT, Tokens/s und die Latenz zwischen den Token und fasst die Ergebnisse in einem Bucket zusammen.
4. Aggregation
Alle 2 Sekunden werden Daten an einen gesendet FastAPI-Backend welches das Locust-Backend nachahmt, das Metriken global speichert und aggregiert.
5. Visualisierung in Echtzeit
Eine angepasste Version des Locust-Frontends zeigt:
- TTFT pro Anfrage
- Token-Durchsatz im Zeitverlauf
- 📊 RPS, Latenz und andere wichtige Statistiken
Hier ist die detaillierte Architektur:

Hier ist eine Demo, wie es aussieht:


Fazit
Locust ist ein großartiges Tool zum Testen von Lasten — aber nicht für sofort einsatzbereite LLMs.
LLM Heuschrecke bietet die Streaming-Präzision auf Token-Ebene, die für ein angemessenes Benchmarking der heutigen leistungsstarken Sprachmodelle erforderlich ist.
Egal, ob Sie ein Open-Source-Modell auf Ihrer eigenen Infrastruktur bereitstellen oder die Leistung verschiedener LLM-APIs vergleichen, LLM Locust bietet Ihnen Klarheit, Flexibilität und Kontrolle um es richtig zu machen.
Link zu Github: https://github.com/truefoundry/llm-locust
Häufig gestellte Fragen
Was ist LLM Locust?
LLM Locust ist ein Open-Source-Benchmarking-Tool, das auf dem Locust-Framework speziell für die Bewertung von Large Language Models basiert. Im Gegensatz zu herkömmlichen Lasttesting-Tools misst es GENAI-spezifische Metriken wie Time to First Token (TTFT) und Tokens pro Sekunde, um sicherzustellen, dass Ihre Modelle den hohen gleichzeitigen Verkehr in Produktionsumgebungen bewältigen.
Wie hilft LLM Locust bei Leistungstests von Sprachmodellen?
Es bietet einen umfassenden Einblick in das Verhalten von Modellen unter hohen, gleichzeitigen Belastungen, indem es Streaming-Antworten und Token-Generierungsraten analysiert. Diese Daten ermöglichen es Ingenieuren, die Infrastruktur zu optimieren, potenzielle Engpässe vor der Bereitstellung zu identifizieren und Endbenutzern über verschiedene Hardware- und Servermodulkonfigurationen hinweg gleichbleibende Reaktionsgeschwindigkeiten zu gewährleisten.
Kann Locust zum Laden von LLM-APIs verwendet werden?
Ja, aber während Standard-Locust für grundlegende APIs funktioniert, wurde LLM Locust speziell für die einzigartigen Anforderungen generativer KI entwickelt. Es verfolgt Streaming-Antworten genau und berechnet den Durchsatz mehrerer gleichzeitiger Anfragen. So erhalten Sie im Vergleich zu herkömmlichen Lasttesting-Tools ein klareres Bild davon, wie ein LLM skaliert.
Wie kombiniere ich LLM Locust mit Observability-Tools wie Langfuse?
Durch die Integration von LLM Locust in Plattformen wie Langfuse können Sie Leistungsverläufe bei Hochbelastungstests direkt auf Ihren Dashboards visualisieren. Sie können bestimmte Lastmuster mit Modellfehlern oder Latenzspitzen korrelieren und erhalten so tiefe Einblicke in die Zuverlässigkeit und Qualität Ihrer autonomen Agenten, die unter realem Druck stehen.
Wie verwende ich LLM Locust mit TrueFoundry?
Wenn Sie LLM Locust mit TrueFoundry ausführen, können Sie Modelle, die in Ihrer privaten Cloud bereitgestellt werden, vergleichen. Sie können ganz einfach verschiedene Server-Engines wie vLLM oder TGI testen, um die optimale Konfiguration für Ihre spezifische Hardware zu finden und sicherzustellen, dass Ihre Bereitstellung hinsichtlich Kosten und Geschwindigkeit vollständig optimiert ist.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren











.png)




.png)






.webp)

.webp)



