Benchmarking von Llama-2-13B

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

In diesem Artikel vergleichen wir die Leistung von Llama2-13B aus der Perspektive von Latenz, Kosten und Anfragen pro Sekunde. Auf dieser Grundlage können wir anhand der Geschäftsanforderungen beurteilen, ob dies eine gute Wahl sein kann. Bitte beachten Sie, dass wir in diesem Artikel nicht auf die qualitative Leistung eingehen. Es gibt verschiedene Methoden zum Vergleich von LLMs, die Sie finden können hier.

Modell: Llama2-13B

In diesem Blog haben wir die verglichen Lama-2-13B Modell von NOUS Research. Dies ist eine vortrainierte Version von Llama-2 mit 13 Milliarden Parametern.

NousResearch/Llama-2-13b-hf · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

‍

Meta entwickelte und veröffentlichte die Llama 2-Familie großer Sprachmodelle (LLMs), eine Sammlung von vortrainierten und fein abgestimmten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern.

Zu vergleichende Metriken

Anfragen pro Sekunde. (UMDREHUNGEN PRO SEKUNDE): Anfragen pro Sekunde, die das Modell verarbeitet. Bei höheren RPS steigt die Latenz normalerweise.
Latenz: Wie viel Zeit wird benötigt, um eine Inferenzanfrage abzuschließen?
Wirtschaftswissenschaften: Welche Kosten sind mit der Bereitstellung eines LLM verbunden?

Anwendungsfälle und Bereitstellungsmodi im Benchmarking

Die wichtigsten Faktoren, anhand derer wir verglichen haben, sind:

GPU-Typ:

A100 40 GB GPU
2 x A10 24 GB GPU

Länge der Aufforderung:

1500 Eingangstoken, 100 Ausgangstoken (Ähnlich den Anwendungsfällen von Retrieval Augmented Generation)
50 Eingangstoken, 500 Ausgangstoken (Anwendungsfälle der Generation Heavy)

Einrichtung des Benchmarkings

Für das Benchmarking haben wir Locust verwendet, ein Open-Source-Tool zum Testen von Lasten. Locust arbeitet, indem es Benutzer/Worker erstellt, um Anfragen parallel zu senden. Zu Beginn jedes Tests können wir Folgendes festlegen Anzahl der Nutzer und Spawn-Rate. Hier die Anzahl der Nutzer gibt die maximale Anzahl von Benutzern an, die gleichzeitig spawnen/laufen können, wohingegen die Spawn-Rate gibt an, wie viele Benutzer pro Sekunde gestartet werden.

Bei jedem Benchmarking-Test für eine Bereitstellungskonfiguration begannen wir mit 1 Benutzer und erhöhte ständig den Anzahl der Nutzer allmählich, bis wir einen stetigen Anstieg des RPS sahen. Während des Tests haben wir auch das geplottet Reaktionszeiten (in ms) und Gesamtzahl der Anfragen pro Sekunde.

In jeder der beiden Bereitstellungskonfigurationen haben wir das Huggingface verwendet Inferenz zur Textgenerierung Modellserver mit Version=0.9.4. Im Folgenden sind die Parameter aufgeführt, die an den übergeben werden Inferenz zur Textgenerierung Bild für verschiedene Modellkonfigurationen:

‍

PARAMETERS	LLAMA-2-13B ON A100	LLAMA-2-13B ON A10G
Max Batch Prefill Tokens	10100	10100

‍

Zusammenfassung der Benchmarking-Ergebnisse

Latenz, RPS und Kosten

Wir berechnen die beste Latenz, indem wir jeweils nur eine Anfrage senden. Um den Durchsatz zu erhöhen, senden wir Anfragen parallel an das LLM. Der maximale Durchsatz ist der Fall, wenn das Modell in der Lage ist, die Eingabeanforderungen ohne signifikante Verschlechterung der Latenz zu verarbeiten.

Tokens pro Sekunde

LLMs verarbeiten Eingabe-Tokens und Generierung unterschiedlich — daher haben wir die Verarbeitungsrate der Eingabe-Tokens und der Ausgabe-Tokens unterschiedlich berechnet.

Detailierte Ergebnisse

2 x A10 24-GB-GPU (1500 Eingaben + 100 Ausgangstoken)

Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 4,5 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 0,8 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 0,8 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.

2 x A10 24-GB-GPU (50 Eingangs- und 500 Ausgangstoken)

Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 17 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 0,6 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 0,6 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.

A100 40 GB GPU (1500 Eingaben + 100 Ausgangstoken)

Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 3,3 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 1.4 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 1.4 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.

A100 40 GB GPU (50 Eingabe- + 500 Ausgangstoken)

Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 13 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 1.2 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 1.2 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.

Hoffentlich ist dies hilfreich, damit Sie entscheiden können, ob Llama2-13B für Ihren Anwendungsfall geeignet ist und welche Kosten Ihnen beim Hosten von Llama2-13B entstehen können.

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo