Benchmarking Llama-2-70B

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
In diesem Artikel vergleichen wir die Leistung von Llama2-70B aus der Perspektive von Latenz, Kosten und Anfragen pro Sekunde. Auf diese Weise können wir anhand der Geschäftsanforderungen beurteilen, ob es eine gute Wahl sein kann. Bitte beachten Sie, dass wir in diesem Artikel nicht auf die qualitative Leistung eingehen. Es gibt verschiedene Methoden zum Vergleich von LLMs, die Sie finden können hier.
Modell: Llama2-70B
In diesem Blog haben wir die verglichen Lama-2-70B Modell von NOUS Research. Dies ist eine vortrainierte Version von Llama-2 mit 70 Milliarden Parametern.
Meta entwickelte und veröffentlichte die Llama 2-Familie großer Sprachmodelle (LLMs), eine Sammlung von vortrainierten und fein abgestimmten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern.
Zu vergleichende Metriken
- Anfragen pro Sekunde. (UMDREHUNGEN PRO SEKUNDE): Anfragen pro Sekunde, die das Modell verarbeitet. Bei höheren RPS steigt die Latenz normalerweise.
- Latenz: Wie viel Zeit wird benötigt, um eine Inferenzanfrage abzuschließen?
- Wirtschaftswissenschaften: Welche Kosten sind mit der Bereitstellung eines LLM verbunden?
Anwendungsfälle und Bereitstellungsmodi im Benchmarking
Die wichtigsten Faktoren, anhand derer wir verglichen haben, sind:
GPU-Typ:
- 4 x A100 40 GB GPU
Länge der Aufforderung:
- 1500 Eingangstoken, 100 Ausgangstoken (Ähnlich den Anwendungsfällen von Retrieval Augmented Generation)
- 50 Eingangstoken, 500 Ausgangstoken (Anwendungsfälle der Generation Heavy)
Einrichtung des Benchmarkings
Für das Benchmarking haben wir Locust verwendet, ein Open-Source-Tool zum Testen von Lasten. Locust arbeitet, indem es Benutzer/Worker erstellt, um Anfragen parallel zu senden. Zu Beginn jedes Tests können wir Folgendes festlegen Anzahl der Nutzer und Spawn-Rate. Hier die Anzahl der Nutzer gibt die maximale Anzahl von Benutzern an, die gleichzeitig spawnen/laufen können, wohingegen die Spawn-Rate gibt an, wie viele Benutzer pro Sekunde gestartet werden.
Bei jedem Benchmarking-Test für eine Bereitstellungskonfiguration begannen wir mit 1 Benutzer und erhöhte ständig den Anzahl der Nutzer allmählich, bis wir einen stetigen Anstieg des RPS sahen. Während des Tests haben wir auch das geplottet Reaktionszeiten (in ms) und Gesamtzahl der Anfragen pro Sekunde.
In jeder der beiden Bereitstellungskonfigurationen haben wir das Huggingface verwendet Inferenz zur Textgenerierung Modellserver mit Version=0.9.4. Im Folgenden sind die Parameter aufgeführt, die an den übergeben werden Inferenz zur Textgenerierung Bild für verschiedene Modellkonfigurationen:
Zusammenfassung der Benchmarking-Ergebnisse
Latenz, RPS und Kosten
Wir berechnen die beste Latenz, indem wir jeweils nur eine Anfrage senden. Um den Durchsatz zu erhöhen, senden wir Anfragen parallel an das LLM. Der maximale Durchsatz ist der Fall, wenn das Modell in der Lage ist, die Eingabeanforderungen ohne signifikante Verschlechterung der Latenz zu verarbeiten.

Tokens pro Sekunde
LLMs verarbeiten Eingabe-Tokens und Generierung unterschiedlich — daher haben wir die Verarbeitungsrate der Eingabe-Tokens und der Ausgabe-Tokens unterschiedlich berechnet.

Detailierte Ergebnisse
4 x A100 40 GB GPU (1500 Eingaben + 100 Ausgangstoken)


Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 7,4 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 1.1 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 1.1 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.
4 x A100 40 GB GPU (50 Eingaben + 500 Ausgangstoken)


Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 33 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 0,8 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 0,8 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.
Hoffentlich ist dies hilfreich, damit Sie entscheiden können, ob llama2-70B für Ihren Anwendungsfall geeignet ist und welche Kosten Ihnen beim Hosten von llama2-70B entstehen können.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren















.png)









.png)






.webp)

.webp)



