Benchmarking beliebter OpenSource-LLMs: Llama2, Falcon und Mistral

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
In diesem Blog zeigen wir die Zusammenfassung verschiedener Open-Source-LLMs, die wir verglichen haben. Wir haben diese Modelle im Hinblick auf Latenz, Kosten und Anfragen pro Sekunde verglichen. Auf diese Weise können Sie anhand der Geschäftsanforderungen beurteilen, ob dies eine gute Wahl sein kann. Bitte beachten Sie, dass wir in diesem Artikel nicht auf die qualitative Leistung eingehen. Es gibt verschiedene Methoden, um LLMs zu vergleichen hier.
Anwendungsfälle im Benchmarking
Die wichtigsten Anwendungsfälle, für die wir ein Benchmarking durchgeführt haben, sind:
- 1500 Eingangstoken, 100 Ausgangstoken (Ähnlich den Anwendungsfällen von Retrieval Augmented Generation)
- 50 Eingangstoken, 500 Ausgangstoken (Anwendungsfälle der Generation Heavy)
Einrichtung des Benchmarkings
Für das Benchmarking haben wir Locust verwendet, ein Open-Source-Tool zum Testen von Lasten. Locust arbeitet, indem es Benutzer/Worker erstellt, um Anfragen parallel zu senden. Zu Beginn jedes Tests können wir Folgendes festlegen Anzahl der Nutzer und Spawn-Rate. Hier die Anzahl der Nutzer gibt die maximale Anzahl von Benutzern an, die gleichzeitig spawnen/laufen können, wohingegen die Spawn-Rate gibt an, wie viele Benutzer pro Sekunde gestartet werden.
Bei jedem Benchmarking-Test für eine Bereitstellungskonfiguration begannen wir mit 1 Benutzer und erhöhte ständig den Anzahl der Nutzer allmählich, bis wir einen stetigen Anstieg des RPS sahen. Während des Tests haben wir auch das geplottet Reaktionszeiten (in ms) und Gesamtzahl der Anfragen pro Sekunde.
In jeder der beiden Bereitstellungskonfigurationen haben wir das Huggingface verwendet Inferenz zur Textgenerierung Modellserver mit Version=0.9.4. Im Folgenden sind die Parameter aufgeführt, die an den übergeben werden Inferenz zur Textgenerierung Bild für verschiedene Modellkonfigurationen:
LLMs im Benchmarking
Die 5 Open-Source-LLMs, die als Benchmark bewertet wurden, lauten wie folgt:
Die folgende Tabelle zeigt eine Zusammenfassung der Benchmarking-LLMs:
Einzelheiten zu den LLM-Benchmarking-Blogs zu den einzelnen LLMs
Lesen Sie für jedes der oben genannten Modelle die detaillierten LLM-Benchmarking-Blogs, wie unten dargestellt:
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren















.png)




.png)






.webp)

.webp)



