Falcon-40B im Leistungsvergleich

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
In diesem Artikel vergleichen wir die Leistung von Falcon-40B-Instruct aus der Perspektive von Latenz, Kosten und Anfragen pro Sekunde. Dies hilft uns zu beurteilen, ob es aufgrund der Geschäftsanforderungen eine gute Wahl sein kann. Bitte beachten Sie, dass wir in diesem Artikel nicht auf die qualitative Leistung eingehen. Es gibt verschiedene Methoden zum Vergleich von LLMs, die Sie finden können hier.
Modell: Falcon-40B-Instruct
In diesem Blog haben wir das Falcon-40B-Instruct-Modell von tiiuae verglichen. Falcon-40B-Instruct ist ein reines Kausaldecoder-Modell mit 40B-Parametern, gebaut von TII basierend auf Falken-40 B und fein abgestimmt auf eine Mischung aus Baize. Es wird unter der Apache 2.0-Lizenz zur Verfügung gestellt.
Zu vergleichende Metriken
- Anfragen pro Sekunde. (UMDREHUNGEN PRO SEKUNDE): Anfragen pro Sekunde, die das Modell verarbeitet. Bei höheren RPS steigt die Latenz normalerweise.
- Latenz: Wie viel Zeit wird benötigt, um eine Inferenzanfrage abzuschließen?
- Wirtschaftswissenschaften: Welche Kosten sind mit der Bereitstellung eines LLM verbunden?
Anwendungsfälle und Bereitstellungsmodi im Benchmarking
Die wichtigsten Faktoren, anhand derer wir verglichen haben, sind:
GPU-Typ:
- 4 x A100 40 GB GPU
Länge der Aufforderung:
- 1500 Eingangstoken, 100 Ausgangstoken (Ähnlich den Anwendungsfällen von Retrieval Augmented Generation)
- 50 Eingangstoken, 500 Ausgangstoken (Anwendungsfälle der Generation Heavy)
Einrichtung des Benchmarkings
Für das Benchmarking haben wir Locust verwendet, ein Open-Source-Tool zum Testen von Lasten. Locust arbeitet, indem es Benutzer/Worker erstellt, um Anfragen parallel zu senden. Zu Beginn jedes Tests können wir Folgendes festlegen Anzahl der Nutzer und Spawn-Rate. Hier die Anzahl der Nutzer gibt die maximale Anzahl von Benutzern an, die gleichzeitig spawnen/laufen können, wohingegen die Spawn-Rate gibt an, wie viele Benutzer pro Sekunde gestartet werden.
Bei jedem Benchmarking-Test für eine Bereitstellungskonfiguration begannen wir mit 1 Benutzer und erhöhte ständig den Anzahl der Nutzer allmählich, bis wir einen stetigen Anstieg des RPS sahen. Während des Tests haben wir auch das geplottet Reaktionszeiten (in ms) und Gesamtzahl der Anfragen pro Sekunde.
In jeder der beiden Bereitstellungskonfigurationen haben wir das Huggingface verwendet Inferenz zur Textgenerierung Modellserver mit Version=0.9.4. Im Folgenden sind die Parameter aufgeführt, die an den übergeben werden Inferenz zur Textgenerierung Bild für verschiedene Modellkonfigurationen:
Zusammenfassung der Benchmarking-Ergebnisse
Latenz, RPS und Kosten
Wir berechnen die beste Latenz, indem wir jeweils nur eine Anfrage senden. Um den Durchsatz zu erhöhen, senden wir Anfragen parallel an das LLM. Der maximale Durchsatz ist der Fall, wenn das Modell in der Lage ist, die Eingabeanforderungen ohne signifikante Verschlechterung der Latenz zu verarbeiten.

Tokens pro Sekunde
LLMs verarbeiten Eingabe-Tokens und Generierung unterschiedlich — daher haben wir die Verarbeitungsrate der Eingabe-Tokens und der Ausgabe-Tokens unterschiedlich berechnet.

Detailierte Ergebnisse
4 x A100 40 GB GPU (1500 Eingaben + 100 Ausgangstoken)


Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 4,6 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 2,0 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 2,0 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.
4 x A100 40 GB GPU (50 Eingaben + 500 Ausgangstoken)


Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 20 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 2,5 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 2,5 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.
Hoffentlich ist dies hilfreich, damit Sie entscheiden können, ob Falcon-40B-Instruct für Ihren Anwendungsfall geeignet ist und welche Kosten Ihnen beim Hosten von Falcon-40B-Instruct entstehen können.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren















.png)




.png)






.webp)

.webp)



