Falcon-40B im Leistungsvergleich

Published: April 30, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

In diesem Artikel vergleichen wir die Leistung von Falcon-40B-Instruct aus der Perspektive von Latenz, Kosten und Anfragen pro Sekunde. Dies hilft uns zu beurteilen, ob es aufgrund der Geschäftsanforderungen eine gute Wahl sein kann. Bitte beachten Sie, dass wir in diesem Artikel nicht auf die qualitative Leistung eingehen. Es gibt verschiedene Methoden zum Vergleich von LLMs, die Sie finden können hier.

Modell: Falcon-40B-Instruct

In diesem Blog haben wir das Falcon-40B-Instruct-Modell von tiiuae verglichen. Falcon-40B-Instruct ist ein reines Kausaldecoder-Modell mit 40B-Parametern, gebaut von TII basierend auf Falken-40 B und fein abgestimmt auf eine Mischung aus Baize. Es wird unter der Apache 2.0-Lizenz zur Verfügung gestellt.

tiiuae/falcon-40b-instruct · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

‍

Zu vergleichende Metriken

Anfragen pro Sekunde. (UMDREHUNGEN PRO SEKUNDE): Anfragen pro Sekunde, die das Modell verarbeitet. Bei höheren RPS steigt die Latenz normalerweise.
Latenz: Wie viel Zeit wird benötigt, um eine Inferenzanfrage abzuschließen?
Wirtschaftswissenschaften: Welche Kosten sind mit der Bereitstellung eines LLM verbunden?

Anwendungsfälle und Bereitstellungsmodi im Benchmarking

Die wichtigsten Faktoren, anhand derer wir verglichen haben, sind:

GPU-Typ:

4 x A100 40 GB GPU

Länge der Aufforderung:

1500 Eingangstoken, 100 Ausgangstoken (Ähnlich den Anwendungsfällen von Retrieval Augmented Generation)
50 Eingangstoken, 500 Ausgangstoken (Anwendungsfälle der Generation Heavy)

Einrichtung des Benchmarkings

Für das Benchmarking haben wir Locust verwendet, ein Open-Source-Tool zum Testen von Lasten. Locust arbeitet, indem es Benutzer/Worker erstellt, um Anfragen parallel zu senden. Zu Beginn jedes Tests können wir Folgendes festlegen Anzahl der Nutzer und Spawn-Rate. Hier die Anzahl der Nutzer gibt die maximale Anzahl von Benutzern an, die gleichzeitig spawnen/laufen können, wohingegen die Spawn-Rate gibt an, wie viele Benutzer pro Sekunde gestartet werden.

Bei jedem Benchmarking-Test für eine Bereitstellungskonfiguration begannen wir mit 1 Benutzer und erhöhte ständig den Anzahl der Nutzer allmählich, bis wir einen stetigen Anstieg des RPS sahen. Während des Tests haben wir auch das geplottet Reaktionszeiten (in ms) und Gesamtzahl der Anfragen pro Sekunde.

In jeder der beiden Bereitstellungskonfigurationen haben wir das Huggingface verwendet Inferenz zur Textgenerierung Modellserver mit Version=0.9.4. Im Folgenden sind die Parameter aufgeführt, die an den übergeben werden Inferenz zur Textgenerierung Bild für verschiedene Modellkonfigurationen:

‍

PARAMETERS	FALCON-40B-INSTRUCT ON A100
Max Batch Prefill Tokens	10000

‍

Zusammenfassung der Benchmarking-Ergebnisse

Latenz, RPS und Kosten

Wir berechnen die beste Latenz, indem wir jeweils nur eine Anfrage senden. Um den Durchsatz zu erhöhen, senden wir Anfragen parallel an das LLM. Der maximale Durchsatz ist der Fall, wenn das Modell in der Lage ist, die Eingabeanforderungen ohne signifikante Verschlechterung der Latenz zu verarbeiten.

Benchmarking-Ergebnisse für Falcon-40B-Instruct

Tokens pro Sekunde

LLMs verarbeiten Eingabe-Tokens und Generierung unterschiedlich — daher haben wir die Verarbeitungsrate der Eingabe-Tokens und der Ausgabe-Tokens unterschiedlich berechnet.

Detailierte Ergebnisse

4 x A100 40 GB GPU (1500 Eingaben + 100 Ausgangstoken)

Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 4,6 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 2,0 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 2,0 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.

4 x A100 40 GB GPU (50 Eingaben + 500 Ausgangstoken)

Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 20 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 2,5 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 2,5 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.

Hoffentlich ist dies hilfreich, damit Sie entscheiden können, ob Falcon-40B-Instruct für Ihren Anwendungsfall geeignet ist und welche Kosten Ihnen beim Hosten von Falcon-40B-Instruct entstehen können.

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo