Benchmarking beliebter OpenSource-LLMs: Llama2, Falcon und Mistral

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

In diesem Blog zeigen wir die Zusammenfassung verschiedener Open-Source-LLMs, die wir verglichen haben. Wir haben diese Modelle im Hinblick auf Latenz, Kosten und Anfragen pro Sekunde verglichen. Auf diese Weise können Sie anhand der Geschäftsanforderungen beurteilen, ob dies eine gute Wahl sein kann. Bitte beachten Sie, dass wir in diesem Artikel nicht auf die qualitative Leistung eingehen. Es gibt verschiedene Methoden, um LLMs zu vergleichen hier.

Anwendungsfälle im Benchmarking

Die wichtigsten Anwendungsfälle, für die wir ein Benchmarking durchgeführt haben, sind:

1500 Eingangstoken, 100 Ausgangstoken (Ähnlich den Anwendungsfällen von Retrieval Augmented Generation)
50 Eingangstoken, 500 Ausgangstoken (Anwendungsfälle der Generation Heavy)

Einrichtung des Benchmarkings

Für das Benchmarking haben wir Locust verwendet, ein Open-Source-Tool zum Testen von Lasten. Locust arbeitet, indem es Benutzer/Worker erstellt, um Anfragen parallel zu senden. Zu Beginn jedes Tests können wir Folgendes festlegen Anzahl der Nutzer und Spawn-Rate. Hier die Anzahl der Nutzer gibt die maximale Anzahl von Benutzern an, die gleichzeitig spawnen/laufen können, wohingegen die Spawn-Rate gibt an, wie viele Benutzer pro Sekunde gestartet werden.

Bei jedem Benchmarking-Test für eine Bereitstellungskonfiguration begannen wir mit 1 Benutzer und erhöhte ständig den Anzahl der Nutzer allmählich, bis wir einen stetigen Anstieg des RPS sahen. Während des Tests haben wir auch das geplottet Reaktionszeiten (in ms) und Gesamtzahl der Anfragen pro Sekunde.

In jeder der beiden Bereitstellungskonfigurationen haben wir das Huggingface verwendet Inferenz zur Textgenerierung Modellserver mit Version=0.9.4. Im Folgenden sind die Parameter aufgeführt, die an den übergeben werden Inferenz zur Textgenerierung Bild für verschiedene Modellkonfigurationen:

LLMs im Benchmarking

Die 5 Open-Source-LLMs, die als Benchmark bewertet wurden, lauten wie folgt:

Die folgende Tabelle zeigt eine Zusammenfassung der Benchmarking-LLMs:

MODEL	INPUT / OUTPUT TOKENS	CONCURRENT USERS / THROUGHPUT	GPU TYPE	AWS MACHINE TYPE (COST/HR) REGION: US-EAST-1	GCP MACHINE TYPE (COST/HR) REGION: US-EAST4	AZURE MACHINE TYPE (COST/HR) REGION: EAST US (VIRGINIA)	SAGEMAKER INSTANCE TYPE (COST/HR) REGION: US-EAST-1
Mistral 7b	1500 Input, 100 Output	7 users / 2.8	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
Mistral 7b	50 Input, 500 Output	40 users / 1.5	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 7b	1500 Input, 100 Output	20 users / 3.6	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 7b	50 Input, 500 Output	62 users / 3.5	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 13b	1500 Input, 100 Output	7 users / 1.4	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 13b	50 Input, 500 Output	23 users / 1.5	A100 40 GB (Count: 1)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr)	Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 70b	1500 Input, 100 Output	15 users / 1.1	A100 40 GB (Count: 4)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr)	Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 70b	50 Input, 500 Output	38 users / 0.8	A100 40 GB (Count: 4)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr)	Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
Falcon 40b	1500 Input, 100 Output	16 users / 2	A100 40 GB (Count: 4)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr)	Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)
Falcon 40b	50 Input, 500 Output	75 users / 2.5	A100 40 GB (Count: 4)	p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr)	a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr)	Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr)	ml.p4d.24xlarge (On-Demand: $37.68/hr)

Einzelheiten zu den LLM-Benchmarking-Blogs zu den einzelnen LLMs

Lesen Sie für jedes der oben genannten Modelle die detaillierten LLM-Benchmarking-Blogs, wie unten dargestellt:

Benchmarking Mistral-7B

This blog captures Mistral-7B benchmarks - where a model excels and the areas where it struggles. Make informed decisions about its practical deployment.

TrueFoundry Blog Truefoundry

‍

Benchmarking Llama-2-7B

This blog captures Llama 2 7B benchmarks - where a model excels and the areas where it struggles. Make informed decisions about its practical deployment. In this blog, we have benchmarked the Llama-2-7B model from NousResearch on huggingface.

TrueFoundry Blog Truefoundry

‍

Benchmarking Llama-2-13B

This blog captures Llama 2-13B benchmarks - where a model excels and the areas where it struggles. Make informed decisions about its practical deployment.

TrueFoundry Blog Truefoundry

‍

Benchmarking Llama-2-70B

This blog captures Llama-2-70B benchmarks - where a model excels and the areas where it struggles. Make informed decisions about its practical deployment.

TrueFoundry Blog Truefoundry

‍

Benchmarking Falcon-40B

This blog captures Falcon-40B-Instruct benchmarks - where a model excels and the areas where it struggles. Make informed decisions about its practical deployment.

TrueFoundry Blog Truefoundry

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo