Blank white background with no objects or features visible.

TrueFoundry kündigt die Übernahme von Seldon AI an und erweitert damit seine Control Plane für Enterprise-KI. Vollständigen Bericht lesen →

Benchmarking beliebter OpenSource-LLMs: Llama2, Falcon und Mistral

von TrueFoundry

Published: April 22, 2026

In diesem Blog zeigen wir die Zusammenfassung verschiedener Open-Source-LLMs, die wir verglichen haben. Wir haben diese Modelle im Hinblick auf Latenz, Kosten und Anfragen pro Sekunde verglichen. Auf diese Weise können Sie anhand der Geschäftsanforderungen beurteilen, ob dies eine gute Wahl sein kann. Bitte beachten Sie, dass wir in diesem Artikel nicht auf die qualitative Leistung eingehen. Es gibt verschiedene Methoden, um LLMs zu vergleichen hier.

Anwendungsfälle im Benchmarking

Die wichtigsten Anwendungsfälle, für die wir ein Benchmarking durchgeführt haben, sind:

  1. 1500 Eingangstoken, 100 Ausgangstoken (Ähnlich den Anwendungsfällen von Retrieval Augmented Generation)
  2. 50 Eingangstoken, 500 Ausgangstoken (Anwendungsfälle der Generation Heavy)

Einrichtung des Benchmarkings

Für das Benchmarking haben wir Locust verwendet, ein Open-Source-Tool zum Testen von Lasten. Locust arbeitet, indem es Benutzer/Worker erstellt, um Anfragen parallel zu senden. Zu Beginn jedes Tests können wir Folgendes festlegen Anzahl der Nutzer und Spawn-Rate. Hier die Anzahl der Nutzer gibt die maximale Anzahl von Benutzern an, die gleichzeitig spawnen/laufen können, wohingegen die Spawn-Rate gibt an, wie viele Benutzer pro Sekunde gestartet werden.

Bei jedem Benchmarking-Test für eine Bereitstellungskonfiguration begannen wir mit 1 Benutzer und erhöhte ständig den Anzahl der Nutzer allmählich, bis wir einen stetigen Anstieg des RPS sahen. Während des Tests haben wir auch das geplottet Reaktionszeiten (in ms) und Gesamtzahl der Anfragen pro Sekunde.

In jeder der beiden Bereitstellungskonfigurationen haben wir das Huggingface verwendet Inferenz zur Textgenerierung Modellserver mit Version=0.9.4. Im Folgenden sind die Parameter aufgeführt, die an den übergeben werden Inferenz zur Textgenerierung Bild für verschiedene Modellkonfigurationen:

LLMs im Benchmarking

Die 5 Open-Source-LLMs, die als Benchmark bewertet wurden, lauten wie folgt:

  1. Mistral-7B-Instruktion
  2. Lama 2-7B
  3. Lama 2-13B
  4. Lama 2-70B
  5. Falcon-40B-Instruktion

Die folgende Tabelle zeigt eine Zusammenfassung der Benchmarking-LLMs:

MODEL INPUT / OUTPUT TOKENS CONCURRENT USERS / THROUGHPUT GPU TYPE AWS MACHINE TYPE (COST/HR) REGION: US-EAST-1 GCP MACHINE TYPE (COST/HR) REGION: US-EAST4 AZURE MACHINE TYPE (COST/HR) REGION: EAST US (VIRGINIA) SAGEMAKER INSTANCE TYPE (COST/HR) REGION: US-EAST-1
Mistral 7b 1500 Input, 100 Output 7 users / 2.8 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
Mistral 7b 50 Input, 500 Output 40 users / 1.5 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 7b 1500 Input, 100 Output 20 users / 3.6 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 7b 50 Input, 500 Output 62 users / 3.5 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 13b 1500 Input, 100 Output 7 users / 1.4 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 13b 50 Input, 500 Output 23 users / 1.5 A100 40 GB (Count: 1) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-1g (Spot: $1.21/hr, On-Demand: $3.93/hr) Standard_NC24ads_A100_v4 (Spot: $0.95/hr, On-Demand: $3.67/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 70b 1500 Input, 100 Output 15 users / 1.1 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
LLama 2 70b 50 Input, 500 Output 38 users / 0.8 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
Falcon 40b 1500 Input, 100 Output 16 users / 2 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)
Falcon 40b 50 Input, 500 Output 75 users / 2.5 A100 40 GB (Count: 4) p4d.24xlarge (Spot: $7.79/hr, On-Demand: $32.77/hr) a2-highgpu-4g (Spot: $4.85/hr, On-Demand: $15.73/hr) Standard_NC96ads_A100_v4 (Spot: $3.82/hr, On-Demand: $14.69/hr) ml.p4d.24xlarge (On-Demand: $37.68/hr)

Einzelheiten zu den LLM-Benchmarking-Blogs zu den einzelnen LLMs

Lesen Sie für jedes der oben genannten Modelle die detaillierten LLM-Benchmarking-Blogs, wie unten dargestellt:

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Melde dich an
Inhaltsverzeichniss

Steuern, implementieren und verfolgen Sie KI in Ihrer eigenen Infrastruktur

Buchen Sie eine 30-minütige Fahrt mit unserem KI-Experte

Eine Demo buchen

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Demo buchen
Summarize with
ChatGPT logo by OpenAI
Perplexity AI logo
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Entdecke mehr

July 20, 2023
|
Lesedauer: 5 Minuten

LLMops CoE: Die nächste Grenze in der MLOps-Landschaft

April 16, 2024
|
Lesedauer: 5 Minuten

Cognita: Entwicklung modularer Open-Source-RAG-Anwendungen für die Produktion

May 25, 2023
|
Lesedauer: 5 Minuten

Open-Source-LLMs: Umarmen oder untergehen

August 27, 2025
|
Lesedauer: 5 Minuten

Kartierung des KI-Marktes vor Ort: Von Chips bis zu Steuerflugzeugen

llm observability platforms
July 2, 2026
|
Lesedauer: 5 Minuten

Die besten LLM-Observability-Tools

Keine Artikel gefunden.
July 2, 2026
|
Lesedauer: 5 Minuten

Pangea-Integration mit dem AI Gateway von TrueFoundry

Keine Artikel gefunden.
July 1, 2026
|
Lesedauer: 5 Minuten

Die 5 besten LitelLM-Alternativen für Unternehmen im Jahr 2026

Keine Artikel gefunden.
July 1, 2026
|
Lesedauer: 5 Minuten

Schema-Driven Forms in React: Building with TrueFoundry FormBuilder

Keine Artikel gefunden.
Keine Artikel gefunden.

Aktuelle Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Machen Sie eine kurze Produkttour
Produkttour starten
Produkttour