Blank white background with no objects or features visible.

Werden Sie Teil unseres VAR- und VAD-Ökosystems – und ermöglichen Sie die Governance von Unternehmens-KI über LLMs, MCPs und Agents hinweg. Read →

Benchmarking von Llama-2-13B

von TrueFoundry

Aktualisiert: October 4, 2023

Fassen Sie zusammen mit
Metallic silver knot design with interlocking loops and circular shape forming a decorative pattern.
Blurry black butterfly or moth icon with outstretched wings on white background.
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

In diesem Artikel vergleichen wir die Leistung von Llama2-13B aus der Perspektive von Latenz, Kosten und Anfragen pro Sekunde. Auf dieser Grundlage können wir anhand der Geschäftsanforderungen beurteilen, ob dies eine gute Wahl sein kann. Bitte beachten Sie, dass wir in diesem Artikel nicht auf die qualitative Leistung eingehen. Es gibt verschiedene Methoden zum Vergleich von LLMs, die Sie finden können hier.

Modell: Llama2-13B

In diesem Blog haben wir die verglichen Lama-2-13B Modell von NOUS Research. Dies ist eine vortrainierte Version von Llama-2 mit 13 Milliarden Parametern.

Meta entwickelte und veröffentlichte die Llama 2-Familie großer Sprachmodelle (LLMs), eine Sammlung von vortrainierten und fein abgestimmten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern.

Zu vergleichende Metriken

  1. Anfragen pro Sekunde. (UMDREHUNGEN PRO SEKUNDE): Anfragen pro Sekunde, die das Modell verarbeitet. Bei höheren RPS steigt die Latenz normalerweise.
  2. Latenz: Wie viel Zeit wird benötigt, um eine Inferenzanfrage abzuschließen?
  3. Wirtschaftswissenschaften: Welche Kosten sind mit der Bereitstellung eines LLM verbunden?

Anwendungsfälle und Bereitstellungsmodi im Benchmarking

Die wichtigsten Faktoren, anhand derer wir verglichen haben, sind:

GPU-Typ:

  1. A100 40 GB GPU
  2. 2 x A10 24 GB GPU

Länge der Aufforderung:

  1. 1500 Eingangstoken, 100 Ausgangstoken (Ähnlich den Anwendungsfällen von Retrieval Augmented Generation)
  2. 50 Eingangstoken, 500 Ausgangstoken (Anwendungsfälle der Generation Heavy)

Einrichtung des Benchmarkings

Für das Benchmarking haben wir Locust verwendet, ein Open-Source-Tool zum Testen von Lasten. Locust arbeitet, indem es Benutzer/Worker erstellt, um Anfragen parallel zu senden. Zu Beginn jedes Tests können wir Folgendes festlegen Anzahl der Nutzer und Spawn-Rate. Hier die Anzahl der Nutzer gibt die maximale Anzahl von Benutzern an, die gleichzeitig spawnen/laufen können, wohingegen die Spawn-Rate gibt an, wie viele Benutzer pro Sekunde gestartet werden.

Bei jedem Benchmarking-Test für eine Bereitstellungskonfiguration begannen wir mit 1 Benutzer und erhöhte ständig den Anzahl der Nutzer allmählich, bis wir einen stetigen Anstieg des RPS sahen. Während des Tests haben wir auch das geplottet Reaktionszeiten (in ms) und Gesamtzahl der Anfragen pro Sekunde.

In jeder der beiden Bereitstellungskonfigurationen haben wir das Huggingface verwendet Inferenz zur Textgenerierung Modellserver mit Version=0.9.4. Im Folgenden sind die Parameter aufgeführt, die an den übergeben werden Inferenz zur Textgenerierung Bild für verschiedene Modellkonfigurationen:

PARAMETERS LLAMA-2-13B ON A100 LLAMA-2-13B ON A10G
Max Batch Prefill Tokens 10100 10100

Zusammenfassung der Benchmarking-Ergebnisse

Latenz, RPS und Kosten

Wir berechnen die beste Latenz, indem wir jeweils nur eine Anfrage senden. Um den Durchsatz zu erhöhen, senden wir Anfragen parallel an das LLM. Der maximale Durchsatz ist der Fall, wenn das Modell in der Lage ist, die Eingabeanforderungen ohne signifikante Verschlechterung der Latenz zu verarbeiten.

Benchmarking-Ergebnisse für LLama-2 13B

Tokens pro Sekunde

LLMs verarbeiten Eingabe-Tokens und Generierung unterschiedlich — daher haben wir die Verarbeitungsrate der Eingabe-Tokens und der Ausgabe-Tokens unterschiedlich berechnet.

Detailierte Ergebnisse

2 x A10 24-GB-GPU (1500 Eingaben + 100 Ausgangstoken)

Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 4,5 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 0,8 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 0,8 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.

2 x A10 24-GB-GPU (50 Eingangs- und 500 Ausgangstoken)

Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 17 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 0,6 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 0,6 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.

A100 40 GB GPU (1500 Eingaben + 100 Ausgangstoken)

Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 3,3 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 1.4 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 1.4 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.

A100 40 GB GPU (50 Eingabe- + 500 Ausgangstoken)

Wir können in den obigen Grafiken beobachten, dass die Beste Reaktionszeit (bei 1 Benutzer) ist 13 Sekunden. Wir können die Anzahl der Benutzer erhöhen, um mehr Traffic auf das Modell zu werfen. Wir können sehen, wie der Durchsatz steigt bis 1.2 RPS ohne signifikanten Rückgang der Latenz. Darüber hinaus 1.2 RPS, die Latenz steigt drastisch an, was bedeutet, dass Anfragen in die Warteschlange gestellt werden.

Hoffentlich ist dies hilfreich, damit Sie entscheiden können, ob Llama2-13B für Ihren Anwendungsfall geeignet ist und welche Kosten Ihnen beim Hosten von Llama2-13B entstehen können.

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Melde dich an
Inhaltsverzeichniss

Steuern, implementieren und verfolgen Sie KI in Ihrer eigenen Infrastruktur

Buchen Sie eine 30-minütige Fahrt mit unserem KI-Experte

Eine Demo buchen

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Demo buchen

Entdecke mehr

July 20, 2023
|
Lesedauer: 5 Minuten

LLMops CoE: Die nächste Grenze in der MLOps-Landschaft

April 16, 2024
|
Lesedauer: 5 Minuten

Cognita: Entwicklung modularer Open-Source-RAG-Anwendungen für die Produktion

May 25, 2023
|
Lesedauer: 5 Minuten

Open-Source-LLMs: Umarmen oder untergehen

August 27, 2025
|
Lesedauer: 5 Minuten

Kartierung des KI-Marktes vor Ort: Von Chips bis zu Steuerflugzeugen

May 16, 2026
|
Lesedauer: 5 Minuten

The Agent Sprawl Problem: Why Enterprises Need Control Before Autonomy

Keine Artikel gefunden.
May 15, 2026
|
Lesedauer: 5 Minuten

Introducing Skills Registry: Reusable Agent Skills for Production AI Systems

Keine Artikel gefunden.
Types of AI agents governed by TrueFoundry enterprise control plane
May 15, 2026
|
Lesedauer: 5 Minuten

Types of AI Agents: Definitions, Roles, and What They Mean for Enterprise Deployment

Keine Artikel gefunden.
May 15, 2026
|
Lesedauer: 5 Minuten

OAuth at the MCP Layer: How We Solved Enterprise Token Management for AI Agents

Keine Artikel gefunden.
Keine Artikel gefunden.

Aktuelle Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Machen Sie eine kurze Produkttour
Produkttour starten
Produkttour