Llama 2 LLM: Bereitstellung und Feinabstimmung in Ihrer Cloud

Published: April 27, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Der ChatGPT-Moment der Open-Source-Welt ist da - Meta hat seine neuesten Open-Source-Modelle für große Sprachversionen veröffentlicht, genannt Lama 2 - eine Sammlung von vortrainierten und fein abgestimmten generativen Textmodellen mit einer Skala von 7 Milliarden bis 70 Milliarden Parametern.

Wissenswertes und Wissenswertes über Llama 2

Llama 2 wird auf öffentlich zugänglichen Online-Daten trainiert mit ungefähr 2T-Token. Das ist >300x die gesamte englische Wikipedia.
Lama 2 wurde an 1 Million menschlichen Anmerkungen trainiert — vergleichen Sie es mit 15.000 beschrifteten Datensätzen für Dolly von Databricks.
Die Trainingszeit der 7B-, 13B- und 70B-Varianten wird mit 184.000, 368.000 und 1,7 Mio. GPU-Stunden bei A100-80 GB angegeben. Interessanterweise entspricht dies ungefähr 1000 GPU-Wochen für jeweils 1 MB Parameter. Also 70 Wochen Training, wenn Sie 1000 GPUs parallel für das 70B-Modell verwenden würden.
Die GPU-Kosten allein für das Training dieser Modelle würden sich auf etwa 800.000$, 1,5 Millionen $ bzw. 8 Millionen $ belaufen. GPUs im Wert von insgesamt 10 Mio. $ für den letzten Durchlauf! :)
Die Daten vor dem Training sind statisch und bis September 2022 aktuell. Sie wurden jedoch mit den neuesten Daten bis Juli 2023 optimiert.
Das Kontextfenster ist 4k für die 3 Varianten 7B, 10B und 70B.

Warum sollte es dich interessieren?

Nun, für den Anfang kann es kostenlos für Forschungs- und kommerzielle Zwecke verwendet werden. Es ist das erste Modell seiner Art mit einer Qualität wie ChatGPT, das von einer großen Technologie unterstützt wird und heute bereitgestellt und optimiert werden kann. (Es sei denn, Sie haben > 700 Millionen aktive Nutzer pro Monat im vorangegangenen Kalendermonat. In diesem Fall müssen Sie eine Lizenz von Meta erwerben, um sie nutzen zu können!)
Die fein abgestimmten Versionen, Llama-2-Chat genannt, sind für Dialog-Anwendungsfälle optimiert. Llama-2-Chat-Modelle übertreffen Open-Source-Chat-Modelle bei den meisten Benchmarks und liegen bei den menschlichen Bewertungen in Bezug auf Hilfsbereitschaft und Sicherheit auf Augenhöhe mit einigen beliebten Closedsource-Modellen wie ChatGPT und PALm.
Für all diejenigen, die bei der Nutzung kommerzieller ClosedSource-Dienste wie OpenAI auf rechtliche und Compliance-Genehmigungen gewartet haben und von der Qualität der Antworten der vorherigen Generationen von Open-Source-LLMs nicht überzeugt waren, haben Sie Ihre Antwort. Noch wichtiger ist, dass es eine Bestätigung dafür ist, dass Open-Source-LLMs bestehen bleiben und sich weiter verbessern werden.

Qualitätsmaßstäbe von Llama 2

Llama 2 zeigt bei verschiedenen LLM-Benchmarks eine bemerkenswerte Leistung. Hier ist ein Vergleich zwischen Llama- und ChatGPT-Modellen:

Llama-2-70B-Chat-HF Das Modell nähert sich der Leistung von GPT-3.5, dem ursprünglichen ChatGPT-Modell, bei mehreren Benchmarks an oder übertrifft sie sogar. Weitere Details finden Sie hier. Einzelheiten zu den Datensätzen und Aufgaben finden Sie im Abschnitt Anhang.

Kosten für die Verwendung von Llama 2 für eine Beispielaufgabe

Viele, die auf Open AI basierende Anwendungen in Produktion gebracht haben, sind besorgt über die Kosten und darüber, wie nachhaltig sie diese Anwendungen skalieren können. Wir haben einen Vergleich darüber durchgeführt, was für den Betrieb eines LLama 2 erforderlich ist und wie es im Vergleich zu einigen OpenAI-Modellen abschneidet.

Beispielaufgabe: Nehmen wir an, wir wollten die englische Wikipedia (6 Millionen Artikel, jeweils 1000 Token) nehmen und sie mithilfe von LLMs auf die Hälfte der Größe zusammenfassen. Detaillierte Berechnungen finden Sie hier Blog. Hier finden Sie einige interessante Hinweise zu den Kosten dieser Aufgabe mit verschiedenen Modellen:

Es mit GPT-4 zu machen, würde ungefähr 360.000$ kosten.
Dieselbe Aufgabe mit der GPT-3-Davinci-Variante (175 B-Parameter) würde etwa 180.000$ kosten, und wenn Sie eine fein abgestimmte Davinci-Variante verwenden würden, wären das >1 Mio. $.
Wenn Sie stattdessen das Curie-Modell (~7 B-Parameter) verwenden würden, würden die Kosten 18.000$ und die fein abgestimmten Kosten ~125.000 $ betragen.
Vergleichen Sie es mit dem äquivalenten Modell Llama 2 (7B-Variante). Es würde ~2.000 $ kosten und die fein abgestimmte Version würde ~3.000 $ kosten. Das entspricht etwa dem 9-fachen bzw. 40-fachen Kostenunterschied bei vergleichbaren Modellen zwischen vortrainierten bzw. fein abgestimmten Versionen.

Einsatz des LLama-2-13B-Chat-Modells

Das Modell kann verwendet werden über Microsoft Azure, AWS und Umarmendes Gesicht. Sie können Llama-2-Modelle auch über Wahre Gießerei mit minimalen Schritten.

Sie benötigen Zugriff auf die Llama-2-Modelle auf Huggingface, um sie auf TrueFoundry bereitzustellen. Finden Sie mehr Informationen hier. TrueFoundry Modellkatalog wird mit den besten und neuesten Open-Source-LLMs aktualisiert. Mit dem Modellkatalog ist alles für die Bereitstellung der Modelle vorkonfiguriert und Sie können sie mit einem einzigen Klick in Ihrer eigenen Cloud-Infrastruktur bereitstellen. Llama-2-Modelle werden in Kürze im Modellkatalog für die Bereitstellung mit einem Klick verfügbar sein. In der Zwischenzeit können TrueFoundry-Benutzer jedoch weiterhin Llama-2-Modelle wie unten beschrieben bereitstellen.

Klicken Sie auf der Seite „Bereitstellungen“ auf Neue Bereitstellung und wähle Bedienung.

2. Wir können die Text Generation Interface-Bibliothek von Huggingface verwenden, um dieses Modell bereitzustellen. Wählen Sie, ob Sie das Inferenz-Image zur Textgenerierung bereitstellen möchten (ghcr.io/huggingface/text-generation-inference:0.9) und überschreiben Sie den Befehl mit dem Befehl, um das erforderliche Modell zu starten (Launcher zur Textgenerierung --model-id meta-llama/LLAMA-2-13B-Chat-HF):

3. Lassen Sie uns nun den Modellendpunkt festlegen. Das Modell wird an Port 80 bereitgestellt, also lassen Sie uns Folgendes offenlegen:

4. Da die Llama-2-Modelle nur über genehmigte Konten verfügbar sind, müssen wir den Huggingface-API-Schlüssel als Umgebungsvariable festlegen. Der Schlüssel sollte lauten HUGGING_FACE_HUB_TOKEN.

Beachten Sie, dass wir im Bild indirekt den Huggingface-API-Schlüssel verwenden, indem wir einen erstellen geheim auf TrueFoundry. Sie können den Wert auch direkt einfügen, aber das empfehlen wir nicht.

5. Schließlich müssen wir die für dieses Modell erforderlichen Ressourcen zuweisen. Ich habe mich für die Bereitstellung der 13B-Chat-Modellversion auf einem Knoten mit einem A100 mit 40 GB entschieden. Sie können andere Werte wie folgt konfigurieren:

6. Klicken Sie Einreichen und Ihr Modell wird bereitgestellt und ist an dem von Ihnen festgelegten Endpunkt verfügbar.

Schlüsse mithilfe des bereitgestellten Modells ziehen

Du kannst den anrufen erzeugen Endpunkt, um Rückschlüsse mithilfe des Modells zu erhalten, das wir gerade bereitgestellt haben. Es gibt auch eine Python-Bibliothek Textgenerierung das Sie mit Ihrem Python-Code verwenden können, um das bereitgestellte Modell zu verwenden.

HTTP-Anfrage verwenden:

Mit dem Python-Client:

Weitere Informationen zu den Kunden finden Sie hier.

TrueFoundry LLM Spielplatz

Der TrueFoundry LLM Playground kann verwendet werden, um das Modell, das Sie auf TrueFoundry und anderen Modellen wie ChatGPT bereitgestellt haben, abzufragen und zu vergleichen. Sobald das Llama-2-Modell bereitgestellt ist, können wir es auch im TrueFoundry LLM Playground testen:

TrueFoundry's LLM Playground — Der LLM-Spielplatz von TrueFoundry

Chatte mit uns

Wir lernen immer noch über dieses Thema, wie alle anderen auch. Falls Sie versuchen, Large Language Models in Ihrer Organisation zu verwenden, würden wir uns freuen, mit Ihnen zu chatten und Notizen auszutauschen.

Hab ein ☕️ bei uns
‍
Anhang: Details zu Aufgaben und Metriken

MMLU steht für Mehrsprachiges Verstehen mehrsprachiger Sprachen. Es handelt sich um einen Benchmark, der die Leistung von Sprachmodellen bei einer Vielzahl von Aufgaben misst, einschließlich der Beantwortung von Fragen, der Inferenz in natürlicher Sprache und der Zusammenfassung. Die Intuition hinter MMLU ist, dass Sprachmodelle in der Lage sein sollten, Informationen auf vielfältige Weise zu verstehen und zu verarbeiten, und dass sie dazu in der Lage sein sollten, dies in mehreren Sprachen zu tun.

Wissenswertes ist ein Datensatz mit Fragen und Antworten zu Sachthemen. Es wird verwendet, um die Fähigkeit von Sprachmodellen zu messen, Fragen zu beantworten, die Faktenwissen erfordern. Die Intuition hinter TriviaQA ist, dass Sprachmodelle in der Lage sein sollten, auf Informationen aus externen Quellen wie Wikipedia zuzugreifen und diese zu verarbeiten, um sachliche Fragen zu beantworten.

Natürliche Fragen ist ein Datensatz von Fragen, die von Menschen zu Informationen aus der realen Welt gestellt werden. Es wird verwendet, um die Fähigkeit von Sprachmodellen zu messen, Fragen in natürlicher Sprache zu verstehen und zu beantworten. Die Intuition hinter Natural Questions ist, dass Sprachmodelle in der Lage sein sollten, die Nuancen der menschlichen Sprache zu verstehen und Antworten zu generieren, die relevant und informativ sind.

GSM8 K ist ein Datensatz mit 8.000 Fragen, die aus Google-Suchanfragen generiert werden. Es wird verwendet, um die Fähigkeit von Sprachmodellen zu messen, Fragen zu verstehen und zu beantworten, die denen ähneln, die Nutzer in der Google-Suche stellen. Die Intuition hinter GSM8k ist, dass Sprachmodelle in der Lage sein sollten, die Absicht menschlicher Anfragen zu verstehen und Antworten zu generieren, die relevant und informativ sind.

Humanes Eval ist ein Benchmark, der die Leistung von Sprachmodellen bei einer Vielzahl von Aufgaben misst, indem Menschen gebeten werden, die Ergebnisse der Modelle zu bewerten. HumanEval geht davon aus, dass die Bewertung durch Menschen ein notwendiger Bestandteil der Bewertung der Leistung von Sprachmodellen ist, da sie helfen kann, Bereiche zu identifizieren, in denen die Modelle noch Probleme haben.

In Gieval ist ein Benchmark, der die Fähigkeit von Sprachmodellen misst, Aufgaben auszuführen, die typischerweise mit künstlicher allgemeiner Intelligenz verbunden sind. Die Intuition hinter AGIEval ist, dass Sprachmodelle in der Lage sein sollten, die Welt auf ähnliche Weise zu verstehen und über sie nachzudenken, wie es Menschen tun.

Bool Q ist ein Datensatz von Fragen, für deren Beantwortung boolesche Logik erforderlich ist. Es wird verwendet, um die Fähigkeit von Sprachmodellen zu messen, logische Aussagen zu verstehen und daraus zu schließen. Die Intuition hinter BoolQ ist, dass Sprachmodelle in der Lage sein sollten, die Bedeutung logischer Aussagen zu verstehen und Antworten zu generieren, die mit diesen Aussagen übereinstimmen.

Hella Swag ist ein Datensatz von Fragen, die im „Swag“ -Stil verfasst sind. Dabei handelt es sich um eine Art informeller Sprache, die häufig in sozialen Medien verwendet wird. Es wird verwendet, um die Fähigkeit von Sprachmodellen zu messen, natürliche Sprache in einer Vielzahl von Stilen zu verstehen und zu erzeugen. Die Intuition hinter HellaSwag ist, dass Sprachmodelle in der Lage sein sollten, natürliche Sprache zu verstehen und zu erzeugen, die für den Kontext, in dem sie verwendet wird, geeignet ist.

OpenBook QA ist ein Datensatz von Fragen, die durch Konsultieren eines großen Textkorpus beantwortet werden können. Es wird verwendet, um die Fähigkeit von Sprachmodellen zu messen, auf Informationen aus externen Quellen zuzugreifen und diese zu verarbeiten. Die Intuition hinter OpenBookQA ist, dass Sprachmodelle in der Lage sein sollten, auf Informationen aus einer Vielzahl von Quellen zuzugreifen und diese zu verarbeiten, um Fragen zu beantworten.

QuaC ist ein Datensatz von Fragen, die zu Konversationen gestellt werden. Es wird verwendet, um die Fähigkeit von Sprachmodellen zu messen, den Kontext einer Konversation zu verstehen und ihm zu folgen. Die Intuition hinter QuAC ist, dass Sprachmodelle in der Lage sein sollten, den Kontext einer Konversation zu verstehen und Antworten zu generieren, die für das Gespräch relevant sind.

Winogrande ist ein Datensatz von Fragen, deren Beantwortung für Sprachmodelle schwierig ist. Er wird verwendet, um die Fähigkeit von Sprachmodellen zu messen, komplexe Fragen zu verstehen und zu beantworten. Die Intuition hinter Winogrande ist, dass Sprachmodelle in der Lage sein sollten, komplexe Fragen zu verstehen und zu beantworten, die ein tiefes Verständnis der Welt erfordern.

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo