Blank white background with no objects or features visible.

Werden Sie Teil unseres VAR- und VAD-Ökosystems – und ermöglichen Sie die Governance von Unternehmens-KI über LLMs, MCPs und Agents hinweg. Read →

Falcon-40B auf AWS bereitstellen: 40% günstiger als Sagemaker

von Abhishek Choudhary

Aktualisiert: June 30, 2023

Fassen Sie zusammen mit
Metallic silver knot design with interlocking loops and circular shape forming a decorative pattern.
Blurry black butterfly or moth icon with outstretched wings on white background.
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

In diesem Artikel besprechen wir die Bereitstellung des Falcon-Modells in Ihrer eigenen Cloud.

Das Institut für Technologieinnovation in Abu Dhabi hat Falcon entwickelt, eine innovative Reihe von Sprachmodellen. Diese Modelle, die unter der Apache 2.0-Lizenz veröffentlicht wurden, stellen einen bedeutenden Fortschritt auf diesem Gebiet dar. Insbesondere Falken-40 B sticht als wirklich offenes Modell hervor und übertrifft in seinen Fähigkeiten zahlreiche Closed-Source-Modelle. Diese Entwicklung bietet enorme Möglichkeiten für Profis, Enthusiasten und die Branche, da sie den Weg für verschiedene spannende Anwendungen ebnet.

In diesem Blogbeitrag beschreiben wir LLMOPs Prozess auf SageMaker — Hosten des Falcon-Modells auf Ihrem eigenen AWS-Cloud-Konto und die verschiedenen verfügbaren Optionen. Darüber hinaus planen wir, in Zukunft einen weiteren Blogbeitrag zu veröffentlichen, der sich auf den Betrieb von Falcon in anderen Clouds konzentriert.

Wir haben auch einen weiteren Blog über die Bereitstellung von Llama 2 in Ihrer Cloud geschrieben. Schau unten nach:

Im weiteren Verlauf hat die Falcon-Familie zwei Basismodelle: Falken-40 B und Falken-7B. Das 40B-Parametermodell führt derzeit die Charts der an LLM Leaderboard öffnen, während das 7B-Modell das beste seiner Gewichtsklasse ist. Wir werden die Optionen für den Einsatz des Falcon 40B-Modells erörtern.

Falcon-40B benötigt ~90 GB GPU-Speicher — das passt also nicht in eine einzelne A100-Instance mit 80 GB RAM. Der Instanztyp, der in AWS funktioniert, ist g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/). Wir können das Modell entweder als API-Endpunkt für Echtzeitinferenzen bereitstellen oder es für Batch-Inferenz-Anwendungsfälle in den Code selbst laden.

Der Code zum Laden des Modells und zum Ausführen der Textgenerierungsaufgabe lautet wie folgt:

# pip install „transformers [tokenizers] >=4.29.2, <5.0.0" # „sentencepiece==0.1.99" „accelerate>=0.19.0, <1.0.0" # „safetensors>=0.3.1, <0.4.0"

Fackel importieren
aus der Transformator-Importpipeline

Generator = Rohrleitung (
„Textgenerierung“,
model="tiiuae/falcon-40b-instruct“,
tokenizer="tiiuae/falcon-40b-instruct“,
torch_dtype=torch.bfloat16,
device_map="balanced_low_0",
)
Ausgang = Generator (
„Erkläre mir den Unterschied zwischen Kernspaltung und Fusion. „,
min_neue_token=30,
max_neue_Token=50
)
drucken (ausgeben)

Python-Code zum Laden von Falcon40B in das Notizbuch

Das Modell als API bereitstellen

Wir können das Modell als Endpunkt entweder auf einem AWS Sagemaker- oder EKS-Cluster oder einer einfachen EC2-Maschine bereitstellen. Um das Modell auf Sagemaker bereitzustellen, können Sie diesem Tutorial folgen: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Model Catalogue - Falcon models
Modellkatalog bestehend aus Falcon-Modellen

Um das Modell auf EKS bereitzustellen, müssen wir einen EKS-Cluster aufrufen, einen GPU-Knotenpool und einen GPU-Operator darauf einrichten, eine Eingangsebene, um den API-Endpunkt erreichen zu können. Wahre Gießerei kann diese gesamte Reise erheblich vereinfachen, indem die Modellbereitstellung mit einem Klick erledigt wird.

deploying Falcon 40B
Verschiedene Einsatzarten von Falcon 40B

Kostenanalyse

Sehen wir uns die Kosten für den Betrieb von Falcon LLM auf Ihrem eigenen AWS-Konto an. Wir werden die Kosten für den Betrieb auf Sagemaker mit TrueFoundry vergleichen.

Sagemaker-Kosten

Kosten der Sagemaker-Instanz (ml.g5.12xlarge) pro Stunde (us-east-1): 7,09 USD

Wir haben einen kurzen Benchmark durchgeführt, um den Anforderungsdurchsatz und die Latenz für das Falcon-Modell auf AWS Jumpstart zu berechnen. Die genauen Zahlen variieren je nach Länge Ihrer Eingabeaufforderungen und der Parallelität der Anfragen. Dies sollte jedoch eine ungefähre Vorstellung vermitteln:

Wie wir in den obigen Grafiken sehen können, liegt die p50-Latenz bei etwa 5,7 Sekunden und p90 bei etwa 9,4 Sekunden. Wir können einen Durchsatz von etwa 6-7 Anfragen pro Sekunde erzielen.

Stellen Sie das Modell mit TrueFoundry auf EKS bereit

TrueFoundry stellt das Modell auf EKS bereit, und wir können Spot- und On-Demand-Instances verwenden, um die Kosten erheblich zu senken. Vergleichen wir die Preise pro Stunde auf Abruf, Spot und Reservierung von g 5,12 x groß Maschine in der Region US-East-1.

Auf Abruf: $5.672 (20%) günstiger als Sagemaker)
Spotpreis: 2,076$ (70%) günstiger als Sagemaker)
1 Jahr Reserviert: 3.573$ (50%) günstiger als Sagemaker)
3 Jahre Reserviert: 2.450$ (65%) billiger als Sagemaker)

Vergleichen wir den Durchsatz und die Latenz des auf EKS bereitgestellten Modells mithilfe von TrueFoundry.

Latenz- und Durchsatzstatistiken anfordern
Modell auf der Grundlage von TrueFoundry-Statistiken

Wie wir den obigen Statistiken entnehmen können, beträgt die p50-Latenz 5,8 Sekunden und p90 9,5 Sekunden. Der Durchsatz liegt bei etwa 6-7 Anfragen pro Sekunde. Wie wir oben sehen, ist der

Preisrechner

Lassen Sie uns versuchen, die Kosten für das Hosting des Falcon-Modells für einen tatsächlichen Anwendungsfall mit Live-Traffic abzuschätzen. Stellen wir uns vor, dass wir 100.000 Anfragen pro Tag erhalten und bei jeder einzelnen Anfrage auf das Falcon-Modell zurückgreifen. Um diesen Datenverkehr abzuwickeln, sollte eine Instanz von g5.2xlarge ausreichen, um den Datenverkehr abzuwickeln, da jede Instanz 6 Anfragen pro Sekunde ausführen kann und 100.000 Anfragen pro Tag eine Anfrage pro Sekunde bedeuten. Aus Gründen der Zuverlässigkeit sollten wir jedoch mindestens 2 Instanzen ausführen. Vergleichen wir die Kosten für den Betrieb der beiden Instanzen:

Sagemaker: 7,1$ * 2 ($ pro Stunde) = 10000$ pro Monat
EKS:
Spot-Instances verwenden: 2$ * 2 ($ pro Stunde) = 2880$ pro Monat
On-Demand-Instances verwenden: = 8000$ pro Monat

Wir können auch eine Kombination aus einer Spot- und einer On-Demand-Instance verwenden, um die Kosten um etwa 40% zu senken und ein hohes Maß an Zuverlässigkeit zu erreichen.

Chatte mit uns

Wenn Sie die Rendite Ihrer LLM-Projekte maximieren und Ihr Unternehmen in die Lage versetzen möchten, KI richtig zu nutzen, würden wir uns freuen, mit Ihnen zu chatten und Notizen auszutauschen.

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Melde dich an
Inhaltsverzeichniss

Steuern, implementieren und verfolgen Sie KI in Ihrer eigenen Infrastruktur

Buchen Sie eine 30-minütige Fahrt mit unserem KI-Experte

Eine Demo buchen

Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren

Demo buchen

Entdecke mehr

July 20, 2023
|
Lesedauer: 5 Minuten

LLMops CoE: Die nächste Grenze in der MLOps-Landschaft

April 16, 2024
|
Lesedauer: 5 Minuten

Cognita: Entwicklung modularer Open-Source-RAG-Anwendungen für die Produktion

May 25, 2023
|
Lesedauer: 5 Minuten

Open-Source-LLMs: Umarmen oder untergehen

August 27, 2025
|
Lesedauer: 5 Minuten

Kartierung des KI-Marktes vor Ort: Von Chips bis zu Steuerflugzeugen

May 16, 2026
|
Lesedauer: 5 Minuten

The Agent Sprawl Problem: Why Enterprises Need Control Before Autonomy

Keine Artikel gefunden.
May 15, 2026
|
Lesedauer: 5 Minuten

Introducing Skills Registry: Reusable Agent Skills for Production AI Systems

Keine Artikel gefunden.
Types of AI agents governed by TrueFoundry enterprise control plane
May 15, 2026
|
Lesedauer: 5 Minuten

Types of AI Agents: Definitions, Roles, and What They Mean for Enterprise Deployment

Keine Artikel gefunden.
May 15, 2026
|
Lesedauer: 5 Minuten

OAuth at the MCP Layer: How We Solved Enterprise Token Management for AI Agents

Keine Artikel gefunden.
Keine Artikel gefunden.

Aktuelle Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Machen Sie eine kurze Produkttour
Produkttour starten
Produkttour