Falcon-40B auf AWS bereitstellen: 40% günstiger als Sagemaker

von Abhishek Choudhary

Published: April 30, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

In diesem Artikel besprechen wir die Bereitstellung des Falcon-Modells in Ihrer eigenen Cloud.

Das Institut für Technologieinnovation in Abu Dhabi hat Falcon entwickelt, eine innovative Reihe von Sprachmodellen. Diese Modelle, die unter der Apache 2.0-Lizenz veröffentlicht wurden, stellen einen bedeutenden Fortschritt auf diesem Gebiet dar. Insbesondere Falken-40 B sticht als wirklich offenes Modell hervor und übertrifft in seinen Fähigkeiten zahlreiche Closed-Source-Modelle. Diese Entwicklung bietet enorme Möglichkeiten für Profis, Enthusiasten und die Branche, da sie den Weg für verschiedene spannende Anwendungen ebnet.

In diesem Blogbeitrag beschreiben wir LLMOPs Prozess auf SageMaker — Hosten des Falcon-Modells auf Ihrem eigenen AWS-Cloud-Konto und die verschiedenen verfügbaren Optionen. Darüber hinaus planen wir, in Zukunft einen weiteren Blogbeitrag zu veröffentlichen, der sich auf den Betrieb von Falcon in anderen Clouds konzentriert.

Wir haben auch einen weiteren Blog über die Bereitstellung von Llama 2 in Ihrer Cloud geschrieben. Schau unten nach:

‍

Deploy & Fine Tune Meta’s Open source LLM: Llama 2 on your cloud

Meta’s Open Source LLM, Llama 2 is available to use for free for research and commercial purposes. In this blog we explain how you can finetune and deploy it on your cloud.

TrueFoundry Blog Truefoundry

‍

Im weiteren Verlauf hat die Falcon-Familie zwei Basismodelle: Falken-40 B und Falken-7B. Das 40B-Parametermodell führt derzeit die Charts der an LLM Leaderboard öffnen, während das 7B-Modell das beste seiner Gewichtsklasse ist. Wir werden die Optionen für den Einsatz des Falcon 40B-Modells erörtern.

Falcon-40B benötigt ~90 GB GPU-Speicher — das passt also nicht in eine einzelne A100-Instance mit 80 GB RAM. Der Instanztyp, der in AWS funktioniert, ist g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/). Wir können das Modell entweder als API-Endpunkt für Echtzeitinferenzen bereitstellen oder es für Batch-Inferenz-Anwendungsfälle in den Code selbst laden.

Der Code zum Laden des Modells und zum Ausführen der Textgenerierungsaufgabe lautet wie folgt:

# pip install „transformers [tokenizers] >=4.29.2, <5.0.0" # „sentencepiece==0.1.99" „accelerate>=0.19.0, <1.0.0" # „safetensors>=0.3.1, <0.4.0" Fackel importieren aus der Transformator-Importpipeline Generator = Rohrleitung ( „Textgenerierung“, model="tiiuae/falcon-40b-instruct“, tokenizer="tiiuae/falcon-40b-instruct“, torch_dtype=torch.bfloat16, device_map="balanced_low_0", ) Ausgang = Generator ( „Erkläre mir den Unterschied zwischen Kernspaltung und Fusion. „, min_neue_token=30, max_neue_Token=50 ) drucken (ausgeben)

Python-Code zum Laden von Falcon40B in das Notizbuch

Das Modell als API bereitstellen

Wir können das Modell als Endpunkt entweder auf einem AWS Sagemaker- oder EKS-Cluster oder einer einfachen EC2-Maschine bereitstellen. Um das Modell auf Sagemaker bereitzustellen, können Sie diesem Tutorial folgen: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Model Catalogue - Falcon models — Modellkatalog bestehend aus Falcon-Modellen

Um das Modell auf EKS bereitzustellen, müssen wir einen EKS-Cluster aufrufen, einen GPU-Knotenpool und einen GPU-Operator darauf einrichten, eine Eingangsebene, um den API-Endpunkt erreichen zu können. Wahre Gießerei kann diese gesamte Reise erheblich vereinfachen, indem die Modellbereitstellung mit einem Klick erledigt wird.

deploying Falcon 40B — Verschiedene Einsatzarten von Falcon 40B

Kostenanalyse

Sehen wir uns die Kosten für den Betrieb von Falcon LLM auf Ihrem eigenen AWS-Konto an. Wir werden die Kosten für den Betrieb auf Sagemaker mit TrueFoundry vergleichen.

Sagemaker-Kosten

Kosten der Sagemaker-Instanz (ml.g5.12xlarge) pro Stunde (us-east-1): 7,09 USD

Wir haben einen kurzen Benchmark durchgeführt, um den Anforderungsdurchsatz und die Latenz für das Falcon-Modell auf AWS Jumpstart zu berechnen. Die genauen Zahlen variieren je nach Länge Ihrer Eingabeaufforderungen und der Parallelität der Anfragen. Dies sollte jedoch eine ungefähre Vorstellung vermitteln:

Wie wir in den obigen Grafiken sehen können, liegt die p50-Latenz bei etwa 5,7 Sekunden und p90 bei etwa 9,4 Sekunden. Wir können einen Durchsatz von etwa 6-7 Anfragen pro Sekunde erzielen.

Stellen Sie das Modell mit TrueFoundry auf EKS bereit

TrueFoundry stellt das Modell auf EKS bereit, und wir können Spot- und On-Demand-Instances verwenden, um die Kosten erheblich zu senken. Vergleichen wir die Preise pro Stunde auf Abruf, Spot und Reservierung von g 5,12 x groß Maschine in der Region US-East-1.

Auf Abruf: $5.672 (20%) günstiger als Sagemaker)

Spotpreis: 2,076$ (70%) günstiger als Sagemaker)

1 Jahr Reserviert: 3.573$ (50%) günstiger als Sagemaker)

3 Jahre Reserviert: 2.450$ (65%) billiger als Sagemaker)

Vergleichen wir den Durchsatz und die Latenz des auf EKS bereitgestellten Modells mithilfe von TrueFoundry.

Latenz- und Durchsatzstatistiken anfordern

Modell auf der Grundlage von TrueFoundry-Statistiken

Wie wir den obigen Statistiken entnehmen können, beträgt die p50-Latenz 5,8 Sekunden und p90 9,5 Sekunden. Der Durchsatz liegt bei etwa 6-7 Anfragen pro Sekunde. Wie wir oben sehen, ist der

Preisrechner

Lassen Sie uns versuchen, die Kosten für das Hosting des Falcon-Modells für einen tatsächlichen Anwendungsfall mit Live-Traffic abzuschätzen. Stellen wir uns vor, dass wir 100.000 Anfragen pro Tag erhalten und bei jeder einzelnen Anfrage auf das Falcon-Modell zurückgreifen. Um diesen Datenverkehr abzuwickeln, sollte eine Instanz von g5.2xlarge ausreichen, um den Datenverkehr abzuwickeln, da jede Instanz 6 Anfragen pro Sekunde ausführen kann und 100.000 Anfragen pro Tag eine Anfrage pro Sekunde bedeuten. Aus Gründen der Zuverlässigkeit sollten wir jedoch mindestens 2 Instanzen ausführen. Vergleichen wir die Kosten für den Betrieb der beiden Instanzen:

Sagemaker: 7,1$ * 2 ($ pro Stunde) = 10000$ pro Monat

EKS:
Spot-Instances verwenden: 2$ * 2 ($ pro Stunde) = 2880$ pro Monat
On-Demand-Instances verwenden: = 8000$ pro Monat

Wir können auch eine Kombination aus einer Spot- und einer On-Demand-Instance verwenden, um die Kosten um etwa 40% zu senken und ein hohes Maß an Zuverlässigkeit zu erreichen.

Chatte mit uns

Wenn Sie die Rendite Ihrer LLM-Projekte maximieren und Ihr Unternehmen in die Lage versetzen möchten, KI richtig zu nutzen, würden wir uns freuen, mit Ihnen zu chatten und Notizen auszutauschen.

Take TrueFoundry for a Spin

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo