Falcon-40B auf AWS bereitstellen: 40% günstiger als Sagemaker

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
In diesem Artikel besprechen wir die Bereitstellung des Falcon-Modells in Ihrer eigenen Cloud.
Das Institut für Technologieinnovation in Abu Dhabi hat Falcon entwickelt, eine innovative Reihe von Sprachmodellen. Diese Modelle, die unter der Apache 2.0-Lizenz veröffentlicht wurden, stellen einen bedeutenden Fortschritt auf diesem Gebiet dar. Insbesondere Falken-40 B sticht als wirklich offenes Modell hervor und übertrifft in seinen Fähigkeiten zahlreiche Closed-Source-Modelle. Diese Entwicklung bietet enorme Möglichkeiten für Profis, Enthusiasten und die Branche, da sie den Weg für verschiedene spannende Anwendungen ebnet.
In diesem Blogbeitrag beschreiben wir LLMOPs Prozess auf SageMaker — Hosten des Falcon-Modells auf Ihrem eigenen AWS-Cloud-Konto und die verschiedenen verfügbaren Optionen. Darüber hinaus planen wir, in Zukunft einen weiteren Blogbeitrag zu veröffentlichen, der sich auf den Betrieb von Falcon in anderen Clouds konzentriert.
Wir haben auch einen weiteren Blog über die Bereitstellung von Llama 2 in Ihrer Cloud geschrieben. Schau unten nach:
Im weiteren Verlauf hat die Falcon-Familie zwei Basismodelle: Falken-40 B und Falken-7B. Das 40B-Parametermodell führt derzeit die Charts der an LLM Leaderboard öffnen, während das 7B-Modell das beste seiner Gewichtsklasse ist. Wir werden die Optionen für den Einsatz des Falcon 40B-Modells erörtern.
Falcon-40B benötigt ~90 GB GPU-Speicher — das passt also nicht in eine einzelne A100-Instance mit 80 GB RAM. Der Instanztyp, der in AWS funktioniert, ist g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/). Wir können das Modell entweder als API-Endpunkt für Echtzeitinferenzen bereitstellen oder es für Batch-Inferenz-Anwendungsfälle in den Code selbst laden.
Der Code zum Laden des Modells und zum Ausführen der Textgenerierungsaufgabe lautet wie folgt:
# pip install „transformers [tokenizers] >=4.29.2, <5.0.0" # „sentencepiece==0.1.99" „accelerate>=0.19.0, <1.0.0" # „safetensors>=0.3.1, <0.4.0"
Fackel importieren
aus der Transformator-Importpipeline
Generator = Rohrleitung (
„Textgenerierung“,
model="tiiuae/falcon-40b-instruct“,
tokenizer="tiiuae/falcon-40b-instruct“,
torch_dtype=torch.bfloat16,
device_map="balanced_low_0",
)
Ausgang = Generator (
„Erkläre mir den Unterschied zwischen Kernspaltung und Fusion. „,
min_neue_token=30,
max_neue_Token=50
)
drucken (ausgeben)
Python-Code zum Laden von Falcon40B in das Notizbuch
Das Modell als API bereitstellen
Wir können das Modell als Endpunkt entweder auf einem AWS Sagemaker- oder EKS-Cluster oder einer einfachen EC2-Maschine bereitstellen. Um das Modell auf Sagemaker bereitzustellen, können Sie diesem Tutorial folgen: https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Um das Modell auf EKS bereitzustellen, müssen wir einen EKS-Cluster aufrufen, einen GPU-Knotenpool und einen GPU-Operator darauf einrichten, eine Eingangsebene, um den API-Endpunkt erreichen zu können. Wahre Gießerei kann diese gesamte Reise erheblich vereinfachen, indem die Modellbereitstellung mit einem Klick erledigt wird.

Kostenanalyse
Sehen wir uns die Kosten für den Betrieb von Falcon LLM auf Ihrem eigenen AWS-Konto an. Wir werden die Kosten für den Betrieb auf Sagemaker mit TrueFoundry vergleichen.
Sagemaker-Kosten
Kosten der Sagemaker-Instanz (ml.g5.12xlarge) pro Stunde (us-east-1): 7,09 USD
Wir haben einen kurzen Benchmark durchgeführt, um den Anforderungsdurchsatz und die Latenz für das Falcon-Modell auf AWS Jumpstart zu berechnen. Die genauen Zahlen variieren je nach Länge Ihrer Eingabeaufforderungen und der Parallelität der Anfragen. Dies sollte jedoch eine ungefähre Vorstellung vermitteln:


Wie wir in den obigen Grafiken sehen können, liegt die p50-Latenz bei etwa 5,7 Sekunden und p90 bei etwa 9,4 Sekunden. Wir können einen Durchsatz von etwa 6-7 Anfragen pro Sekunde erzielen.
Stellen Sie das Modell mit TrueFoundry auf EKS bereit
TrueFoundry stellt das Modell auf EKS bereit, und wir können Spot- und On-Demand-Instances verwenden, um die Kosten erheblich zu senken. Vergleichen wir die Preise pro Stunde auf Abruf, Spot und Reservierung von g 5,12 x groß Maschine in der Region US-East-1.
Auf Abruf: $5.672 (20%) günstiger als Sagemaker)
Spotpreis: 2,076$ (70%) günstiger als Sagemaker)
1 Jahr Reserviert: 3.573$ (50%) günstiger als Sagemaker)
3 Jahre Reserviert: 2.450$ (65%) billiger als Sagemaker)
Vergleichen wir den Durchsatz und die Latenz des auf EKS bereitgestellten Modells mithilfe von TrueFoundry.


Wie wir den obigen Statistiken entnehmen können, beträgt die p50-Latenz 5,8 Sekunden und p90 9,5 Sekunden. Der Durchsatz liegt bei etwa 6-7 Anfragen pro Sekunde. Wie wir oben sehen, ist der
Preisrechner
Lassen Sie uns versuchen, die Kosten für das Hosting des Falcon-Modells für einen tatsächlichen Anwendungsfall mit Live-Traffic abzuschätzen. Stellen wir uns vor, dass wir 100.000 Anfragen pro Tag erhalten und bei jeder einzelnen Anfrage auf das Falcon-Modell zurückgreifen. Um diesen Datenverkehr abzuwickeln, sollte eine Instanz von g5.2xlarge ausreichen, um den Datenverkehr abzuwickeln, da jede Instanz 6 Anfragen pro Sekunde ausführen kann und 100.000 Anfragen pro Tag eine Anfrage pro Sekunde bedeuten. Aus Gründen der Zuverlässigkeit sollten wir jedoch mindestens 2 Instanzen ausführen. Vergleichen wir die Kosten für den Betrieb der beiden Instanzen:
Sagemaker: 7,1$ * 2 ($ pro Stunde) = 10000$ pro Monat
EKS:
Spot-Instances verwenden: 2$ * 2 ($ pro Stunde) = 2880$ pro Monat
On-Demand-Instances verwenden: = 8000$ pro Monat
Wir können auch eine Kombination aus einer Spot- und einer On-Demand-Instance verwenden, um die Kosten um etwa 40% zu senken und ein hohes Maß an Zuverlässigkeit zu erreichen.
Chatte mit uns
Wenn Sie die Rendite Ihrer LLM-Projekte maximieren und Ihr Unternehmen in die Lage versetzen möchten, KI richtig zu nutzen, würden wir uns freuen, mit Ihnen zu chatten und Notizen auszutauschen.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren















.png)




.png)






.webp)

.webp)



