Prochain webinaire : La sécurité d'entreprise pour Claude Code | 21 avril · 11 h PST. Inscrivez-vous ici →

Déployez le Falcon-40B sur AWS : 40 % moins cher que Sagemaker

Par Abhishek Choudhary

Mis à jour : June 30, 2023

Résumez avec

Dans cet article, nous discutons du déploiement du modèle Falçon sur votre propre cloud.

Le Institut d'innovation technologique à Abu Dhabi a développé Falçon, une série innovante de modèles linguistiques. Ces modèles, publiés sous licence Apache 2.0, représentent une avancée significative dans le domaine. Notamment, Falcon-40B se distingue comme un modèle véritablement ouvert, surpassant de nombreux modèles à source fermée en termes de capacités. Ce développement offre d'énormes opportunités aux professionnels, aux passionnés et à l'industrie, car il ouvre la voie à diverses applications passionnantes.

Dans cet article de blog, nous allons décrire LLmops processus sur SageMaker : hébergement du modèle Falçon sur votre propre compte cloud AWS et différentes options disponibles. En outre, nous prévoyons de publier un autre article de blog dans le futur, consacré à l'exécution de Falçon sur d'autres clouds.

Nous avons également écrit un autre blog sur le déploiement de Llama 2 sur votre cloud. Vérifiez ci-dessous :

Par la suite, la famille Falçon comprend deux modèles de base : Falcon-40B et Falcon-7B. Le modèle de paramètres 40B est actuellement en tête des graphiques du Open LLM Leaderboard, tandis que le modèle 7B est le meilleur de sa catégorie de poids. Nous discuterons des options de déploiement du modèle Falcon40B.

Le Falcon-40B nécessite environ 90 Go de mémoire GPU. Il ne peut donc pas tenir dans une seule instance A100 avec 80 Go de RAM. Le type d'instance qui fonctionnera dans AWS est g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/). Nous pouvons déployer le modèle soit en tant que point de terminaison d'API pour l'inférence en temps réel, soit le charger dans le code lui-même pour les cas d'utilisation de l'inférence par lots.

Le code pour charger le modèle et y exécuter la tâche de génération de texte est le suivant :

# pip install « transformateurs [tokeniseurs] >=4.29.2, <5.0.0" # « sentencepiece==0.1.99" « accelerate>=0.19.0, <1.0.0" # « safetensors>=0.3.1, <0.4.0"

torche d'importation
à partir du pipeline d'importation de transformateurs

générateur = pipeline (
« génération de texte »,
model="tiiuae/falcon-40b-instruct »,
tokenizer="tiiuae/falcon-40b-instruct »,
torch_dtype=torch.bfloat16,
device_map="balanced_low_0",
)
sortie = générateur (
« Explique-moi la différence entre la fission nucléaire et la fusion. «,
min_new_tokens=30,
max_nouveaux_jetons=50
)
impression (sortie)

Code Python pour charger Falcon40B dans le bloc-notes

Déploiement du modèle en tant qu'API

Nous pouvons déployer le modèle en tant que point de terminaison soit sur AWS Sagemaker, soit sur un cluster EKS, soit sur une machine EC2 simple. Pour déployer le modèle sur Sagemaker, vous pouvez suivre ce tutoriel : https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Model Catalogue - Falcon models
Catalogue de modèles comprenant des modèles Falçon

Pour déployer le modèle sur EKS, nous devrons créer un cluster EKS, configurer un pool de nœuds GPU et un opérateur GPU dessus, une couche d'entrée pour pouvoir atteindre le point de terminaison de l'API. True Foundry peut simplifier considérablement l'ensemble de ce processus en faisant du déploiement du modèle un processus en un clic.

deploying Falcon 40B
Différents modes de déploiement du Falcon40B

Analyse des coûts

Examinons le coût de l'utilisation de FalconLLM sur votre propre compte AWS. Nous comparerons le coût de son fonctionnement sur Sagemaker à celui de TrueFoundry.

Coût de Sagemaker

Coût de l'instance Sagemaker (ml.g5.12xlarge) par heure (us-east-1) : 7,09$

Nous avons effectué un test de performance rapide pour calculer le débit et la latence des requêtes pour le modèle Falçon sur AWS Jumpstart. Les chiffres exacts peuvent varier en fonction de la durée de vos demandes et de la simultanéité des demandes, mais cela devrait vous donner une idée approximative :

Comme on peut le voir sur les graphiques ci-dessus, la latence de p50 est d'environ 5,7 secondes et celle de p90 d'environ 9,4 secondes. Nous sommes en mesure d'obtenir un débit d'environ 6 à 7 requêtes par seconde.

Déployez le modèle sur EKS à l'aide de TrueFoundry

TrueFoundry déploie le modèle sur EKS et nous pouvons utiliser des instances ponctuelles et à la demande pour réduire considérablement les coûts. Comparons les tarifs horaires à la demande, au comptant et réservés de g5,12 x large machine dans la région US-east-1.

Sur demande : 5,672$ (20 %) moins cher que Sagemaker)
Endroit : 2,076$ (70 %) moins cher que Sagemaker)
1 an réservé : 3,573$ (50 %) moins cher que Sagemaker)
3 ans réservés : 2 450$ (65 %) (moins cher que Sagemaker)

Comparons le débit et la latence du modèle déployé sur EKS à l'aide de TrueFoundry.

Statistiques de latence et de débit des demandes
Modèle basé sur les statistiques de TrueFoundry

Comme le montrent les statistiques ci-dessus, la latence p50 est de 5,8 secondes et p90 est de 9,5 secondes. Le débit est d'environ 6 à 7 requêtes par seconde. Comme nous l'avons vu plus haut, le

Calculateur de prix

Essayons d'estimer le coût d'hébergement du modèle Falçon pour un cas d'utilisation réel avec trafic en direct. Supposons que nous recevons 100 000 demandes par jour et que nous utilisons le modèle Falçon pour chaque demande. Pour servir ce trafic, une instance de g5.2xlarge devrait suffire à gérer le trafic puisque chaque instance peut effectuer 6 requêtes par seconde et 100 000 requêtes par jour correspondent à une demande par seconde. Cependant, pour des raisons de fiabilité, nous souhaitons exécuter au moins 2 instances. Comparons le coût de fonctionnement des 2 instances :

Saucière : 7,1$ * 2 ($ par heure) = 10 000$ par mois
4 SEMAINES :
Utilisation d'instances ponctuelles : 2$ * 2 ($ par heure) = 2880$ par mois
Utilisation d'instances à la demande : = 8 000$ par mois

Nous pouvons également utiliser une combinaison d'un emplacement et d'une instance à la demande pour réduire les coûts d'environ 40 % et atteindre un haut niveau de fiabilité.

Discutez avec nous

si vous souhaitez maximiser les rendements de vos projets de LLM et permettre à votre entreprise de tirer le meilleur parti de l'IA, nous serions ravis de discuter et d'échanger des notes.

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS
Table des matières

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Démo du livre

Découvrez-en plus

July 20, 2023
|
5 min de lecture

LLMoPS CoE : la prochaine frontière dans le paysage MLOps

April 16, 2024
|
5 min de lecture

Cognita : Création d'applications RAG modulaires et open source pour la production

May 25, 2023
|
5 min de lecture

LLMs open source : Embrace or Perish

August 27, 2025
|
5 min de lecture

Cartographie du marché de l'IA sur site : des puces aux plans de contrôle

 Best AI Gateways in 2026
April 22, 2026
|
5 min de lecture

5 meilleures passerelles IA en 2026

comparaison
April 22, 2026
|
5 min de lecture

Intégration de Cline avec TrueFoundry AI Gateway

Outils LLM
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 min de lecture

Qu'est-ce qu'AI Gateway ? Concepts de base et guide

Aucun article n'a été trouvé.
April 22, 2026
|
5 min de lecture

LLM Embeddings 101 : un guide complet 2024

Terminologie LLM
Aucun article n'a été trouvé.

Blogs récents

Faites un rapide tour d'horizon des produits
Commencer la visite guidée du produit
Visite guidée du produit