Déployez le Falcon-40B sur AWS : 40 % moins cher que Sagemaker

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Dans cet article, nous discutons du déploiement du modèle Falçon sur votre propre cloud.
Le Institut d'innovation technologique à Abu Dhabi a développé Falçon, une série innovante de modèles linguistiques. Ces modèles, publiés sous licence Apache 2.0, représentent une avancée significative dans le domaine. Notamment, Falcon-40B se distingue comme un modèle véritablement ouvert, surpassant de nombreux modèles à source fermée en termes de capacités. Ce développement offre d'énormes opportunités aux professionnels, aux passionnés et à l'industrie, car il ouvre la voie à diverses applications passionnantes.
Dans cet article de blog, nous allons décrire LLmops processus sur SageMaker : hébergement du modèle Falçon sur votre propre compte cloud AWS et différentes options disponibles. En outre, nous prévoyons de publier un autre article de blog dans le futur, consacré à l'exécution de Falçon sur d'autres clouds.
Nous avons également écrit un autre blog sur le déploiement de Llama 2 sur votre cloud. Vérifiez ci-dessous :
Par la suite, la famille Falçon comprend deux modèles de base : Falcon-40B et Falcon-7B. Le modèle de paramètres 40B est actuellement en tête des graphiques du Open LLM Leaderboard, tandis que le modèle 7B est le meilleur de sa catégorie de poids. Nous discuterons des options de déploiement du modèle Falcon40B.
Le Falcon-40B nécessite environ 90 Go de mémoire GPU. Il ne peut donc pas tenir dans une seule instance A100 avec 80 Go de RAM. Le type d'instance qui fonctionnera dans AWS est g5.12xlarge (https://aws.amazon.com/ec2/instance-types/g5/). Nous pouvons déployer le modèle soit en tant que point de terminaison d'API pour l'inférence en temps réel, soit le charger dans le code lui-même pour les cas d'utilisation de l'inférence par lots.
Le code pour charger le modèle et y exécuter la tâche de génération de texte est le suivant :
# pip install « transformateurs [tokeniseurs] >=4.29.2, <5.0.0" # « sentencepiece==0.1.99" « accelerate>=0.19.0, <1.0.0" # « safetensors>=0.3.1, <0.4.0"
torche d'importation
à partir du pipeline d'importation de transformateurs
générateur = pipeline (
« génération de texte »,
model="tiiuae/falcon-40b-instruct »,
tokenizer="tiiuae/falcon-40b-instruct »,
torch_dtype=torch.bfloat16,
device_map="balanced_low_0",
)
sortie = générateur (
« Explique-moi la différence entre la fission nucléaire et la fusion. «,
min_new_tokens=30,
max_nouveaux_jetons=50
)
impression (sortie)
Code Python pour charger Falcon40B dans le bloc-notes
Déploiement du modèle en tant qu'API
Nous pouvons déployer le modèle en tant que point de terminaison soit sur AWS Sagemaker, soit sur un cluster EKS, soit sur une machine EC2 simple. Pour déployer le modèle sur Sagemaker, vous pouvez suivre ce tutoriel : https://aws.amazon.com/blogs/machine-learning/deploy-falcon-40b-with-large-model-inference-dlcs-on-amazon-sagemaker/.

Pour déployer le modèle sur EKS, nous devrons créer un cluster EKS, configurer un pool de nœuds GPU et un opérateur GPU dessus, une couche d'entrée pour pouvoir atteindre le point de terminaison de l'API. True Foundry peut simplifier considérablement l'ensemble de ce processus en faisant du déploiement du modèle un processus en un clic.

Analyse des coûts
Examinons le coût de l'utilisation de FalconLLM sur votre propre compte AWS. Nous comparerons le coût de son fonctionnement sur Sagemaker à celui de TrueFoundry.
Coût de Sagemaker
Coût de l'instance Sagemaker (ml.g5.12xlarge) par heure (us-east-1) : 7,09$
Nous avons effectué un test de performance rapide pour calculer le débit et la latence des requêtes pour le modèle Falçon sur AWS Jumpstart. Les chiffres exacts peuvent varier en fonction de la durée de vos demandes et de la simultanéité des demandes, mais cela devrait vous donner une idée approximative :


Comme on peut le voir sur les graphiques ci-dessus, la latence de p50 est d'environ 5,7 secondes et celle de p90 d'environ 9,4 secondes. Nous sommes en mesure d'obtenir un débit d'environ 6 à 7 requêtes par seconde.
Déployez le modèle sur EKS à l'aide de TrueFoundry
TrueFoundry déploie le modèle sur EKS et nous pouvons utiliser des instances ponctuelles et à la demande pour réduire considérablement les coûts. Comparons les tarifs horaires à la demande, au comptant et réservés de g5,12 x large machine dans la région US-east-1.
Sur demande : 5,672$ (20 %) moins cher que Sagemaker)
Endroit : 2,076$ (70 %) moins cher que Sagemaker)
1 an réservé : 3,573$ (50 %) moins cher que Sagemaker)
3 ans réservés : 2 450$ (65 %) (moins cher que Sagemaker)
Comparons le débit et la latence du modèle déployé sur EKS à l'aide de TrueFoundry.


Comme le montrent les statistiques ci-dessus, la latence p50 est de 5,8 secondes et p90 est de 9,5 secondes. Le débit est d'environ 6 à 7 requêtes par seconde. Comme nous l'avons vu plus haut, le
Calculateur de prix
Essayons d'estimer le coût d'hébergement du modèle Falçon pour un cas d'utilisation réel avec trafic en direct. Supposons que nous recevons 100 000 demandes par jour et que nous utilisons le modèle Falçon pour chaque demande. Pour servir ce trafic, une instance de g5.2xlarge devrait suffire à gérer le trafic puisque chaque instance peut effectuer 6 requêtes par seconde et 100 000 requêtes par jour correspondent à une demande par seconde. Cependant, pour des raisons de fiabilité, nous souhaitons exécuter au moins 2 instances. Comparons le coût de fonctionnement des 2 instances :
Saucière : 7,1$ * 2 ($ par heure) = 10 000$ par mois
4 SEMAINES :
Utilisation d'instances ponctuelles : 2$ * 2 ($ par heure) = 2880$ par mois
Utilisation d'instances à la demande : = 8 000$ par mois
Nous pouvons également utiliser une combinaison d'un emplacement et d'une instance à la demande pour réduire les coûts d'environ 40 % et atteindre un haut niveau de fiabilité.
Discutez avec nous
si vous souhaitez maximiser les rendements de vos projets de LLM et permettre à votre entreprise de tirer le meilleur parti de l'IA, nous serions ravis de discuter et d'échanger des notes.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA















.webp)



.png)


.webp)




.webp)







