Comparaison des coûts avec Sagemaker

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
TrueFoundry propose une approche rentable pour déployer des charges de travail d'apprentissage automatique en tirant parti de Kubernetes sur EKS, ce qui permet de réduire les coûts de 40 à 60 % par rapport à l'exécution de charges de travail similaires sur SageMaker.
TLDR : 40 à 60 % d'économies sur les charges de travail liées à l'IA et au ML
1) Sans majoration sur les coûts de calcul, économisez 15 à 30 % sur les instances EC2 par rapport à SageMaker
2) Configurez facilement des instances ponctuelles à la fois pour la formation et l'inférence, contrairement à SageMaker (formation uniquement), qui permet d'économiser jusqu'à 70 %
3) Simplifie les ressources mise à l'échelle vers zéro pour les ordinateurs portables, les processeurs et les GPU, réduisant les coûts de développement de 30 à 70 %
4) Remplace les opérations de lecture/écriture S3 par la mise en cache EFS, réduisant les coûts liés aux données de 20 %
5) Utilisations frameworks de service avancés comme VLLM et SGlang, réduisant la latence et augmentant le débit de 40 %
6) Ajuste dynamiquement les ressources avec infra sur pilote automatique , réduisant les coûts de production de 40 à 50 %
7) Supports processeurs et GPU fractionnaires, permettant d'économiser de 20 à 50 % sur les coûts de calcul
Aucune majoration sur les coûts de calcul
L'absence de majoration sur les coûts de calcul est un facteur clé des économies totales, 15 à 30 % d'économies uniquement sur les dépenses liées aux instances de calcul.

Assistance fluide pour l'utilisation des instances Spot
Truefoundry facilite la configuration des instances ponctuelles et change facilement d'instance en dessous si l'instance spot est récupérée, avec des économies allant jusqu'à 70 %.

Truefoundry utilise Karpenter et le configure de manière optimale grâce à des algorithmes avancés permettant de récupérer le type d'instance correct en fonction de la disponibilité et du coût à l'aide des API AWS. D'autre part, alors que SageMaker prend en charge les instances Spot pour les tâches de formation, mais n'étend pas cette fonctionnalité aux services d'inférence.
Comparaison des coûts d'inférence sur quelques instances d'inférence populaires -

Arrêt automatique et mise à l'échelle à 0
Truefoundry fournit une fonction d'arrêt automatique pour les instances CPU, GPU, Notebook et SSH, avec 30 à 70 % d'économies lors du développement
Cela entraîne l'arrêt automatique des machines lorsque les développeurs n'utilisent pas le calcul, par exemple pour les ordinateurs portables Jupyter ou les démos hébergées comme Streamlit et Gadio.

Dans Sagemaker, il est possible de configurer l'arrêt automatique sur les ordinateurs portables Jupyter, mais c'est le cas assez difficile à configurer pour les data scientists ce qui les empêche de le configurer du tout. Dans Sagemaker, il n'existe pas d'arrêt automatique pour les instances GPU.
Support natif pour les volumes
Sagemaker recommande de lire et d'écrire des données dans S3 pendant les itérations d'entraînement. Cela entraîne des coûts de lecture et d'écriture énormes sur S3, en particulier si plusieurs data scientists forment des modèles sur les mêmes données. Truefoundry prend en charge la mise en cache des données en volumes, dont les coûts de lecture et d'écriture sont bien inférieurs à ceux de S3, avec ~ 20 % de réduction des coûts de lecture/écriture S3, renforcer sa position de société fiable et économique Alternative à Sagemaker. Cette approche est largement utilisée par des entreprises comme Salesforce et Netflix pour réduire les coûts de lecture et d'écriture.
Amazon S3 devient coûteux en raison de la tarification par demande pour les lectures haute fréquence.

Latence plus faible et débit plus élevé des modèles
Truefoundry prend en charge de manière native les frameworks de service avancés tels que Sglang et VLLM, qui peuvent fournir un débit plus élevé avec une latence plus faible.
Truefoundry va encore plus loin en recommandation automatique du modèle optimal basé sur le serveur sur l'architecture du modèle et le cas d'utilisation, éliminant ainsi les conjectures pour les data scientists, ce qui conduit à ~ 40 % de réduction pour les modèles LLM et Triton compatibles
En revanche, le choix par défaut de SageMaker implique souvent de grandes images qui peuvent ne pas être optimisées pour des charges de travail spécifiques. Cela nécessite des data scientists peuvent sélectionner et tester manuellement les configurations optimales, ce qui entraîne des inefficacités.
Fonction de pilote automatique pour réduire automatiquement les coûts
Truefoundry analyse automatiquement les charges de travail en cours et suggère des optimisations des coûts possibles en fonction des ressources demandées et de l'utilisation réelle, du trafic entrant, etc. Cela a montré optimisation des coûts jusqu'à 40 à 50 % dans certains cas. Sagemaker ne possède aucune fonction de pilote automatique.

CPU et mémoire fractionnés
Truefoundry prend en charge le calcul et la mémoire fractionnés du processeur, ce qui permet d'exécuter plusieurs charges de travail sur une seule machine. Le bin-packing permet d'économiser 20 % ou plus sur les charges de travail du processeur. C'est la même raison pour laquelle Kubernetes peut mieux utiliser les ressources que l'exécution de charges de travail sur des machines virtuelles. Dans Sagemaker, les unités de processeur et de mémoire minimales sont identiques à celles de la configuration spécifique à la machine virtuelle fournie par AWS.
GPU fractionné
Supports Truefoundry partitionnement GPU basé à la fois sur le découpage temporel et sur le partitionnement MIG, ce qui permet de réaliser des économies d'environ 40 à 50 % sur le calcul du GPU. Cela permet aux développeurs d'exécuter plusieurs charges de travail sur une seule machine GPU et de la faire évoluer de manière fluide. Ceci est très important car les ressources GPU sont très coûteuses et leur partage peut entraîner une réduction des coûts massive. Sagemaker ne prend pas en charge les processeurs graphiques fractionnés.

Étude de cas
Une plateforme de jeu de premier plan, était confrontée à une facture mensuelle de 40 000 dollars pour l'exécution de ses charges de travail d'apprentissage automatique sur SageMaker. En optant pour la plateforme optimisée en termes de coûts de TrueFoundry, l'entreprise a pu réduire considérablement ses dépenses à seulement 6 000 dollars par mois. Ces 85 % d'économies ont été réalisées sans compromettre l'évolutivité, les performances ou la facilité d'utilisation.
Des études de cas externes ont également mis en évidence des réductions de coûts importantes lors de la transition de SageMaker à EKS. Par exemple, des organisations comme LeBonCoin ont enregistré des économies de 30 à 40 % après la migration de leurs charges de travail d'apprentissage automatique de SageMaker vers EKS basé sur Kubernetes. En savoir plus - https://medium.com/leboncoin-tech-blog/migrating-our-machine-learning-platform-from-aws-sagemaker-to-kubernetes-kubeflow-166c56f40e5c
Questions fréquemment posées
Combien coûte AWS SageMaker ?
La tarification de SageMaker implique une combinaison de frais basés sur les instances pour les ordinateurs portables, la formation et l'hébergement. Comme AWS ajoute une majoration premium au calcul sous-jacent, les coûts peuvent augmenter rapidement. Les dépenses dépendent du type d'instance, du volume de traitement des données et des besoins de stockage. Il est donc essentiel de suivre les habitudes d'utilisation pour éviter des factures mensuelles imprévues.
Est-ce que SageMaker est meilleur que TrueFoundry ?
Le choix dépend de vos objectifs d'infrastructure spécifiques. SageMaker propose un large éventail d'outils au sein de l'écosystème AWS. TrueFoundry convient souvent mieux aux équipes qui accordent la priorité à la vitesse et à la portabilité, car il fonctionne de manière native sur Kubernetes au sein de votre propre cloud. Cela permet de mieux contrôler l'allocation des ressources et de rationaliser l'expérience des développeurs.
Qu'est-ce qui fait de TrueFoundry une alternative idéale à Sagemaker ?
TrueFoundry est une alternative idéale pour les équipes qui souhaitent éviter la complexité opérationnelle et les frais généraux élevés de SageMaker. Il fournit un plan de contrôle centralisé pour le déploiement et la surveillance tout en préservant la sécurité des données dans votre propre VPC. L'accent mis sur la gestion automatisée des ressources et l'autonomie des développeurs en font un choix plus flexible pour la production.
Lequel est le plus coûteux, TrueFoundry ou Sagemaker ?
Lorsque l'on compare les prix de Sagemaker à ceux de Truefoundry, SageMaker entraîne généralement des coûts plus élevés en raison des majorations d'infrastructure et des frais de gestion. TrueFoundry permet de réduire les dépenses en utilisant le calcul cloud brut et des instances ponctuelles. Cette approche, combinée à la mise à l'échelle automatique et à la détection des ressources inactives, peut réduire les dépenses totales d'infrastructure.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA















.webp)



.png)


.webp)




.webp)







