Pilote automatique : automatisation de la gestion de l'infrastructure pour GenAI
.webp)
Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Qu'est-ce que le pilote automatique
Les opérations d'apprentissage automatique (MLOP) impliquent souvent des processus manuels complexes qui consomment du temps et des ressources. Le pilote automatique de Truefoundry vise à éliminer ces contraintes opérationnelles, en permettant aux développeurs de se concentrer uniquement sur l'écriture de code et aux data scientists d'affiner leurs modèles. Le pilote automatique gère automatiquement l'optimisation des ressources et les correctifs de fiabilité et garantit un flux de travail fluide avec une intervention humaine minimale.

Pourquoi en avons-nous besoin
Les préoccupations opérationnelles liées au cycle de vie de tout développement logiciel peuvent être divisées en trois étapes différentes :
- Jour 0 — Conception et planification : Définissez l'architecture, les stratégies de provisionnement, les politiques de sécurité et les cadres de dimensionnement avant le déploiement.
- Jour 1 — Déploiement et mise en œuvre : Configurez l'infrastructure, déployez des applications, configurez l'observabilité et établissez des pipelines CI/CD.
- Jour 2 — Exploitation et maintenance : Surveillez en permanence, adaptez automatiquement les ressources, appliquez des correctifs de sécurité et gérez la gestion des incidents.

Ces processus ont été mis en œuvre en trois phases différentes, passant de la fragmentation des responsabilités à une efficacité pilotée par l'automatisation.
Phase 1 : Séparer le développement et les opérations
Il s'agit de l'étape à laquelle une équipe commence généralement. Les trois étapes des opérations impliquent généralement les suivantes au cours de cette phase.
- Jour 0: Les développeurs se concentrent sur la conception des applications, tandis que les équipes opérationnelles s'occupent de l'infrastructure et de la sécurité.
- Jour 1: les développeurs empaquettent et préparent les applications pour le déploiement, tandis que l'équipe des opérations se concentre sur le provisionnement des ressources et leur configuration.
- Jour 2: les opérations gèrent la mise à l'échelle, la surveillance et les correctifs de sécurité pendant que les développeurs continuent de résoudre les problèmes.
Cette séparation des responsabilités crée des frictions inutiles entre les équipes de développement et d'exploitation. Le problème est aggravé en rendant le partage du contexte plus difficile en raison du vocabulaire partagé limité dans certains cas.
Pour une seule application, cela peut se traduire par un calendrier de publication initial de plusieurs semaines, chaque jour suivant, deux opérations prenant quelques jours, avec les inévitables problèmes d'alignement entre les équipes opérationnelles et de développement.
Phase 2 : Création de la plateforme interne
Au cours de la phase 2, une organisation adopte une plateforme interne qui permet à l'équipe de développement de configurer et de contrôler la plupart des leviers opérationnels comme bon lui semble. L'équipe des opérations joue un rôle de plus en plus important en matière d'application et de normalisation en utilisant la plateforme comme couche pour l'orchestrer.
Cette phase présente quelques inconvénients :
- Pour les développeurs, cette phase implique de faire de nombreux choix au cours des étapes initiales avec un contexte limité ou une expertise pertinente. Cela entraîne une augmentation de la charge cognitive et une planification des ressources sous-optimale.
- Cette approche se traduit par une explosion de l'espace opérationnel pour l'équipe des opérations. Une équipe type peut être confrontée à une multiplication par plusieurs du nombre de services et des coûts d'infrastructure en raison d'une série de décisions sous-optimales prises.
Même si nous gagnons en vitesse dans un premier temps, cela est compensé par l'explosion de complexité du travail d'une équipe de développement, qui est inévitablement suivie d'un conflit de préoccupations entre les deux équipes.
Phase 3 : automatisation de la plateforme
Dans la troisième phase, la plateforme elle-même commence à automatiser toutes les préoccupations opérationnelles. Cela élimine la nécessité de prendre de nombreuses décisions au cours des trois étapes de l'opération.
Cela signifie que les 3 étapes opérationnelles peuvent être réalisées dès le jour 0 sans pratiquement aucun choix opérationnel de la part des équipes de développement ou des opérations. C'est ce que tente de faire Autopilot.
Pourquoi maintenant
Bien que la nécessité d'une plus grande automatisation soit évidente depuis un certain temps, un système tel que le pilote automatique devient encore plus essentiel dans le scénario actuel, avec l'entrée en jeu des nouveaux paradigmes suivants
Microservices
Avec l'adoption généralisée de l'architecture de microservices, le nombre de services au sein d'une organisation a connu une explosion cambrienne. Cette commodité qui permet de mettre en production des modifications ou de nouveaux services s'accompagne d'une supervision plus difficile. Le pilote automatique est un système capable d'optimiser ces services de manière fiable.
Systèmes agentiques
Les systèmes agentiques sont des systèmes qui exécutent des tâches de manière autonome. Ils ont besoin d'une stratégie de déploiement robuste et autonome avec une infrastructure de soutien suffisamment flexible pour évoluer de manière dynamique à la hausse et à la baisse selon les besoins. Les agents d'IA de pointe actuels s'appuient sur une infrastructure adaptable et efficace pour fonctionner de manière optimale. Il s'agit de systèmes dynamiques nécessitant différents niveaux d'implication humaine. Le déploiement à grande échelle de tels systèmes n'est possible qu'avec un système dont tous les aspects opérationnels sont automatisés, et c'est là qu'intervient le pilote automatique.
Étude de cas
Pour l'un des utilisateurs de la plateforme Truefoundry, le coût des clusters de développement était un problème majeur. Avec environ 200 services déployés, il s'agissait d'un cas typique de plusieurs services présentant de légères inefficacités qui se sont accumulées pour entraîner une augmentation globale massive des coûts. Toute tentative d'optimisation des coûts devrait être effectuée au niveau du service individuel. Cette exigence de travail extrême a entraîné une aggravation du dépassement des coûts, qui n'est jamais devenu une priorité.
Après avoir activé le pilote automatique, ce client pourrait réaliser des économies de 1 500$ en seulement 2 clusters. En outre, plus de 50 correctifs liés à la fiabilité ont été appliqués lorsque les charges de travail manquaient de CPU ou rencontraient des problèmes de mémoire.
Que peut faire Autopilot actuellement

Optimisation du processeur, de la mémoire et du stockage
Le pilote automatique automatise la configuration du processeur et de la mémoire pour une application. Pour ce faire, le pilote automatique examine deux sources d'entrées :
- Utilisation historique: le pilote automatique examine l'historique d'utilisation d'une application pour revenir à une configuration optimale à l'avenir
- Réglages en temps réel: Le pilote automatique réagit également aux alertes et à d'autres sources d'événements pour atténuer en temps réel un problème dans l'œuf. Cela permet d'améliorer le MTTR et de prévenir de manière proactive de nombreux problèmes qui, autrement, deviendraient beaucoup plus importants.

Santé du cluster
Le pilote automatique prend également en charge l'état et le coût des composants individuels installés dans un cluster, tels qu'Istio, ArgoCD, Carpenter, etc. La défaillance de l'un de ces composants peut avoir des conséquences désastreuses pour les charges de travail exécutées sur ce cluster. Le pilote automatique garantit que ces composants fonctionnent de manière optimale en termes de coûts tout en continuant à fonctionner en recherchant de manière proactive les pics de ressources et en les tenant compte.


Capacité des nœuds
Au-delà des services, le pilote automatique optimise également l'infrastructure sous-jacente aux services en cours d'exécution. Cela signifie qu'il faut recommander la capacité de nœud idéale pour une application. Cela se fait en tenant compte des métriques de l'application, de l'environnement et d'autres facteurs.
Mise à l'échelle automatique
De nombreuses équipes de développement choisissent de dimensionner leurs applications en fonction de la charge maximale à laquelle une application est censée être confrontée. Cela entraîne des coûts supplémentaires importants lorsque ces répliques supplémentaires ne sont pas utilisées. Une solution évidente consiste à implémenter la mise à l'échelle automatique, mais même cela n'est pas applicable lorsque les modèles de trafic sont imprévisibles. Le pilote automatique passe en revue les statistiques historiques de chaque service et génère une recommandation pour activer ou désactiver la mise à l'échelle automatique en fonction de la nature historique de l'application.


Quelle est la prochaine étape
Bien que nous constations déjà de nombreux gains en termes de coûts et de fiabilité grâce au pilotage automatique en production, il reste encore beaucoup à faire pour concrétiser la vision complète de l'automatisation définie précédemment. Certains aspects des préoccupations opérationnelles qui méritent d'être automatisés ensuite sont les suivants :
- Mise à l'échelle automatique périodique - La prévision et la mise en œuvre de la mise à l'échelle automatique périodique, en tenant compte de l'historique du trafic, peuvent nous permettre d'activer la mise à l'échelle automatique même pour les charges de travail exigeantes.
- Recommandation d'arrêt automatique : le filtrage et l'arrêt des services ou des charges de travail qui ne sont pas utilisés peuvent permettre de réaliser d'importantes économies
- Analyse comparative automatique : s'il est déjà possible d'estimer les ressources d'un service, il est possible de réaliser une meilleure estimation en exécutant les benchmarks avec du trafic réel ou simulé et en observant les indicateurs commerciaux concernés. Le pilote automatique cherche à automatiser ce processus, qui peut prendre beaucoup de temps pour la plupart des équipes de développement.
- Optimisation de l'infrastructure des clusters : l'utilisation du processeur des clusters dans l'industrie est de 10 % en moyenne lien . Bien que la mauvaise configuration des applications pour le processeur en soit une grande partie, elle est également due en grande partie à l'inefficacité de la répartition de la charge sur l'infrastructure sous-jacente. Cela peut prendre la forme de nombreux nœuds sous-utilisés, d'un trop grand nombre de petits nœuds gaspillant de l'espace sur les daemonsets, etc. Corriger les configurations de provisionnement de l'infrastructure et tirer parti d'outils tels que Karpenter au niveau du cloud peut grandement contribuer à améliorer cet aspect.

Conclusion
Le pilote automatique de Truefoundry est un outil transformateur dans l'évolution des MLOps, qui permet de relever les défis opérationnels critiques tout au long du cycle de vie du développement logiciel. Le pilote automatique permet aux équipes de se concentrer sur l'innovation plutôt que sur les frais opérationnels en automatisant l'optimisation des ressources, la gestion de l'état des clusters et la mise à l'échelle automatique. Alors que l'adoption de microservices et de systèmes agentiques continue de croître, le besoin d'une telle automatisation devient de plus en plus urgent. Avec ses capacités actuelles et sa feuille de route ambitieuse, Autopilot est sur le point de révolutionner la façon dont les organisations abordent l'efficacité opérationnelle, la fiabilité et l'optimisation des coûts.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA















.webp)



.png)


.webp)




.webp)







