Série Agent Gateway (partie 7 de 7) | Agent DevOps : déploiements CI/CD, Evals et Canary

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Dans le monde des microservices, nous avons perfectionné l'art du CI/CD. Les tests unitaires sont déterministes : assert (2 + 2 == 4). Si les tests sont réussis, le code peut être déployé en toute sécurité.
Dans le monde de IA agentique, les « tests unitaires » n'existent pas de la même manière.
- Code : 2 + 2 fait toujours 4.
- Agent : « Soyez utile » peut signifier « Rédigez un poème » aujourd'hui et « Supprimer la base de données » demain, en fonction de la version du modèle ou d'une légère modification de l'invite.
Vous ne pouvez pas simplement déployer un agent parce que le code est compilé. L'invite est Hyperparamètre du comportement. Une modification mineure de l'invite du système (« Soyez plus concis ») peut entraîner une régression massive de la capacité de raisonnement (« L'agent a arrêté de vérifier les erreurs parce qu'il voulait être concis »).
Pour résoudre ce problème, TrueFoundry Agent Gateway prend en charge Agent DevOps—une couche de gestion du cycle de vie spécialisée qui intègre le « mode Shadow », « Online Evals » et « Canary Rollouts » à la pile cognitive.
Le problème : l'incident du « changement de ton »
Voyons un exemple concret de la raison pour laquelle le CI/CD standard échoue pour les agents.
Le scénario : Vous avez Agent de soutien à la clientèle en production. C'est poli et serviable. Le chef de produit souhaite qu'il soit plus efficace. Le changement : Vous mettez à jour l'invite système à partir de « Vous êtes un assistant utile » pour « Vous êtes un assistant direct et concis. Ne gaspillez pas vos mots. »
Le déploiement standard :
- Vous validez la modification rapide dans Git.
- Le pipeline construit le conteneur.
- kubectl apply met à jour le service.
La catastrophe : L'agent interprète « direct » comme « grossier ».
- Client : « Mon colis est perdu, je suis tellement inquiète ! »
- Agent (v2) : « Le suivi indique la livraison. Vérifiez votre porche. Au revoir. »
Le score de satisfaction client (CSAT) tombe en panne. Vous avez entaché votre marque parce que vous avez traité un cognitif changer comme code changement.
La solution : le mode Shadow (Dark Launching)
La passerelle TrueFoundry prend en charge Mise en miroir du trafic (Mode Ombre). Au lieu de remplacer la v1 par la v2, nous déployons la v2 parallèlement à la v1.
- Trafic utilisateur réel : Passe à la v1. L'utilisateur voit la réponse de la v1.
- Trafic fictif : La passerelle duplique la demande vers la v2 de manière invisible.
La passerelle compare ensuite les sorties de manière asynchrone. Vous pouvez exécuter une « évaluation automatique » (à l'aide d'un modèle d'évaluation) pour évaluer la différence.
- Sortie v1 : « Je comprends ton inquiétude. Laissez-moi vérifier le suivi... » (Score d'empathie : 9/10)
- Sortie v2 : « Le suivi indique que la livraison a été effectuée. » (Score d'empathie : 2/10)
Le tableau de bord vous alerte : « Régression d'empathie v2 détectée. » Vous annulez le déploiement avant qu'un seul client ne voie le message grossier.

La porte « Eval » : l'intelligence artificielle au service de la cognition
Avant même qu'un agent n'atteigne le mode Shadow, il doit passer le Pipeline d'évaluation. Tout comme vous exécutez pytest pour le code, vous devez exécuter deepeval ou ragas pour la cognition.
Le registre TrueFoundry traite les « ensembles de données d'évaluation » comme des citoyens de première classe.
- Ensemble de données : 500 requêtes clients historiques + « Golden Answers ».
- Métrique : « Fidélité », « Pertinence des réponses », « Précision d'utilisation des outils ».
Lorsque vous envoyez une Pull Request, le système CI lance l'agent et exécute les 500 requêtes. Critères de réussite :
- Fidélité > 0,9
- Latence < 2 s
- Régression : Le score ne peut pas être inférieur de plus de 5 % à celui de la branche principale.
Si le « Prompt concis » fait chuter le score de « Fidélité » de 10 %, la construction échoue. « Fusion bloquée : l'agent crée des hallucinations. »

Déploiements à Canary : une confiance progressive
Une fois que l'agent passe le mode CI et le mode Shadow, vous êtes prêt à affronter le monde réel. Mais on ne met pas le commutateur à 100 %. Tu utilises Routage pour les Canaries.
La passerelle crée un « service virtuel » qui divise le trafic en fonction de pondérations.
- Phase 1 : 1 % des utilisateurs obtiennent la v2. (employés internes ou utilisateurs bêta).
- Moniteur : Vérifiez le taux « Feedback Thumbs up/Down ».
- Étape 2 : 10 % des utilisateurs.
- Moniteur : Cochez « Taux d'erreur des outils » (la nouvelle invite a-t-elle interrompu la sortie JSON ?).
- Troisième phase : 50 %... 100 %.
La passerelle automatise cela. Si le « taux d'erreur » atteint 10 %, la passerelle peut vous aider revenir automatiquement en arrière vers la v1 et les pages de l'ingénieur de garde.

Figure 1 : exemple de déploiement de Canary
Versionnage rapide ou versionnage de code
L'un des principaux défis de l'Agent DevOps est que le Prompt et le Code se trouvent souvent à des endroits différents.
- Code : main.py (Git).
- Rapide : system_prompt.txt (souvent dans une base de données ou une interface utilisateur).
La véritable fonderie Registre des agents applique Artefacts immuables. Lorsque vous déployez, nous regroupons : Artifact ID = Hash (Code + Prompt + Model Config + Dependencies)
Vous ne pouvez pas modifier l'invite de la v1 en production. Vous devez créer la version 1.1. Ce contrôle de version strict garantit Reproductibilité. Si un incident se produit, vous savez exactement quelle combinaison Code+Prompt l'a provoqué.
Conclusion
L'Agent DevOps est la discipline qui consiste à appliquer la rigueur technique aux logiciels probabilistes. En passant d'un « déploiement basé sur Vibes » (cela semble plus rapide) à un « déploiement basé sur des métriques » (le mode Shadow a confirmé une précision supérieure de 5 %), TrueFoundry permet aux entreprises d'innover rapidement en fonction de leurs demandes sans perdre la confiance de leurs utilisateurs.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA











.webp)



.png)


.webp)




.webp)







