Prochain webinaire : La sécurité d'entreprise pour Claude Code | 21 avril · 11 h PST. Inscrivez-vous ici →

Série Agent Gateway (partie 7 de 7) | Agent DevOps : déploiements CI/CD, Evals et Canary

Par Boyu Wang

Mis à jour : January 9, 2026

Résumez avec

Dans le monde des microservices, nous avons perfectionné l'art du CI/CD. Les tests unitaires sont déterministes : assert (2 + 2 == 4). Si les tests sont réussis, le code peut être déployé en toute sécurité.

Dans le monde de IA agentique, les « tests unitaires » n'existent pas de la même manière.

  • Code : 2 + 2 fait toujours 4.
  • Agent : « Soyez utile » peut signifier « Rédigez un poème » aujourd'hui et « Supprimer la base de données » demain, en fonction de la version du modèle ou d'une légère modification de l'invite.

Vous ne pouvez pas simplement déployer un agent parce que le code est compilé. L'invite est Hyperparamètre du comportement. Une modification mineure de l'invite du système (« Soyez plus concis ») peut entraîner une régression massive de la capacité de raisonnement (« L'agent a arrêté de vérifier les erreurs parce qu'il voulait être concis »).

Pour résoudre ce problème, TrueFoundry Agent Gateway prend en charge Agent DevOps—une couche de gestion du cycle de vie spécialisée qui intègre le « mode Shadow », « Online Evals » et « Canary Rollouts » à la pile cognitive.

Le problème : l'incident du « changement de ton »

Voyons un exemple concret de la raison pour laquelle le CI/CD standard échoue pour les agents.

Le scénario : Vous avez Agent de soutien à la clientèle en production. C'est poli et serviable. Le chef de produit souhaite qu'il soit plus efficace. Le changement : Vous mettez à jour l'invite système à partir de « Vous êtes un assistant utile » pour « Vous êtes un assistant direct et concis. Ne gaspillez pas vos mots. »

Le déploiement standard :

  1. Vous validez la modification rapide dans Git.
  2. Le pipeline construit le conteneur.
  3. kubectl apply met à jour le service.

La catastrophe : L'agent interprète « direct » comme « grossier ».

  • Client : « Mon colis est perdu, je suis tellement inquiète ! »
  • Agent (v2) : « Le suivi indique la livraison. Vérifiez votre porche. Au revoir. »

Le score de satisfaction client (CSAT) tombe en panne. Vous avez entaché votre marque parce que vous avez traité un cognitif changer comme code changement.

La solution : le mode Shadow (Dark Launching)

La passerelle TrueFoundry prend en charge Mise en miroir du trafic (Mode Ombre). Au lieu de remplacer la v1 par la v2, nous déployons la v2 parallèlement à la v1.

  • Trafic utilisateur réel : Passe à la v1. L'utilisateur voit la réponse de la v1.
  • Trafic fictif : La passerelle duplique la demande vers la v2 de manière invisible.

La passerelle compare ensuite les sorties de manière asynchrone. Vous pouvez exécuter une « évaluation automatique » (à l'aide d'un modèle d'évaluation) pour évaluer la différence.

  • Sortie v1 : « Je comprends ton inquiétude. Laissez-moi vérifier le suivi... » (Score d'empathie : 9/10)
  • Sortie v2 : « Le suivi indique que la livraison a été effectuée. » (Score d'empathie : 2/10)

Le tableau de bord vous alerte : « Régression d'empathie v2 détectée. » Vous annulez le déploiement avant qu'un seul client ne voie le message grossier.

La porte « Eval » : l'intelligence artificielle au service de la cognition

Avant même qu'un agent n'atteigne le mode Shadow, il doit passer le Pipeline d'évaluation. Tout comme vous exécutez pytest pour le code, vous devez exécuter deepeval ou ragas pour la cognition.

Le registre TrueFoundry traite les « ensembles de données d'évaluation » comme des citoyens de première classe.

  • Ensemble de données : 500 requêtes clients historiques + « Golden Answers ».
  • Métrique : « Fidélité », « Pertinence des réponses », « Précision d'utilisation des outils ».

Lorsque vous envoyez une Pull Request, le système CI lance l'agent et exécute les 500 requêtes. Critères de réussite :

  • Fidélité > 0,9
  • Latence < 2 s
  • Régression : Le score ne peut pas être inférieur de plus de 5 % à celui de la branche principale.

Si le « Prompt concis » fait chuter le score de « Fidélité » de 10 %, la construction échoue. « Fusion bloquée : l'agent crée des hallucinations. »

Déploiements à Canary : une confiance progressive

Une fois que l'agent passe le mode CI et le mode Shadow, vous êtes prêt à affronter le monde réel. Mais on ne met pas le commutateur à 100 %. Tu utilises Routage pour les Canaries.

La passerelle crée un « service virtuel » qui divise le trafic en fonction de pondérations.

  • Phase 1 : 1 % des utilisateurs obtiennent la v2. (employés internes ou utilisateurs bêta).
  • Moniteur : Vérifiez le taux « Feedback Thumbs up/Down ».
  • Étape 2 : 10 % des utilisateurs.
  • Moniteur : Cochez « Taux d'erreur des outils » (la nouvelle invite a-t-elle interrompu la sortie JSON ?).
  • Troisième phase : 50 %... 100 %.

La passerelle automatise cela. Si le « taux d'erreur » atteint 10 %, la passerelle peut vous aider revenir automatiquement en arrière vers la v1 et les pages de l'ingénieur de garde.

Figure 1 : exemple de déploiement de Canary

Versionnage rapide ou versionnage de code

L'un des principaux défis de l'Agent DevOps est que le Prompt et le Code se trouvent souvent à des endroits différents.

  • Code : main.py (Git).
  • Rapide : system_prompt.txt (souvent dans une base de données ou une interface utilisateur).

La véritable fonderie Registre des agents applique Artefacts immuables. Lorsque vous déployez, nous regroupons : Artifact ID = Hash (Code + Prompt + Model Config + Dependencies)

Vous ne pouvez pas modifier l'invite de la v1 en production. Vous devez créer la version 1.1. Ce contrôle de version strict garantit Reproductibilité. Si un incident se produit, vous savez exactement quelle combinaison Code+Prompt l'a provoqué.

Conclusion

L'Agent DevOps est la discipline qui consiste à appliquer la rigueur technique aux logiciels probabilistes. En passant d'un « déploiement basé sur Vibes » (cela semble plus rapide) à un « déploiement basé sur des métriques » (le mode Shadow a confirmé une précision supérieure de 5 %), TrueFoundry permet aux entreprises d'innover rapidement en fonction de leurs demandes sans perdre la confiance de leurs utilisateurs.

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS
Table des matières

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Démo du livre

Découvrez-en plus

Aucun article n'a été trouvé.
 Best AI Gateways in 2026
April 22, 2026
|
5 min de lecture

5 meilleures passerelles IA en 2026

comparaison
April 22, 2026
|
5 min de lecture

Intégration de Cline avec TrueFoundry AI Gateway

Outils LLM
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 min de lecture

Qu'est-ce qu'AI Gateway ? Concepts de base et guide

Aucun article n'a été trouvé.
April 22, 2026
|
5 min de lecture

LLM Embeddings 101 : un guide complet 2024

Terminologie LLM
Aucun article n'a été trouvé.

Blogs récents

Faites un rapide tour d'horizon des produits
Commencer la visite guidée du produit
Visite guidée du produit