Série Agent Gateway (partie 6 de 7) | Observabilité pour les systèmes non déterministes

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
En génie logiciel traditionnel, si un système tombe en panne, vous examinez la trace de la pile. Il vous dirige vers la ligne 42 : NullPointerException. L'erreur NPE est déterministe, reproductible et logique.
Dans Ingénierie agentique, l'échec est silencieux et halluciné. Un agent ne fait pas d'exception ; il ment en toute confiance. Cela pourrait dire : « J'ai mis à jour la base de données avec succès » alors qu'il n'a vraiment rien fait. Ou il peut rester bloqué dans une boucle de raisonnement, obsédé par un détail mineur pendant que l'utilisateur attend.
Vous ne pouvez pas déboguer cela avec les journaux standard (console.log). Vous avez besoin d'un Enregistreur de données de vol.
La véritable fonderie Passerelle pour agents comprend un Module d'observabilité conçu spécifiquement pour les systèmes probabilistes. Il enregistre les Chaîne de pensée (CoT) ou Tree of Thoughts (ToT), créant un historique immuable et rejouable de chaque décision prise par votre personnel numérique.
Le problème : le « pourquoi » est absent
Lorsqu'un LLM prend une décision, le « raisonnement » est souvent masqué dans l'état transitoire entre les appels d'API.
- Entrée : « Réservez-moi un vol pour New York. »
- Sortie : « Je ne peux pas faire ça. »
Pourquoi ? L'API a-t-elle échoué ? L'invite l'a-t-elle interdit ? Le modèle a-t-il halluciné une restriction politique ? Sans capturer intermédiaire scratchpad, le monologue interne de l'agent, vous volez à l'aveugle.
Un exemple concret : l'hallucination de l'approbation d'un prêt hypothécaire
Pour comprendre la nécessité de ce système, examinons un scénario aux enjeux élevés : Traitement automatique des prêts.
L'incident : Un client fidèle ayant une cote de crédit élevée fait une demande de prêt hypothécaire. L' « agent de prêt » rejette instantanément la demande pour la raison suivante : « Le candidat ne répond pas aux exigences de résidence. » Le client est furieux. Les ingénieurs de la banque sont perplexes : le client vit dans la même maison depuis 10 ans.
Débogage sans enregistreur : Les ingénieurs vérifient les journaux. Ils voient l'entrée (application PDF) et la sortie (Rejet). Ils vérifient le code : la fonction « Vérification de résidence » fonctionne correctement. Ils essaient de le reproduire à l'aide d'un scénario de test, mais le modèle stochastique accepte le scénario de test. Ils ne peuvent pas réparer ce qu'ils ne peuvent pas voir.
Débogage avec l'enregistreur TrueFoundry : L'équipe lance le ID de trace pour cette interaction spécifique. Ils ne voient pas seulement l'IO ; ils voient le Trace cognitive:
- Période 1 (Planification) : « Je dois vérifier mes revenus et mon adresse. »
- Span 2 (appel d'outils) : extract_address_from_pdf () -> Renvoie « 123 Maple St, Springfield, IL ».
- Étape 3 (Raisonnement - Le bogue) : « Adresse extraite. Maintenant, je vérifie l'état. L'arrière-plan du PDF est légèrement bleu, ce qui me rappelle un style de passeport non américain. Je pense qu'il s'agit d'une demande étrangère. »
- Période 4 (Hallucination) : « La politique exige la résidence aux États-Unis. Marquage en tant que demandeur étranger. »
- Span 5 (sortie finale) : « Rejeté : conditions de résidence. »
Le correctif : Le bogue n'était pas dans le code ; il se trouvait dans Chaîne de raisonnement. Le modèle a mis en évidence une corrélation entre « fond bleu » et « passeport non américain ». Forts de ces informations, les ingénieurs mettent à jour le Invite du système: « Ignorez les artefacts visuels ou les couleurs du document lors de la détermination de la résidence. Ne vous fiez qu'au contenu du texte. »
Le bogue est corrigé.

Figure 1 : Le bogue issu de la chaîne de raisonnement
Analyse technique approfondie : The Thought Trace (OpenTelemetry)
Nous traitons la cognition comme une trace distribuée. La passerelle s'intègre à OpenTelemetry (OTel) pour visualiser le flux de travail de l'agent sous la forme d'une cascade de périodes.
Nous introduisons des conventions sémantiques pour les étendues GenAI :
- genai.system_prompt : les instructions données au modèle.
- genai.thought : Le bloc-notes interne (caché à l'utilisateur).
- genai.tool_execution : les entrées et les sorties des appels de fonctions.
- genai.completion : Le texte final envoyé à l'utilisateur.
Cela vous permet de visualiser les goulots d'étranglement liés à la latence. L'agent est-il lent parce que GPT-4 est en retard (latence d'inférence) ? Ou parce que la requête SQL a pris 10 secondes (latence de l'outil) ?
Conformité : le journal d'audit immuable
Pour les secteurs réglementés (finance, santé), « c'est l'IA qui l'a fait » n'est pas une défense juridique valable. Dans le cadre de Loi sur l'IA de l'UE et SOC2 exigences, vous devez expliquer pourquoi une décision concernant l'IA a été prise.
La passerelle met en œuvre un Asynchrone Audit Gazoduc.
- Capture : Chaque message, chaque idée et chaque résultat d'outil sont sérialisés.
- Hachage : La charge utile est hachée (SHA-256) pour garantir son intégrité.
- Rangement : Le record est poussé à Verrouillage d'objets S3 (Conformité WORM : écrivez une fois, lisez plusieurs fois). Cela garantit que même un administrateur malhonnête ne peut pas modifier l'historique des décisions d'un agent.
Si un auditeur le demande, « Montrez-moi pourquoi cette réclamation médicale a été rejetée le 15 décembre » vous pouvez obtenir la transcription exacte et infalsifiable.

Figure 2 : Illustration du pipeline d'audit
Débogage et évaluation contrefactuels
L'observabilité ne sert à rien si vous ne pouvez pas agir en conséquence. L'enregistreur permet un flux de travail puissant appelé Débogage contrefactuel.
Comme nous avons capturé l'état complet (invite du système + contexte + saisie utilisateur) au moment de la panne, la passerelle vous permet de Former la session. Vous pouvez rejouer exactement la même requête, mais modifier une variable :
- Et si nous utilisions GPT-4o au lieu de GPT-3.5 ?
- Et si on augmentait la température à 0,5 ?
- Et si nous ajoutions cette nouvelle consigne de sécurité ?
Vous pouvez exécuter ces variantes en parallèle (mode Shadow) sur l'enregistrement pour vérifier le correctif avant de le déployer en production.
Conclusion
Dans le monde déterministe, nous surveillons uptime. Dans le monde agentique, nous devons surveiller alignement. Le Black Box Recorder transforme la nature chaotique et probabiliste de l'IA en un processus structuré, observable et responsable. Il fournit la visibilité dont les ingénieurs ont besoin pour corriger les hallucinations et l'assurance dont les équipes de conformité ont besoin pour approuver le déploiement.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA











.webp)








.png)


.webp)




.webp)







