Prochain webinaire : La sécurité d'entreprise pour Claude Code | 21 avril · 11 h PST. Inscrivez-vous ici →

Série Agent Gateway (partie 4 de 7) | FinOps pour les systèmes autonomes

Par Boyu Wang

Mis à jour : January 9, 2026

Résumez avec

Dans les logiciels traditionnels, une boucle infinie est gênante. Cela augmente l'utilisation de votre processeur, ralentit peut-être un serveur et vous pouvez y remédier en redémarrant le pod. Le coût est négligeable : l'électricité est bon marché.

Dans Logiciel Agentic, une boucle infinie est une catastrophe financière.

Imaginez deux agents coincés dans une boucle de politesse : « Non, après toi ! » « J'insiste, vous d'abord ! »

Si ces agents fonctionnent sur GPT-4 à 30 dollars par million de jetons et qu'ils échangent des messages une fois par seconde, vous pouvez dépenser des milliers de dollars en un seul après-midi.

Pour exécuter des agents en production, vous ne pouvez pas simplement leur donner des clés d'API et espérer que tout ira pour le mieux. Vous avez besoin d'un Économie interne.

La passerelle d'agents TrueFoundry fait office de Banque centrale pour votre personnel numérique. Il émet des subventions, applique les quotas, émet des ordres stop-loss et gère les taux de change entre les différents départements. Pour plus de détails : https://truefoundry.com/docs/ai-gateway/budgetlimiting.

Le problème : la facture cachée d'autonomie

Le risque fondamental de l'agence est consommation imprévisible.

  • Appel API : Déterministe. 1 demande = 1 unité de coût.
  • Tâche de l'agent : Non déterministe. Vous demandez à un agent de « Faites des recherches sur les concurrents. » Il peut effectuer une recherche sur Google une seule fois (coût : 0,05$). Il peut également décider d'explorer 500 sites Web, de résumer 50 rapports PDF et de créer 10 sous-agents pour analyser les données (coût : 50$).

Vous avez besoin d'un système qui gouverne Intention de consommation, pas seulement le volume des demandes.

Un exemple concret : le « chercheur en fuite »

Regardons une histoire d'horreur du monde réel : L'analyse de marché récursive.

La configuration :

Un utilisateur demande à l'agent de recherche : « Trouvez-moi toutes les startups d'IA en Californie ».

L'agent est conçu pour :

  1. Effectuez une recherche sur Google.
  2. Pour chaque résultat, consultez le site Web.
  3. Si le site Web mentionne « IA », enregistrez-le.

Le mode de défaillance :

L'agent trouve un répertoire « Liste de 1 000 startups ». Il décide consciencieusement de visiter les 1 000 liens.

Chaque visite nécessite un appel à l'outil de navigation et un appel de synthèse (GPT-4).

  • Coût par lien : 0,10$
  • Nombre total de liens : 1 000
  • Coût total : 100,00$ pour une seule requête.

La solution (avec A2A Economy) :

Le Gateway met en œuvre une subvention budgétaire.

  1. La demande de l'utilisateur est associée à une subvention de 5,00$.
  2. L'agent commence à travailler. Cela coûte 0,10$, 0,20$, 0,30$...
  3. Sur Link #50, le portefeuille atteint 5,00$.
  4. Action : La passerelle rejette le prochain appel à l'outil avec 402 Payment Required.
  5. Résultat : L'agent est obligé de s'arrêter et de signaler : « J'ai trouvé 50 startups, mais j'ai manqué de budget pour m'occuper du reste. »

Le système a échoué gracieusement et à moindre coût, au lieu de réussir à grands frais.

Figure 1 : Le déroulement du processus d'octroi du budget

Le système de subvention de jetons

Nous traitons le calcul comme une monnaie. Chaque demande entrant dans la passerelle doit comporter un Contexte budgétaire.

Il ne s'agit pas d'un quota mensuel fixe. Il s'agit d'un micro-budget par demande.

Lorsqu'un agent de gestion appelle un agent de travail, il doit « payer » le travailleur depuis son propre portefeuille. Cela crée une incitation naturelle à l'efficacité. Si le gestionnaire gaspille de l'argent, il échoue à sa propre tâche.

  • Budget de l'agent directeur : 10,00$
  • Coût de la sous-tâche : 2,00$
  • Décision du directeur : « Je peux me permettre d'engager le « Premium Coder Agent » (2$) ou d'essayer le « Cheap Coder Agent » (0,50$). »

Cela permet Raisonnement économique dans la logique de l'agent.

Le disjoncteur de volatilité

Les plafonds budgétaires permettent de gérer le « coût total ». Mais nous devons également gérer la « rapidité des dépenses ».

Un « agent en fuite » (boucle infinie) ressemble à un pic de vitesse financière.

La passerelle surveille le taux de variation des coûts.

  • Normal : Dépenser 1,00$ en 10 minutes.
  • Anomalie : Dépenser 1,00$ en 10 secondes.

Si la vitesse dépasse le seuil, Disjoncteur voyages. La session est bloquée. Un administrateur humain est alerté. Cela vous protège contre les bogues de code lorsqu'un agent réessaie un appel d'outil qui a échoué 100 fois par milliseconde.

Figure 2 : Gestion de la « rapidité des dépenses »

Rétrofacturations interministérielles : facturation est-ouest

Dans une grande entreprise, les agents sont des services partagés.

  • Service marketing : Possède l'agent de rédaction.
  • Département d'ingénierie : Possède l'agent de base de données.

Lorsque l'agent du marketing demande des données à l'agent de l'ingénierie, qui paie la facture OpenAI ?

Si l'ingénierie paie, elle bloquera le marketing pour économiser de l'argent. Cela crée des silos.

Si le marketing paie, comment en assurer le suivi ?

L'Agent Gateway implémente Rétrofacturations est-ouest.

  1. Identité : La demande provient de Principal : Marketing.
  2. Exécution : L'agent de base de données s'exécute (coût : 0,05$).
  3. Grand livre : La passerelle enregistre une transaction : 0,05$ pour le marketing par débit, 0,05$ pour l'ingénierie du crédit.

À la fin du mois, le Gateway génère un rapport pour le directeur financier. Cela transforme les agents des centres de coûts en Prestataires de services internes.

Shadow FinOps : prévoir les coûts

Avant même qu'un agent ne commence, pouvons-nous deviner la facture ? C'est ici Finops pour l'IA devient particulièrement utile pour prévoir les coûts avant exécution.

La passerelle inclut un modèle Shadow FinOps. Il s'agit d'un petit modèle de régression basé sur des cycles d'agents historiques.

Lorsqu'un utilisateur envoie une invite : « Résumez les rapports financiers du troisième trimestre », le Shadow Model prédit :

  • Étapes prévues : 12
  • Jetons attendus : 8 000
  • Coût estimé : 0,45$

Si la limite personnelle de l'utilisateur est de 0,20$, la passerelle rejette la demande instantanément, avant qu'un seul cycle GPU ne soit perdu. Il indique à l'utilisateur : « Cette tâche nécessite l'approbation du responsable. »

Conclusion

L'autonomie sans responsabilité, c'est l'anarchie. Le A2A Économie fournit les garanties financières qui permettent aux entreprises de déployer des agents en toute confiance. En appliquant les budgets, en empêchant l'emballement et en permettant des rétrofacturations équitables, nous transformons l'IA d'une « boîte noire de dépenses » en une immobilisation mesurable et gérable.

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS
Table des matières

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Démo du livre

Découvrez-en plus

Aucun article n'a été trouvé.
 Best AI Gateways in 2026
April 22, 2026
|
5 min de lecture

5 meilleures passerelles IA en 2026

comparaison
April 22, 2026
|
5 min de lecture

Intégration de Cline avec TrueFoundry AI Gateway

Outils LLM
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 min de lecture

Qu'est-ce qu'AI Gateway ? Concepts de base et guide

Aucun article n'a été trouvé.
April 22, 2026
|
5 min de lecture

LLM Embeddings 101 : un guide complet 2024

Terminologie LLM
April 22, 2026
|
5 min de lecture

Série Agent Gateway (partie 1 de 7) | TrueFoundry Agent Gateway

Aucun article n'a été trouvé.
April 22, 2026
|
5 min de lecture

Série Agent Gateway (partie 2 de 7) | Registre de services pour l'ère agentique

Aucun article n'a été trouvé.
April 22, 2026
|
5 min de lecture

Série Agent Gateway (partie 3 de 7) | A2A alimenté par TrueFoundry : standardisation du monologue interne

Aucun article n'a été trouvé.

Blogs récents

Faites un rapide tour d'horizon des produits
Commencer la visite guidée du produit
Visite guidée du produit