Série Agent Gateway (partie 4 de 7) | FinOps pour les systèmes autonomes

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Dans les logiciels traditionnels, une boucle infinie est gênante. Cela augmente l'utilisation de votre processeur, ralentit peut-être un serveur et vous pouvez y remédier en redémarrant le pod. Le coût est négligeable : l'électricité est bon marché.
Dans Logiciel Agentic, une boucle infinie est une catastrophe financière.
Imaginez deux agents coincés dans une boucle de politesse : « Non, après toi ! » « J'insiste, vous d'abord ! »
Si ces agents fonctionnent sur GPT-4 à 30 dollars par million de jetons et qu'ils échangent des messages une fois par seconde, vous pouvez dépenser des milliers de dollars en un seul après-midi.
Pour exécuter des agents en production, vous ne pouvez pas simplement leur donner des clés d'API et espérer que tout ira pour le mieux. Vous avez besoin d'un Économie interne.
La passerelle d'agents TrueFoundry fait office de Banque centrale pour votre personnel numérique. Il émet des subventions, applique les quotas, émet des ordres stop-loss et gère les taux de change entre les différents départements. Pour plus de détails : https://truefoundry.com/docs/ai-gateway/budgetlimiting.
Le problème : la facture cachée d'autonomie
Le risque fondamental de l'agence est consommation imprévisible.
- Appel API : Déterministe. 1 demande = 1 unité de coût.
- Tâche de l'agent : Non déterministe. Vous demandez à un agent de « Faites des recherches sur les concurrents. » Il peut effectuer une recherche sur Google une seule fois (coût : 0,05$). Il peut également décider d'explorer 500 sites Web, de résumer 50 rapports PDF et de créer 10 sous-agents pour analyser les données (coût : 50$).
Vous avez besoin d'un système qui gouverne Intention de consommation, pas seulement le volume des demandes.
Un exemple concret : le « chercheur en fuite »
Regardons une histoire d'horreur du monde réel : L'analyse de marché récursive.
La configuration :
Un utilisateur demande à l'agent de recherche : « Trouvez-moi toutes les startups d'IA en Californie ».
L'agent est conçu pour :
- Effectuez une recherche sur Google.
- Pour chaque résultat, consultez le site Web.
- Si le site Web mentionne « IA », enregistrez-le.
Le mode de défaillance :
L'agent trouve un répertoire « Liste de 1 000 startups ». Il décide consciencieusement de visiter les 1 000 liens.
Chaque visite nécessite un appel à l'outil de navigation et un appel de synthèse (GPT-4).
- Coût par lien : 0,10$
- Nombre total de liens : 1 000
- Coût total : 100,00$ pour une seule requête.
La solution (avec A2A Economy) :
Le Gateway met en œuvre une subvention budgétaire.
- La demande de l'utilisateur est associée à une subvention de 5,00$.
- L'agent commence à travailler. Cela coûte 0,10$, 0,20$, 0,30$...
- Sur Link #50, le portefeuille atteint 5,00$.
- Action : La passerelle rejette le prochain appel à l'outil avec 402 Payment Required.
- Résultat : L'agent est obligé de s'arrêter et de signaler : « J'ai trouvé 50 startups, mais j'ai manqué de budget pour m'occuper du reste. »
Le système a échoué gracieusement et à moindre coût, au lieu de réussir à grands frais.

Figure 1 : Le déroulement du processus d'octroi du budget
Le système de subvention de jetons
Nous traitons le calcul comme une monnaie. Chaque demande entrant dans la passerelle doit comporter un Contexte budgétaire.
Il ne s'agit pas d'un quota mensuel fixe. Il s'agit d'un micro-budget par demande.
Lorsqu'un agent de gestion appelle un agent de travail, il doit « payer » le travailleur depuis son propre portefeuille. Cela crée une incitation naturelle à l'efficacité. Si le gestionnaire gaspille de l'argent, il échoue à sa propre tâche.
- Budget de l'agent directeur : 10,00$
- Coût de la sous-tâche : 2,00$
- Décision du directeur : « Je peux me permettre d'engager le « Premium Coder Agent » (2$) ou d'essayer le « Cheap Coder Agent » (0,50$). »
Cela permet Raisonnement économique dans la logique de l'agent.
Le disjoncteur de volatilité
Les plafonds budgétaires permettent de gérer le « coût total ». Mais nous devons également gérer la « rapidité des dépenses ».
Un « agent en fuite » (boucle infinie) ressemble à un pic de vitesse financière.
La passerelle surveille le taux de variation des coûts.
- Normal : Dépenser 1,00$ en 10 minutes.
- Anomalie : Dépenser 1,00$ en 10 secondes.
Si la vitesse dépasse le seuil, Disjoncteur voyages. La session est bloquée. Un administrateur humain est alerté. Cela vous protège contre les bogues de code lorsqu'un agent réessaie un appel d'outil qui a échoué 100 fois par milliseconde.

Figure 2 : Gestion de la « rapidité des dépenses »
Rétrofacturations interministérielles : facturation est-ouest
Dans une grande entreprise, les agents sont des services partagés.
- Service marketing : Possède l'agent de rédaction.
- Département d'ingénierie : Possède l'agent de base de données.
Lorsque l'agent du marketing demande des données à l'agent de l'ingénierie, qui paie la facture OpenAI ?
Si l'ingénierie paie, elle bloquera le marketing pour économiser de l'argent. Cela crée des silos.
Si le marketing paie, comment en assurer le suivi ?
L'Agent Gateway implémente Rétrofacturations est-ouest.
- Identité : La demande provient de Principal : Marketing.
- Exécution : L'agent de base de données s'exécute (coût : 0,05$).
- Grand livre : La passerelle enregistre une transaction : 0,05$ pour le marketing par débit, 0,05$ pour l'ingénierie du crédit.
À la fin du mois, le Gateway génère un rapport pour le directeur financier. Cela transforme les agents des centres de coûts en Prestataires de services internes.

Shadow FinOps : prévoir les coûts
Avant même qu'un agent ne commence, pouvons-nous deviner la facture ? C'est ici Finops pour l'IA devient particulièrement utile pour prévoir les coûts avant exécution.
La passerelle inclut un modèle Shadow FinOps. Il s'agit d'un petit modèle de régression basé sur des cycles d'agents historiques.
Lorsqu'un utilisateur envoie une invite : « Résumez les rapports financiers du troisième trimestre », le Shadow Model prédit :
- Étapes prévues : 12
- Jetons attendus : 8 000
- Coût estimé : 0,45$
Si la limite personnelle de l'utilisateur est de 0,20$, la passerelle rejette la demande instantanément, avant qu'un seul cycle GPU ne soit perdu. Il indique à l'utilisateur : « Cette tâche nécessite l'approbation du responsable. »
Conclusion
L'autonomie sans responsabilité, c'est l'anarchie. Le A2A Économie fournit les garanties financières qui permettent aux entreprises de déployer des agents en toute confiance. En appliquant les budgets, en empêchant l'emballement et en permettant des rétrofacturations équitables, nous transformons l'IA d'une « boîte noire de dépenses » en une immobilisation mesurable et gérable.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA











.webp)






.png)


.webp)




.webp)







