Agent Gateway-Serie (Teil 4 von 7) | FinOps für Autonome Systeme

Published: May 29, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

In herkömmlicher Software ist eine Endlosschleife ein Ärgernis. Es erhöht Ihre CPU-Auslastung, verlangsamt möglicherweise einen Server, und Sie beheben das Problem, indem Sie den Pod neu starten. Die Kosten sind vernachlässigbar — Strom ist billig.

In Agentische Software, eine Endlosschleife ist ein finanzielles Desaster.

Stellen Sie sich zwei Agenten vor, die in einer Höflichkeitsschleife stecken bleiben: „Nein, nach dir!“ „Ich bestehe darauf, du zuerst!“

Wenn diese Agenten auf GPT-4 für 30$ pro Million Tokens laufen und sie einmal pro Sekunde Nachrichten austauschen, können Sie an einem einzigen Nachmittag Tausende von Dollar verbrennen.

Um Agenten in der Produktion laufen zu lassen, können Sie ihnen nicht einfach API-Schlüssel geben und auf das Beste hoffen. Sie benötigen eine Innere Wirtschaft.

Das TrueFoundry Agent Gateway fungiert als Zentralbank für Ihre digitale Belegschaft. Es prägt Zuschüsse, setzt Kontingente durch, erteilt Stop-Loss-Orders und verwaltet die Wechselkurse zwischen den verschiedenen Abteilungen. Für weitere Einzelheiten: https://truefoundry.com/docs/ai-gateway/budgetlimiting.

‍

Das Problem: Die versteckte Autonomieurkunde

Das grundlegende Risiko der Handlungsfähigkeit ist unvorhersehbarer Verbrauch.

API-Aufruf: Deterministisch. 1 Anfrage = 1 Kosteneinheit.
Agentenaufgabe: Nicht deterministisch. Sie bitten einen Agenten „Recherchieren Sie nach Wettbewerbern.“ Es könnte einmal bei Google suchen (Kosten: 0,05$). Oder es könnte beschließen, 500 Websites zu crawlen, 50 PDF-Berichte zusammenzufassen und 10 Unteragenten zur Analyse der Daten zu starten (Kosten: 50,00$).

Du brauchst ein System, das regiert Konsumabsicht, nicht nur das Anforderungsvolumen.

Ein konkretes Beispiel: Der „Runaway Researcher“

Schauen wir uns eine Horrorgeschichte aus der realen Welt an: Die rekursive Marktanalyse.

Das Setup:

Ein Nutzer fragt den Forschungsagenten: „Finde für mich alle KI-Startups in Kalifornien.“

Der Agent wurde entwickelt, um:

Suche in Google.
Für jedes Ergebnis besuchen Sie die Website.
Wenn auf der Website „KI“ erwähnt wird, speichern Sie es.

Der Fehlermodus:

Der Agent findet ein Verzeichnis mit der Aufzählung „Liste von 1.000 Startups“. Es entscheidet pflichtbewusst, alle 1.000 Links zu besuchen.

Jeder Besuch erfordert einen Aufruf des Browsertools und einen Zusammenfassungsaufruf (GPT-4).

Kosten pro Link: 0,10$
Links insgesamt: 1.000
Gesamtkosten: 100,00$ für eine einzelne Abfrage.

Die Lösung (mit A2A Economy):

Das Gateway gewährt einen Budgetzuschuss.

Die Anfrage des Benutzers ist mit einem Zuschuss versehen: 5,00$.
Der Agent fängt an zu arbeiten. Der kostet 0,10, 0,20$, 0,30$...
Bei Link #50 erreicht die Wallet 5,00$.
Aktion: Das Gateway lehnt den nächsten Werkzeuganruf mit 402 Payment Required ab.
Ergebnis: Der Agent ist gezwungen, anzuhalten und Folgendes zu melden: „Ich habe 50 Startups gefunden, aber mir ging das Budget aus, um den Rest zu überprüfen.“

Das System ist graziös und billig gescheitert, anstatt teuer erfolgreich zu sein.

‍

Abbildung 1: Ablauf des Haushaltsbewilligungsverfahrens

‍

Das Token-Grant-System

Wir behandeln Berechnungen als eine Währung. Jede Anfrage, die das Gateway betritt, muss einen enthalten Budgetkontext.

Dies ist kein statisches monatliches Kontingent. Es handelt sich um ein Mikrobudget pro Anfrage.

Wenn ein Manager Agent einen Worker Agent anruft, muss er den Worker aus seiner eigenen Brieftasche „bezahlen“. Dies schafft einen natürlichen Anreiz für Effizienz. Wenn der Manager Geld verschwendet, scheitert er an seiner eigenen Aufgabe.

Budget des Managers und Agenten: 10,00$
Kosten der Unteraufgabe: 2,00$
Entscheidung des Managers: „Ich kann es mir leisten, den 'Premium Coder Agent' (2,00$) einzustellen, oder ich kann den 'Cheap Coder Agent' (0,50$) ausprobieren.“

Das ermöglicht Wirtschaftliches Denken innerhalb der Logik des Agenten.

Der Volatilitätsschalter

Budgetobergrenzen regeln die „Gesamtkosten“. Aber wir müssen auch mit der „Geschwindigkeit der Ausgaben“ umgehen.

Ein „Runaway Agent“ (Endlosschleife) sieht aus wie ein Anstieg der finanziellen Geschwindigkeit.

Das Gateway überwacht die Änderungsrate der Kosten.

Normal: Du gibst 1,00$ in 10 Minuten aus.
Anomalie: In 10 Sekunden 1,00$ ausgeben.

Wenn die Geschwindigkeit den Schwellenwert überschreitet, Leistungsschalter Reisen. Die Sitzung ist eingefroren. Ein menschlicher Administrator wird alarmiert. Dies schützt vor Codefehlern, bei denen ein Agent einen fehlgeschlagenen Toolaufruf 100 Mal in einer Millisekunde wiederholt.

‍

Abbildung 2: Umgang mit der „Geschwindigkeit der Ausgaben“

‍

Abteilungsübergreifende Rückbuchungen: Ost-West-Abrechnung

In einem großen Unternehmen sind Agenten gemeinsame Dienste.

Abteilung Marketing: Besitzt den Copywriter Agent.
Technische Abteilung: Besitzt den Datenbankagenten.

Wer bezahlt die OpenAI-Rechnung, wenn der Marketingagent den Agenten von Engineering nach Daten fragt?

Wenn das Engineering zahlt, blockieren sie das Marketing, um Geld zu sparen. Dadurch entstehen Silos.

Wenn Marketing sich auszahlt, wie verfolgen wir das?

Das Agent Gateway implementiert Ost-West-Rückbuchungen.

Identität: Die Anfrage stammt von Principal: Marketing.
Ausführung: Der Datenbankagent wird ausgeführt (Kosten: 0,05$).
Hauptbuch: Das Gateway zeichnet eine Transaktion auf: Debit Marketing 0,05$, Credit Engineering 0,05$.

Am Ende des Monats generiert das Gateway einen Bericht für den CFO. Dadurch werden Agenten von Kostenstellen zu Interne Dienstleister.

‍

‍

Shadow FinOps: Die Kosten vorhersagen

Können wir die Rechnung erraten, bevor ein Agent überhaupt anfängt? Das ist wo Finops für KI wird besonders nützlich, um die Kosten vor der Ausführung vorherzusagen.

Das Gateway beinhaltet ein Shadow FinOps-Modell. Es ist ein kleines Regressionsmodell, das auf historischen Agentenläufen trainiert wurde.

Wenn ein Benutzer eine Aufforderung sendet: „Fassen Sie die Finanzberichte für das dritte Quartal zusammen“, das Schattenmodell sagt voraus:

Erwartete Schritte: 12
Erwartete Tokens: 8.000
Geschätzte Kosten: 0,45$

Wenn das persönliche Limit des Benutzers 0,20$ beträgt, lehnt das Gateway die Anfrage ab sofort, bevor ein einziger GPU-Zyklus verschwendet wird. Es sagt dem Benutzer: „Diese Aufgabe erfordert die Genehmigung des Managers.“

Fazit

Autonomie ohne Rechenschaftspflicht ist Anarchie. Die A2A Wirtschaft bietet die finanziellen Sicherheitsvorkehrungen, die es Unternehmen ermöglichen, Agenten vertrauensvoll einzusetzen. Indem wir Budgets durchsetzen, Auslaufschleifen verhindern und faire Rückbuchungen ermöglichen, machen wir KI von einer „schwarzen Kiste mit Ausgaben“ zu einer messbaren, überschaubaren Kapitalanlage.

‍

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo