Serie Agent Gateway (parte 4 de 7) | FinOps para sistemas autónomos

Published: May 29, 2026

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

En el software tradicional, un bucle infinito es una molestia. Aumenta el uso de la CPU, puede ralentizar un servidor y lo arreglas reiniciando el pod. El costo es insignificante: la electricidad es barata.

En Software agentic, un bucle infinito es un desastre financiero.

Imagina a dos agentes atrapados en un círculo de cortesía: «¡No, después de ti!» «Insisto, ¡tú primero!»

Si estos agentes utilizan GPT-4 a 30 dólares por millón de fichas e intercambian mensajes una vez por segundo, puedes gastar miles de dólares en una sola tarde.

Para ejecutar agentes en producción, no puedes simplemente darles claves de API y esperar lo mejor. Necesitas un Economía interna.

El portal de agentes de TrueFoundry actúa como Banco Central para su fuerza laboral digital. Acuña subvenciones, hace cumplir las cuotas, emite órdenes de límite de pérdidas y gestiona los tipos de cambio entre los diferentes departamentos. Para obtener más información: https://truefoundry.com/docs/ai-gateway/budgetlimiting.

‍

El problema: el proyecto de ley de autonomía oculto

El riesgo fundamental de la agencia es consumo impredecible.

Llamada a la API: Determinístico. 1 solicitud = 1 unidad de coste.
Tarea del agente: No determinista. Le pides a un agente que «Investiga a los competidores». Puede buscar en Google una vez (coste: 0,05$). O bien, puede decidir rastrear 500 sitios web, resumir 50 informes en PDF y crear 10 subagentes para analizar los datos (coste: 50$).

Necesitas un sistema que gobierne Intención de consumo, no solo el volumen de solicitudes.

Un ejemplo concreto: el «investigador fugitivo»

Veamos una historia de terror del mundo real: El análisis de mercado recursivo.

La configuración:

Un usuario le pregunta al agente de investigación: «Encuéntrame todas las empresas emergentes de IA de California».

El agente está diseñado para:

Busca en Google.
Para ver todos los resultados, visita el sitio web.
Si el sitio web menciona «IA», guárdalo.

El modo de fallo:

El agente encuentra un directorio de «Lista de 1000 empresas emergentes». Debidamente decide visitar los 1000 enlaces.

Cada visita requiere una llamada a la herramienta de navegación y una llamada de resumen (GPT-4).

Coste por enlace: 0,10$
Total de enlaces: 1000
Coste total: 100,00$ por una sola consulta.

La solución (con A2A Economy):

The Gateway implementa una subvención presupuestaria.

La solicitud del usuario está etiquetada con una subvención: 5,00$.
El agente empieza a trabajar. Cuesta 0,10$, 20$, 30$...
En Link #50, la billetera alcanza los $5.00.
Acción: La pasarela rechaza la siguiente llamada de herramienta con 402 Payment Required.
Resultado: El agente se ve obligado a detenerse e informar: «Encontré 50 empresas emergentes, pero me quedé sin presupuesto para comprobar el resto».

El sistema falló de manera elegante y económica, en lugar de tener un éxito costoso.

‍

Figura 1: El flujo del proceso de concesión del presupuesto

‍

El sistema de subvenciones simbólicas

Tratamos la computación como una moneda. Cada solicitud que ingrese a la Puerta de enlace debe llevar un Contexto presupuestario.

No se trata de una cuota mensual estática. Se trata de un micropresupuesto por solicitud.

Cuando un agente gerente llama a un agente trabajador, debe «pagarle» al trabajador con su propia billetera. Esto crea un incentivo natural para la eficiencia. Si el gerente malgasta dinero, fracasa en su propia tarea.

Gerente de Agent Budget: 10,00$
Costo de la subtarea: 2,00$
Decisión del gerente: «Puedo permitirme contratar al 'agente de codificación premium' (2,00 dólares) o puedo probar el 'agente de codificación barato' (0,50 dólares)».

Esto permite Razonamiento económico dentro de la lógica del agente.

El disyuntor de volatilidad

Los límites presupuestarios controlan el «costo total». Pero también tenemos que gestionar la «velocidad del gasto».

Un «agente fugitivo» (bucle infinito) parece un aumento en la velocidad financiera.

El Gateway monitorea la tasa de cambio del costo.

Normal: Gastar 1,00$ en 10 minutos.
Anomalía: Gastar 1,00$ en 10 segundos.

Si la velocidad supera el umbral, el Disyuntor viajes. La sesión está congelada. Se alerta a un administrador humano. Esto protege contra los errores de código que hacen que un agente vuelva a intentar realizar una llamada a una herramienta fallida 100 veces en un milisegundo.

‍

Figura 2: Gestión de la «velocidad del gasto»

‍

Contracargos interdepartamentales: facturación este-oeste

En una gran empresa, los agentes son servicios compartidos.

Departamento de marketing: Es propietario del agente redactor.
Departamento de Ingeniería: Es propietario del agente de base de datos.

Cuando el agente de marketing le pide datos al agente de ingeniería, ¿quién paga la factura de OpenAI?

Si la ingeniería paga, bloquearán el marketing para ahorrar dinero. Esto crea silos.

Si el marketing paga, ¿cómo lo rastreamos?

El Agent Gateway implementa Chargebacks Este-Oeste.

Identidad: La solicitud proviene de Principal: Marketing.
Ejecución: El agente de base de datos se ejecuta (costo: 0,05 USD).
Libro mayor: The Gateway registra una transacción: Debit Marketing 0,05$, Credit Engineering 0,05$.

Al final del mes, el Gateway genera un informe para el director financiero. Esto transforma a los agentes de los centros de costos en Proveedores de servicios internos.

‍

‍

Shadow FinOps: predicción del costo

Antes de que un agente comience, ¿podemos adivinar la factura? ¿Aquí es dónde Finops para IA resulta especialmente útil para predecir el costo antes de la ejecución.

El Gateway incluye un modelo Shadow FinOps. Es un modelo de regresión pequeño que se basa en ejecuciones históricas de agentes.

Cuando un usuario envía un mensaje: «Resuma los informes financieros del tercer trimestre» el modelo de sombra predice:

Pasos esperados: 12
Tokens esperados: 8.000
Costo estimado: 0,45$

Si el límite personal del usuario es de 0,20 USD, el Gateway rechaza la solicitud instantáneamente, antes de desperdiciar un solo ciclo de GPU. Le dice al usuario: «Esta tarea requiere la aprobación del gerente».

Conclusión

La autonomía sin responsabilidad es anarquía. La Economía A2A proporciona las barreras financieras que permiten a las empresas desplegar agentes con confianza. Al hacer cumplir los presupuestos, evitar los bucles descontrolados y permitir devoluciones justas, hacemos que la IA deje de ser una «caja negra de gastos» para convertirse en un activo de capital mensurable y manejable.

‍

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora