Serie Agent Gateway (parte 6 de 7) | Observabilidad para sistemas no deterministas

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
En la ingeniería de software tradicional, si un sistema falla, se observa el rastro de la pila. Te lleva a la línea 42: NullPointerException. El error de NPE es determinista, reproducible y lógico.
En Ingeniería de agencia, el fracaso es silencioso y alucinante. Un agente no hace excepciones; miente con confianza. Podría decir: «He actualizado correctamente la base de datos» cuando en realidad no hizo nada. O puede quedar atrapado en un ciclo de razonamiento, obsesionándose con un detalle menor mientras el usuario espera.
No puede depurar esto con registros estándar (console.log). Necesitas un Grabador de datos de vuelo.
La verdadera fundición Puerta de enlace para agentes incluye un completo Módulo de observabilidad diseñado específicamente para sistemas probabilísticos. Registra el Cadena de pensamiento (CoT) o Tree of Thoughts (ToT), creando un historial inmutable y reproducible de cada decisión que toma su fuerza laboral digital.
El problema: falta el «por qué»
Cuando un LLM toma una decisión, el «razonamiento» suele estar oculto en el estado transitorio entre las llamadas a la API.
- Entrada: «Resérvame un vuelo a Nueva York».
- Salida: «No puedo hacer eso».
¿Por qué? ¿Falló la API? ¿Lo prohibía el aviso? ¿La modelo hizo alucinaciones sobre una política de restricción? ¿Sin capturar el intermedio bloc de notas, el monólogo interno del agente, estás volando a ciegas.
Un ejemplo concreto: la alucinación de la aprobación hipotecaria
Para entender la necesidad de este sistema, veamos un escenario de alto riesgo: Procesamiento automatizado de préstamos.
El incidente: Un cliente fiel con un puntaje crediticio alto solicita una hipoteca. El «agente de préstamos» rechaza instantáneamente la solicitud con el motivo: «El solicitante no cumple con los requisitos de residencia». El cliente está furioso. Los ingenieros del banco están desconcertados: el cliente vive en la misma casa durante 10 años.
Depuración sin grabadora: Los ingenieros comprueban los registros. Ven la entrada (PDF de la aplicación) y la salida (rechazo). Comprueban el código: la función de «verificación de residencia» funciona correctamente. Intentan reproducirlo con un caso de prueba, pero el modelo estocástico acepta el caso de prueba. No pueden arreglar lo que no pueden ver.
Depuración con la grabadora TrueFoundry: El equipo saca el ID de seguimiento para esa interacción específica. No solo ven la IO, sino que ven la Rastreo cognitivo:
- España 1 (Planificación): «Necesito verificar los ingresos y la dirección».
- Span 2 (llamada de herramientas): extract_address_from_pdf () -> Devuelve «123 Maple St, Springfield, Illinois».
- Span 3 (Razonamiento: el error): «Dirección extraída. Ahora verificando el estado. El fondo del PDF es ligeramente azul, lo que me recuerda al estilo de un pasaporte que no es estadounidense. Sospecho que se trata de una solicitud extranjera».
- Span 4 (alucinación): «La política requiere la residencia en los EE. UU. Marcar como solicitante extranjero».
- Span 5 (salida final): «Rechazado: requisitos de residencia».
La solución: El error no estaba en el código; estaba en el Cadena de razonamiento. El modelo alucinó con una correlación entre «fondo azul» y «pasaporte no estadounidense». Con esta información, los ingenieros actualizan el Mensaje del sistema: «Ignore los artefactos visuales o los colores del documento al determinar la residencia. Confíe ÚNICAMENTE en el contenido del texto».
El error está aplastado.

Figura 1: El error que proviene de la cadena de razonamiento
Análisis técnico profundo: El rastro del pensamiento (OpenTelemetry)
Tratamos la cognición como un rastro distribuido. El Gateway se integra con OpenTelemetry (Otel) para visualizar el flujo de trabajo del agente como una cascada de intervalos.
Introducimos las convenciones semánticas para los intervalos de GenAI:
- genai.system_prompt: las instrucciones dadas al modelo.
- genai.thought: El bloc de notas interno (oculto para el usuario).
- genai.tool_execution: las entradas y salidas de las llamadas a funciones.
- genai.completion: el texto final enviado al usuario.
Esto le permite visualizar los cuellos de botella en la latencia. ¿El agente es lento porque el GPT-4 está retrasado (latencia de inferencia)? ¿O porque la consulta SQL tardó 10 segundos (latencia de la herramienta)?
Cumplimiento: el registro de auditoría inmutable
Para las industrias reguladas (finanzas, atención médica), «la IA lo hizo» no es una defensa legal válida. En virtud del Ley de IA de la UE y SOC2 requisitos, debes explicar por qué se tomó una decisión de IA.
The Gateway implementa un Asincrónico Auditoría Tubería.
- Captura: Cada mensaje, pensamiento y resultado de la herramienta se serializa.
- Hashing: La carga útil tiene un hash (SHA-256) para garantizar la integridad.
- Almacenamiento: El registro se envía a Bloqueo de objetos S3 (Cumplimiento con WORM: escriba una vez, lea muchas). Esto garantiza que ni siquiera un administrador deshonesto pueda alterar el historial de las decisiones de un agente.
Si un auditor pregunta, «Muéstrame por qué se denegó esta reclamación médica el 15 de diciembre» puede obtener la transcripción exacta y a prueba de manipulaciones.

Figura 2: Ilustración del proceso de auditoría
Depuración y evaluación contrafácticas
La observabilidad es inútil si no puedes actuar en consecuencia. La grabadora permite un poderoso flujo de trabajo llamado Depuración contrafáctica.
Como capturamos todo el estado (indicador del sistema, contexto, entrada del usuario) en el momento del error, la puerta de enlace le permite: Bifurcar la sesión. Puedes reproducir exactamente la misma solicitud, pero modificar una variable:
- ¿Qué pasa si usamos GPT-4o en lugar de GPT-3.5?
- ¿Qué pasa si subimos la temperatura a 0,5?
- ¿Y si agregamos esa nueva instrucción de seguridad?
Puede ejecutar estas variaciones en paralelo (modo de sombra) en la grabación para verificar la corrección antes de implementarla en la producción.
Conclusión
En el mundo determinista, monitoreamos tiempo de actividad. En el mundo de las agencias, debemos monitorear alineación. La grabadora Black Box convierte la naturaleza caótica y probabilística de la IA en un proceso estructurado, observable y responsable. Proporciona la visibilidad que los ingenieros necesitan para eliminar las alucinaciones y la garantía de que los equipos de cumplimiento deben aprobar la implementación.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA




















.png)


.webp)




.webp)







