Integración de Middleware con TrueFoundry AI Gateway

Por Rishiraj Dutta Gupta

Published: June 26, 2026

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Integración de Middleware con TrueFoundry AI Gateway

A medida que las organizaciones escalan sus aplicaciones de IA, saber qué están haciendo sus modelos en producción es tan importante como ponerlos en marcha. Los ingenieros necesitan visibilidad de cada solicitud de inferencia (latencia, uso de tokens, comportamiento del modelo, motivo de finalización), pero conectar las herramientas de observabilidad a cada modelo y proveedor implica un trabajo de instrumentación complejo y repetitivo para cada integración.

La gran pregunta: ¿cómo obtener visibilidad full-stack en todos los modelos que utilizan sus equipos sin ingeniería personalizada para cada uno?

En Middleware, el objetivo es hacer que la observabilidad sea tan fácil como potente. Por eso nos complace anunciar la integración de Middleware con el TrueFoundry AI Gateway. Esta integración proporciona a su organización visibilidad completa de cada solicitud de inferencia de IA, correlacionada con métricas de infraestructura, trazas de aplicaciones y registros, todo desde una única plataforma centralizada, lo que ayuda a garantizar que sus operaciones de IA sean transparentes y estén bajo control.

El poder de TrueFoundry AI Gateway

TrueFoundry AI Gateway es una forma potente para que los desarrolladores y los equipos de plataforma gestionen, supervisen y escalen sus aplicaciones de IA. Reúne acceso unificado a cientos de grandes modelos de lenguaje, enrutamiento inteligente y aplicación centralizada de políticas, todo en un solo lugar. Un único pod de gateway maneja más de 250 solicitudes por segundo mientras añade aproximadamente 3 ms de latencia, lo que lo hace apto para producción desde el primer día.

A medida que la adopción de la IA se acelera, el verdadero desafío no es acceder a los modelos, sino gestionar la complejidad que conlleva. Múltiples proveedores, APIs en evolución y estrictos requisitos de cumplimiento pueden ralentizar rápidamente a los equipos. TrueFoundry AI Gateway pone orden en esta complejidad, sirviendo como plano de control para la IA empresarial. Unifica el acceso, aplica políticas y ofrece observabilidad compatible con OpenTelemetry en cada modelo y entorno, sin requerir ningún cambio en las aplicaciones que llaman al gateway.

Middleware: Observabilidad Full-Stack Basada en OpenTelemetry

Middleware es una plataforma de observabilidad full-stack construida sobre OpenTelemetry como su estándar de instrumentación principal. Acepta trazas, registros, métricas de infraestructura y datos de monitoreo de usuarios reales a través de OTEL Collector, almacenándolos en una única capa de datos correlacionados que proporciona a los equipos de ingeniería una imagen completa de sus sistemas en un solo lugar.

Lo que distingue a Middleware es lo que hace después de que llega una traza. En lugar de almacenar los spans de forma aislada, Middleware los correlaciona con las señales de infraestructura del host o clúster donde se ejecuta el servicio. Un ingeniero que investiga un pico de latencia en un span de gateway puede navegar directamente desde la vista de trazas a las métricas de CPU y memoria para ese pod, sin cambiar de panel. Middleware también construye un mapa de topología de servicio en vivo a partir de los datos de span entrantes, haciendo que cada servicio instrumentado sea visible como un nodo en el mapa de servicio con la latencia y la tasa de error calculadas automáticamente a partir de sus spans.

Mejor Juntos: Una Integración Perfecta para una Visibilidad Completa

La integración de Middleware y TrueFoundry AI Gateway simplifica y fortalece su observabilidad de IA. Esta combinación facilita la incorporación de visibilidad de nivel de producción directamente en su flujo de trabajo de IA, asegurando que sus sistemas sean observables desde el momento de la implementación.

Con esta solución integrada, cada solicitud de inferencia que pasa por TrueFoundry AI Gateway genera automáticamente un conjunto estructurado de spans de OpenTelemetry. Esos spans llevan el contenido del prompt, el contenido de la finalización, el recuento de tokens, el nombre del modelo, la latencia y el motivo de finalización como atributos consultables, y luego fluyen asincrónicamente a Middleware a través de OTLP/HTTP. Middleware los ingiere junto con el resto de la telemetría de su infraestructura, haciendo que el tráfico del gateway sea inmediatamente visible como un servicio de primera clase en el mapa de topología y las vistas de APM junto con los servicios de aplicación que lo llaman.

Para un control total sobre los datos sensibles, el interruptor "Exclude Request Data" (Excluir datos de solicitud) del gateway de TrueFoundry elimina el contenido del prompt y de la finalización de los atributos del span antes de la exportación. El recuento de tokens, la latencia y los metadatos del modelo se conservan de todos modos, por lo que mantiene una visibilidad operativa completa sin exponer las entradas del usuario a sistemas externos. Para organizaciones con estrictos requisitos de egreso de red, el exportador del gateway también puede apuntar a un OpenTelemetry Collector autogestionado que reenvía a Middleware, sin requerir cambios más allá de la URL del endpoint.

‍

Cómo funciona la integración de Middleware y TrueFoundry

Integración de Middleware y TrueFoundry AI Gateway

Middleware y TrueFoundry AI Gateway trabajan juntos para ofrecer observabilidad sin añadir complejidad a su ruta de inferencia.

Cómo funciona el flujo de trazas

‍

Su aplicación envía una solicitud de inferencia a TrueFoundry AI Gateway. El gateway gestiona la autenticación, la resolución de modelos y el enrutamiento completamente en memoria no se realizan llamadas externas en la ruta crítica.
El gateway reenvía la solicitud al proveedor de LLM configurado la única llamada externa en la ruta de la solicitud y devuelve la respuesta a su aplicación de inmediato.
Una vez entregada la respuesta, el gateway publica asincrónicamente el evento de traza completo en un bus NATS interno. La exportación se realiza completamente fuera de la ruta de la solicitud, por lo que la latencia de inferencia nunca se ve afectada por la disponibilidad o lentitud del punto final de OTEL.
Un proceso de exportación OTEL dedicado lee del bus NATS, serializa los spans como una carga útil OTLP/HTTP codificada en protobuf y los envía a su punto final de inquilino de Middleware en https://<your-domain>.middleware.io:443/v1/traces con su clave API de Middleware en el encabezado de autorización.
Middleware recibe la carga útil en su capa de ingesta OTLP y almacena los spans en su backend de telemetría correlacionada, donde se pueden consultar inmediatamente junto con los registros, las métricas de infraestructura y los datos de APM para el resto de su pila.

La configuración es igual de sencilla. Vaya a Ingeniería de IA → Configuración → Configuración de OTEL en el panel de TrueFoundry, introduzca su punto final de inquilino de Middleware y su clave API, establezca el protocolo en HTTP con codificación protobuf, y estará listo para empezar.

Comience con la observabilidad de IA de pila completa

La observabilidad de IA no tiene por qué significar un trabajo de instrumentación complejo. Con Middleware integrado en TrueFoundry AI Gateway, todo su tráfico de inferencia se vuelve visible correlacionado con señales de infraestructura, filtrable por nombre de modelo o recuento de tokens, y mapeado en una topología de servicio en vivo desde el momento en que se guarda la configuración. Es una observabilidad completa, de grado de producción, fácil de configurar, más como encender un interruptor que como un proyecto de ingeniería personalizado.

Para obtener más información, visite la documentación de Middleware y la referencia de integración de TrueFoundry para ver lo sencillo que es obtener visibilidad de pila completa en sus aplicaciones de IA.

¿Listo para empezar? Conecte su gateway de TrueFoundry a Middleware hoy mismo y convierta cada solicitud de inferencia en un evento de observabilidad estructurado y consultable.

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora