Integración de TrueFoundry AI Gateway con Elastic
.webp)
Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
Los sistemas LLM de producción se comportan como sistemas distribuidos. La solicitud de un usuario puede activar varios modelos de llamadas, llamadas y reintentos de herramientas. Sin un único límite de ejecución, la telemetría se fragmenta y la depuración se convierte en conjeturas.
Esta publicación muestra cómo conectar TrueFoundry AI Gateway con Elastic Cloud para que los rastros de la puerta de enlace fluyan hacia Elastic Observability mediante OpenTelemetry. Configurarás un punto final de OTLP y una clave de API en la puerta de enlace.
El plano de control que falta en las arquitecturas LLM
Cuando las aplicaciones se comunican directamente con los proveedores de modelos, no hay un lugar coherente para aplicar las políticas y capturar los rastros. Una puerta de enlace crea esa superficie uniforme para centralizar la gobernanza, el enrutamiento y la generación de telemetría.
Puerta de enlace de IA TrueFoundry
Puerta de enlace de IA TrueFoundry establece un único punto de entrada gobernado para las solicitudes de modelos y agentes. Las aplicaciones y los agentes se comunican con el proxy de la puerta de enlace en lugar de hablar directamente con los proveedores. Esta arquitectura hace que las decisiones de enrutamiento y la generación de telemetría sean coherentes en todas las solicitudes.
La pasarela puede exportar las trazas mediante los protocolos OpenTelemetry estándar para que puedas enviar el mismo flujo de trazas a la plataforma de observabilidad que ya utilizan tus equipos.
Nube elástica
Nube elástica es un servicio administrado para el Elastic Stack que admite los flujos de trabajo de seguridad y observabilidad de las búsquedas. Puede analizar los registros, las métricas y los rastreos a escala, lo que lo convierte en un destino natural para los rastreos de las puertas de enlace.
TrueFoundry AI Gateway admite la exportación de trazas de OpenTelemetry a plataformas externas como Elastic Cloud para que puedas usar Elastic para la observabilidad y, al mismo tiempo, mantener TrueFoundry como la capa de acceso de LLM unificada.
OpenTelemetry como capa de integración
Esta integración usa OpenTelemetry de principio a fin. La pasarela exporta las trazas de OTEL y Elastic Cloud las ingiere a través de su terminal OTLP administrado.
Integración con Elastic Cloud
Paso 1: Obtén tu punto final y clave de API de Elastic Cloud
En la consola de Elastic Cloud, abre tu implementación o proyecto sin servidor, luego ve a Agregar datos, luego a Aplicaciones y luego a OpenTelemetry. Copia la URL del punto final de OTLP administrado y copia el valor de la clave de API que se muestra en los encabezados de autenticación. Las implementaciones alojadas de Elastic Cloud requieren la versión 9.2 o posterior para el punto de enlace de OTLP administrado.
Paso 2: Abra la configuración OTEL de AI Gateway en TrueFoundry
En el panel de control de TrueFoundry, ve a AI Gateway, luego a Controles y luego a Configuración. Desplázate hasta la sección de configuración de OTEL y abre el editor para la configuración del exportador.
Paso 3: Configurar el punto final de Elastic Cloud
Habilite el exportador OTEL Traces. Establezca el tipo de configuración en http. Configura el punto final de seguimiento en el punto final de OTLP administrado que copiaste de Elastic Cloud. Elige la codificación Json o Proto.
Una configuración mínima se ve así.
Tipo de configuración: http
Punto final de rastreo: https://<your motlp endpoint>
Codificación: Json o Proto

Paso 4 Agregue el encabezado requerido
Agregue un encabezado HTTP denominado Autorización con el valor en formato apiKey. El prefijo apiKey es obligatorio.
Autorización: apiKey <your api key>
Paso 5 Guardar la configuración
Guarde la configuración de exportación de OTEL. Después de esto, todos los rastros de las puertas de enlace se exportarán automáticamente a Elastic Cloud.
Paso 6 Ver los rastros en Elastic
Envía algunas solicitudes a través de la pasarela. Luego abre Kibana y ve a Observability, luego a APM, luego a Services y busca el servicio llamado puerta de enlace tfy-llm. Desde allí, puede inspeccionar los rastros y las transacciones de cada solicitud.
Notas operativas
Elección de codificación
El punto final de OTLP administrado por Elastic Cloud es compatible con Json y Proto. Json es más fácil de leer durante la depuración. Proto es más eficiente para datos de gran volumen.
Agregar atributos de recursos
Puede establecer atributos de recursos adicionales en la configuración del exportador para adjuntar etiquetas coherentes a cada seguimiento exportado. Esto es útil para el filtrado a nivel de entorno e inquilino en Elastic.
Solución de problemas
Si ves un error de autenticación que menciona un prefijo ApiKey, significa que el encabezado de autorización no tiene el formato correcto y debería empezar por ApiKey. Si aparece el protocolo HTTP 429, es posible que tu implementación esté alcanzando los límites de tasa de ingesta, por lo que deberías considerar la posibilidad de cambiar el plan o hacer ajustes de muestreo.
Qué puede hacer con esta integración
Cuando AI Gateway exporta las trazas a Elastic Cloud, tienes un lugar para analizar las trazas de las pasarelas con los mismos flujos de trabajo de observabilidad que ya utilizas para el resto de tu pila. Elastic reúne los registros, las métricas, los rastreos y las visualizaciones de APM en una sola plataforma para que tu tráfico de LLM no quede aislado de las señales de las aplicaciones y la infraestructura.
Puedes depurar una solicitud de un solo usuario de un extremo a otro abriendo el seguimiento en Elastic. La interfaz de usuario de Traces muestra el rastreo distribuido para que puedas ver la ruta completa de ejecución. El mapa de servicios le ayuda a entender las dependencias de los servicios. Los detalles de las transacciones indican el tiempo y los metadatos de las solicitudes para que pueda detectar rápidamente el paso lento.
Puede detectar las regresiones antes observando las tendencias en lugar de los incidentes individuales. Elastic Observability proporciona paneles y funciones de análisis que ayudan a los equipos a pasar de la telemetría sin procesar a la información. También incluye funciones similares a las de la detección de anomalías que pueden revelar patrones inusuales en las señales.
Puedes ejecutar flujos de trabajo de monitoreo específicos de LLM dentro de Elastic. Elastic destaca los casos de uso de la capacidad de observación de la LLM, como el seguimiento de los errores de latencia, las respuestas, el uso y los costos. Con AI Gateway como límite de ejecución, puedes hacer que esta cobertura sea uniforme en cada modelo de llamada que pase por la puerta de enlace.
Puede facilitar el filtrado y el agrupamiento de los rastros agregando atributos de recursos en la configuración del exportador de la puerta de enlace. Esto es útil para los metadatos del entorno y las etiquetas de inquilinos, de modo que los equipos puedan dividir los seguimientos por etapas de producción o por unidad de negocio dentro de Elastic.
Conclusión
TrueFoundry AI Gateway le brinda un límite de ejecución uniforme para todo el tráfico de LLM. Elastic Cloud te brinda una superficie de observabilidad madura para los flujos de trabajo a nivel de servicio y rastreo. Con OpenTelemetry conectándolos, puedes depurar y operar sistemas de LLM con el mismo rigor que esperas de cualquier sistema distribuido de producción.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA















.png)


.webp)




.webp)







