AI Gateway On Premise: todo lo que necesita saber
.webp)
Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
En el mundo actual impulsado por la IA, las empresas de todos los sectores, desde la atención médica hasta las finanzas, necesitan sistemas que brinden inteligencia rápida, segura y confiable. La implementación local de la infraestructura de IA aborda estas necesidades al mantener los datos dentro de los límites de la organización, reducir la latencia y minimizar la dependencia de las nubes públicas. Esta configuración garantiza el cumplimiento estricto de normativas como la HIPAA o el RGPD, al tiempo que permite disfrutar de experiencias de usuario en tiempo real y una autonomía operativa total.
TrueFoundry está en las instalaciones Puerta de enlace de IA ofrece una API unificada compatible con OpenAI para acceder a más de 250 modelos de forma segura dentro de su infraestructura. Integra la gobernanza esencial, como el control de acceso, la limitación de velocidad, las barreras y el registro de auditorías en la puerta de entrada, para garantizar el cumplimiento y la responsabilidad. Diseñado para tomar decisiones en memoria y sin llamadas externas en la ruta de solicitud, logra una latencia ultrabaja y una alta confiabilidad.
En este blog, aprenderá cómo funciona su arquitectura, por qué es importante la implementación local y las mejores prácticas para la implementación y la administración.
Por qué es importante el entorno local
Las organizaciones optan cada vez más por las implementaciones de IA locales para reforzar el control, la seguridad, el rendimiento y la estabilidad de los costes.
En primer lugar, los entornos locales proporcionan soberanía sobre los datos. La información confidencial, como los historiales médicos, las transacciones financieras o la I+D exclusiva, permanece en la propia red de la empresa. Este enfoque garantiza el cumplimiento de normativas como el RGPD, la HIPAA y el PCI-DSS, lo que reduce el riesgo de exposición y simplifica las auditorías.
En segundo lugar, estas configuraciones mejoran la seguridad y la gobernanza. Los equipos internos supervisan directamente el cifrado, la administración del acceso y los registros de auditoría, lo que genera un control más estricto sobre el manejo de los datos y reduce la dependencia de proveedores externos. Esto es esencial para las industrias con una alta sensibilidad de los datos y un alto nivel de control regulatorio.
En tercer lugar, los beneficios de rendimiento son importantes. Al colocar la computación junto a los datos, estos sistemas minimizan la latencia, algo crucial para las aplicaciones en tiempo real, como la detección de fraudes, el mantenimiento predictivo y los sistemas autónomos. La implementación local evita la variabilidad de Internet y las limitaciones de la nube, y ofrece un rendimiento más uniforme.
En cuarto lugar, si bien el CapEx inicial para el hardware y la infraestructura puede ser sustancial, la IA local a menudo ofrece una mayor previsibilidad de los costos a largo plazo para cargas de trabajo sostenidas. Elimina los costos variables, como los precios de los tokens en la nube y las tarifas de salida. Los estudios demuestran que, con el tiempo, mantener el hardware en su propio centro de datos puede resultar más rentable que confiar en los servicios en la nube.
Muchas empresas ahora están adoptando arquitecturas híbridas, que combinan despliegues locales y en la nube. Esta estrategia permite que las cargas de trabajo sensibles permanezcan in situ y, al mismo tiempo, aprovecha la escalabilidad de la nube para tareas menos críticas. Ofrece un enfoque equilibrado que combina el cumplimiento normativo, el rendimiento y la flexibilidad.
En resumen, la elección de la IA local ofrece un control de datos incomparable, una seguridad mejorada, un rendimiento de baja latencia y estructuras de costes estables. Estos factores la convierten en una prioridad estratégica para las organizaciones que gestionan cargas de trabajo delicadas o críticas. En la siguiente sección, analizaremos cómo el portal de inteligencia artificial local de TrueFoundry le permite implementar estos beneficios de una manera escalable y centrada en la gobernanza.
Principios básicos y arquitectura
Las pasarelas de IA locales deben cumplir varios principios esenciales para respaldar las implementaciones de nivel empresarial.
Alta disponibilidad garantiza que la puerta de enlace nunca se convierta en un único punto de falla. Incluso si los componentes dependientes, como las bases de datos o las colas, fallan, la inferencia debe continuar sin interrupciones.
Baja latencia es fundamental; las pasarelas deberían añadir un retraso insignificante a las solicitudes en vivo para mantener experiencias de IA receptivas.
Alto rendimiento y escalabilidad también son cruciales. Cada nodo de puerta de enlace debe gestionar una alta concurrencia y escalar en función de la demanda, garantizando un rendimiento uniforme bajo carga.
No hay dependencias externas en la ruta de solicitud significa que la gestión de solicitudes en tiempo real no puede basarse en llamadas de red o de disco. Las tareas no esenciales, como el registro, se aplazan a un segundo plano.
Toma de decisiones en memoria admite la aplicación de políticas como la autenticación, la autorización, la limitación de velocidad y el enrutamiento en menos de milisegundos.
Separación del plano de control y el plano de datos permite que la lógica de configuración y administración funcione independientemente de la gestión del tráfico en vivo, lo que facilita la resiliencia, las actualizaciones sencillas y el escalado horizontal.
Arquitectura
La arquitectura de una pasarela de IA local aplica estos principios en un sistema modular y distribuido.
- El plano de datos consta de nodos proxy sin estado que gestionan el tráfico de inferencia en tiempo real. Todas las comprobaciones de políticas se realizan en la memoria durante el procesamiento de la solicitud. Los registros y las métricas se envían de forma asincrónica a las canalizaciones en segundo plano, lo que evita el impacto de la latencia. Incluso si la infraestructura de telemetría falla, el tráfico continúa sin interrupciones.
- El plano de control administra la configuración y las políticas, como las reglas de acceso modelo, los límites de velocidad y las barandillas. Distribuye las actualizaciones a los nodos del plano de datos mediante mecanismos basados en eventos, lo que permite realizar actualizaciones sin interrupciones sin interrupciones en el servicio.
- Una canalización de telemetría asincrónica agrega registros y métricas a través de colas almacenadas en búfer en almacenes de datos de alto rendimiento. Este diseño garantiza la observabilidad sin necesidad de combinarlo con el rendimiento de la gestión de las solicitudes.
Por último, ambos planos están diseñados para escalarse horizontalmente. Los nodos del plano de datos sin estado se pueden replicar detrás de los balanceadores de carga, mientras que los nodos del plano de control se escalan de forma independiente para respaldar la orquestación de políticas y la resiliencia del sistema.
Estos principios y arquitectura combinados permiten que las pasarelas de IA locales sean rápidas, resilientes, seguras y administrables a escala empresarial. En la siguiente sección, profundizaremos en la implementación de estas construcciones por parte de TrueFoundry.
Puerta de enlace de IA local de TrueFoundry

El portal de IA local de TrueFoundry se basa en principios fundamentales para ofrecer una plataforma escalable, segura y de alto rendimiento para las cargas de trabajo de IA. Este es un desglose detallado de sus capacidades y funcionamiento interno, basado únicamente en la documentación oficial de TrueFoundry.
1. Core de alto rendimiento
La puerta de enlace de TrueFoundry se basa en el marco Hono, un tiempo de ejecución ligero y optimizado para los bordes diseñado para la velocidad. Los puntos de referencia muestran que una sola instancia de proxy, con solo 1 CPU y 1 GB de RAM, puede gestionar 250 solicitudes por segundo con solo unos pocos milisegundos de latencia adicional. Todas las operaciones de aplicación de claves, la autenticación, la autorización, la limitación de velocidad y el enrutamiento se ejecutan en la memoria y no se produce absolutamente ninguna llamada externa durante la gestión de las solicitudes. Esto garantiza tiempos de respuesta inferiores a un milisegundo y un rendimiento uniforme bajo carga.
2. Separación limpia de responsabilidades
La puerta de enlace sigue una división clásica entre plano de control y plano proxy:
- Plano proxy
Implementa módulos sin estado que gestionan directamente el tráfico de inferencia de IA en vivo. Aplican políticas y dirigen las solicitudes sin tener que recurrir a bases de datos o servicios externos. Este diseño admite el escalado horizontal, lo que garantiza que el sistema crezca de forma elástica con la demanda. - Plano de control
Centraliza la configuración, las políticas y los metadatos. Gestiona las reglas de acceso modelo, los límites de velocidad, las barreras y distribuye las actualizaciones a través de un bus interno. Esta separación permite realizar cambios en la configuración sin interrumpir el tráfico en curso.
3. Registro resiliente y asincrónico
Para preservar el rendimiento, el registro y la telemetría se administran de forma asincrónica:
- Los pods de proxy emiten métricas y registros de auditoría a una cola de mensajes (NATS).
- Los registros son recopilados por sistemas independientes, como ClickHouse, que proporcionan paneles de búsqueda, análisis y observabilidad.
- La cola no bloquea: incluso si los sistemas posteriores fallan, las solicitudes se siguen procesando, lo que garantiza que ninguna dependencia por sí sola pueda provocar interrupciones.
4. Componentes principales del sistema
La puerta de enlace de TrueFoundry comprende varios componentes estrechamente integrados:
- Interfaz de usuario/interfaz de usuario: Ofrece una zona de juegos de API interactiva y consolas para configurar políticas, ver análisis y administrar modelos.
- Postgres: Almacena metadatos, incluidos los equipos de usuarios, los permisos, los ajustes de tarifas y las configuraciones de enrutamiento.
- Haga clic en House: Un almacén de datos de alto rendimiento para registros, métricas de uso y pistas de auditoría.
- HORMIGAS: Una cola de mensajes ligera responsable de la propagación en tiempo real de los datos de configuración y telemetría.
- Servicio de backend: Combina la interfaz de usuario, el proxy, NATS, Postgres y ClickHouse, lo que organiza la funcionalidad general de la puerta de enlace.
- Cápsulas Gateway: Contenedores sin estado y optimizados para el borde que administran la inferencia, aplican políticas, recopilan telemetría y reenvían solicitudes de IA.
5. Escalabilidad y evaluación comparativa
La documentación de TrueFoundry destaca una sólida escalabilidad lineal:
- Un solo pod gestiona 250 RPS con un impacto mínimo en la latencia.
- La latencia permanece baja hasta una saturación de la CPU de alrededor de 350 RPS por pod.
- La implementación de varios pods permite que el sistema escale sin esfuerzo a decenas de miles de solicitudes.
6. Gobernanza y API unificada
- La interfaz compatible con OpenAI permite un acceso sin problemas a más de 250 modelos con formatos de solicitud consistentes.
- La gobernanza integrada abarca el control de acceso, la limitación de velocidad, la selección de modelos, las reglas alternativas y los registros de auditoría. Estas políticas se aplican en línea en la puerta de enlace, lo que hace que los controles avanzados sean transparentes para los usuarios.
7. Observabilidad y análisis
La puerta de enlace ofrece información telemétrica profunda:
- Desgloses de latencia (p. ej., tiempo transcurrido hasta el primer token, espaciado entre tokens)
- Activadores de volumen y límite de velocidad y control de volumen de solicitudes
- Registros de auditoría que detallan el uso del modelo, las decisiones políticas y la segmentación a nivel de equipo
Se puede acceder a todos los análisis a través de paneles con capacidades de exportación para la elaboración de informes de gestión y cumplimiento.
La puerta de enlace de inteligencia artificial local de TrueFoundry incorpora la combinación ideal de rendimiento, escalabilidad, resiliencia y gobernanza, todo ello organizado dentro de una plataforma fácil de usar. A continuación, lo guiaremos a través de los pasos de implementación y las mejores prácticas para incorporar esta puerta de enlace a su infraestructura.
flujo de trabajo de despliegue
La implementación de AI Gateway local de TrueFoundry comienza con la verificación de la conectividad, las licencias y las configuraciones de dominio para garantizar operaciones seguras y fluidas. La instalación utiliza un gráfico basado en HELM que reúne los componentes principales, el plano de control, la base de datos, la telemetría y los módulos de puerta de enlace sin estado en su clúster de Kubernetes.
Este enfoque simplifica Despliegue del modelo de IA estandarizando la forma en que los componentes de infraestructura de inferencia, gobierno y enrutamiento se introducen en los entornos de producción.
1. Requisitos previos y preparación de la infraestructura
Antes de implementar AI Gateway en las instalaciones, asegúrese de que los siguientes elementos estén en su lugar:
- Conectividad de salida a auth.truefoundry.com y analytics.truefoundry.com, lo que permite las operaciones de licenciamiento y análisis.
- Un nombre de dominio válido, mapeado mediante la entrada (por ejemplo, NGINX o Istio), para servir tanto a la interfaz de usuario del plano de control como a los puntos finales de la puerta de enlace.
- Credenciales de TrueFoundry (nombre del inquilino, clave de licencia y secreto de extracción del registro del contenedor), proporcionadas por el equipo de TF.
Estos requisitos previos garantizan una comunicación segura y autorizada con el plano de control de TrueFoundry y, al mismo tiempo, mantienen el alojamiento autogestionado de los componentes principales.
2. Instalación y configuración
Una vez establecidos los requisitos previos, puede configurar la instalación principal mediante una implementación basada en HELM:
- Un archivo de configuración centralizado especifica los detalles del inquilino, la licencia y la configuración de ingreso y habilita los indicadores específicos de AI-Gateway.
- El gráfico de Helm implementa servicios de plano de control (interfaz, servicio de fondo, Postgres, ClickHouse, NATS) junto con módulos de puerta de enlace sin estado en su clúster de Kubernetes.
Esta estructura elimina la complejidad de la configuración manual, lo que garantiza una implementación uniforme y repetible.
3. Configuración y seguridad de la red
Durante la implementación:
- Configure su controlador de entrada para exponer el plano de control y los puntos finales de la puerta de enlace, con los certificados TLS adecuados.
- Asegúrese de que las políticas de red internas permitan a los módulos de puerta de enlace enviar telemetría a NATS y puntos finales de análisis.
- Para entornos seguros, asegúrese de que los pods se comuniquen con los servicios de backend a través de HTTPS y de que los secretos de autenticación se almacenen de forma segura (por ejemplo, a través de K8s Secrets).
4. Diseño de escalado y multinodo
- Los módulos de puerta de enlace sin estado se pueden escalar horizontalmente para satisfacer la demanda; agregar réplicas aumenta el rendimiento de las solicitudes sin problemas.
- Los componentes del plano de control correspondientes (Postgres, ClickHouse, NATS) deben implementarse teniendo en cuenta la resiliencia, mediante configuraciones de múltiples réplicas o clústeres para gestionar las actualizaciones de configuración y el registro de forma fiable.
Este patrón garantiza una alta disponibilidad, elasticidad y separación del sistema para mejorar la estabilidad.
5. Administración continua de la configuración
Una vez desplegado, el plano de control propaga las actualizaciones a los pods de puerta de enlace a través de NATS:
- Los cambios, como las actualizaciones de políticas, los puntos finales de los nuevos modelos, las reglas de límite de velocidad o las especificaciones de enrutamiento, se publican en tiempo real.
- Los pods de puerta de enlace aplican estos parámetros en la memoria de forma inmediata, sin reinicio ni tiempo de inactividad.
Esto permite realizar cambios dinámicos a través de la interfaz de usuario o los flujos de trabajo de GitOps, sin interrumpir el servicio.
6. Monitoreo y observabilidad
- La pasarela transmite registros, métricas y datos de auditoría de forma asíncrona a ClickHouse para su observabilidad y análisis.
- Incluso si los sistemas de telemetría no están disponibles temporalmente, el tráfico de inferencia principal no se ve afectado, gracias al desacoplamiento mediante el almacenamiento en búfer de la cola de mensajes.
- Utilice las vistas de panel o los registros exportados para supervisar el TTF, el uso de tokens, los eventos de protección y los registros de auditoría.
7. Mantenimiento, actualizaciones y soporte para múltiples clústeres
- Las actualizaciones a las nuevas versiones de TF se gestionan a nivel del gráfico de Helm; la mayoría de las actualizaciones de los componentes (por ejemplo, los módulos de puerta de enlace o las aplicaciones del plano de control) se pueden realizar sin tiempo de inactividad.
- Para configuraciones más grandes, implemente pods de puerta de enlace en varios clústeres o regiones para la recuperación ante desastres y la segmentación del cumplimiento.
Con la puerta de enlace implementada, configurada y monitoreada, su pila de IA local está lista para las cargas de trabajo de producción. A continuación, analizaremos las mejores prácticas para lograr la excelencia operativa, el fortalecimiento de la seguridad y el escalamiento alineado con la gobernanza.
Desafíos y mejores prácticas
La implementación de una puerta de enlace de IA local presenta obstáculos específicos junto con soluciones comprobadas:
Seguridad y resiliencia: Las configuraciones locales se enfrentan a una mayor exposición a amenazas como los ataques DDoS, la inyección rápida, la filtración de datos y el envenenamiento de modelos. La mejor práctica consiste en adoptar un modelo de confianza cero con sistemas de inspección reforzados por solicitud y de protección contra DDoS escalables.
Protección de datos y cumplimiento: Las empresas deben aplicar un cifrado estricto para los datos en reposo y en tránsito. Los controles de acceso auditables y un registro de auditoría sólido son fundamentales para cumplir con el RGPD, la HIPAA y otras normas reglamentarias similares; por lo tanto, se recomienda utilizar una gestión de claves basada en HSM en un entorno aislado.
Escalabilidad y rendimiento: La infraestructura de puerta de enlace debe admitir el escalado horizontal para evitar cuellos de botella. Los nodos proxy sin estado, combinados con el escalado automático basado en eventos, ayudan a mantener un rendimiento de baja latencia. Mientras tanto, el registro asincrónico garantiza que la observabilidad no perjudique el rendimiento.
Mejores prácticas operativas: Automatice la implementación y la configuración con GitOps, integre la supervisión continua y mantenga las canalizaciones de observabilidad. Audite de forma proactiva el uso del modelo y las barreras de protección para garantizar el cumplimiento, la seguridad y el control de costos continuos. En conjunto, estas medidas garantizan una implementación de IA local confiable, segura y que cumpla con las normas.
Conclusión
GenAI local está pasando de ser una alternativa de cumplimiento a convertirse en un diferenciador estratégico. El portal de inteligencia artificial local de TrueFoundry permite a las empresas tener un control total sobre la infraestructura, los modelos y los datos, lo que lo hace ideal para sectores con necesidades normativas y de privacidad estrictas, como la sanidad, las finanzas y el gobierno. Si bien la configuración requiere una inversión inicial, ofrece previsibilidad de costos a largo plazo, capacidad de auditoría y una profunda integración con los sistemas internos. Más que una solución temporal, la implementación local ofrece agilidad, soberanía y escalabilidad. A medida que las soluciones de IA se vuelven más críticas, contar con una base en su entorno le garantiza que puede innovar con confianza, seguridad y a escala.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA















.png)


.webp)




.webp)







