Actualizaciones de la plataforma de implementación

Published: April 22, 2026

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

El equipo de Truefoundry ha estado trabajando arduamente durante el último mes para agregar funciones a nuestra plataforma de implementación de aprendizaje automático. Nuestro objetivo es crear una plataforma de implementación que facilite absolutamente la implementación de modelos y servicios de aprendizaje automático y, al mismo tiempo, aplique los mejores principios de ingeniería y seguridad. Para crear una excelente plataforma de aprendizaje automático, necesitamos contar con una plataforma de ingeniería sólida y, por eso, gran parte del enfoque inicial se ha centrado en ofrecer una plataforma sólida para implementar el código.

De todas las piezas de la plataforma Ml descritas anteriormente, nos centramos en la infraestructura de servicio, la supervisión y toda la automatización en torno a ella.

Se trabajó mucho para crear nuestra plataforma de implementación sobre Kubernetes. El objetivo ha sido hacer que su implementación sea absolutamente sencilla en menos de 5 minutos, de forma que la plataforma se encargue de crear la imagen a partir del código fuente, almacenarla en un registro de Docker y, finalmente, implementar la aplicación en Kubernetes. Algunas de las actualizaciones del último mes incluyen las siguientes:

Posibilidad de elegir la familia de instancias durante la implementación

Los modelos de aprendizaje automático pueden tener una latencia de inferencia o un rendimiento muy diferentes según el tipo de instancia. Por ejemplo, al probar la latencia de inferencia de un modelo de cara abrazada en procesadores Intel en comparación con procesadores AMD, descubrimos que los procesadores Intel son aproximadamente un 30% más rápidos. Por eso, ahora tenemos la opción de permitir a los usuarios elegir el tipo de instancia al implementar sus cargas de trabajo. Si no se selecciona el tipo de instancia, la carga de trabajo se puede implementar en cualquier tipo de instancia disponible.

Choose instance type while deploying — Elige el tipo de instancia durante la implementación

Registros y métricas para las implementaciones

Anteriormente teníamos un enlace a Grafana para mostrar los registros y las métricas. Si bien Grafana era altamente personalizable, el control de permisos y acceso no era realmente posible en Grafana. Además, resultó ser un poco lento y difícil de entender para los usuarios que no estaban acostumbrados a Grafana. Por eso implementamos nuestra propia interfaz de usuario para mostrar los registros y las métricas, lo que debería ser suficiente en la mayoría de los casos. Seguimos ofreciendo la integración de Grafana en la nube pública para usuarios más avanzados.

Application Logs — Registros de aplicaciones

Control de permisos en grupos secretos

Ahora podemos añadir usuarios como editores, espectadores o administradores en grupos secretos.

Integración de Github y Bitbucket

Ahora podemos implementar directamente en Truefoundry desde cualquier repositorio de Github o bitbucket. Los usuarios pueden integrarse con sus propios repositorios privados mediante el flujo de Oauth y seleccionar los parámetros apropiados para implementar la aplicación.

Durante el próximo mes, trabajaremos en algunas funciones interesantes, como:

Hacer que la plataforma sea más intuitiva y fácil de usar.
Despliegue automatizado de truefoundry stack en cualquier clúster de Kubernetes
Soporte para equipos
Funcionalidad de reversión de la implementación

¡Estén atentos y háganos saber sus comentarios!

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora