Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

TrueFoundry Architecture: ¡aprendizaje automático en Kubernetes!

Por Abhishek Choudhary

Actualizado: June 22, 2023

Resumir con

TrueFoundry facilita enormemente la implementación de aplicaciones en clústeres de Kubernetes en su propia cuenta de proveedor de nube. Lo hace abstrayendo los componentes de la infraestructura para los científicos y desarrolladores de datos y, al mismo tiempo, aplicando las mejores prácticas desde el punto de vista de la seguridad, la infraestructura y la optimización de costos.

Las motivaciones clave detrás de la arquitectura actual de TrueFoundry son:

  1. Los datos no deben salir de su cuenta en la nube o local: El aprendizaje automático suele implicar interactuar con una gran cantidad de datos. Si los datos salen de su cuenta en la nube (VPC), existe el riesgo de que la seguridad de los datos se vea comprometida y, además, acabemos incurriendo en costos de entrada y salida de datos. Por eso, TrueFoundry se diseñó desde cero para mantener los datos y la computación dentro de su propio entorno.
  2. ML hereda los principios de la SRE dentro de su organización: Las empresas suelen implementar todas las pilas de implementación, monitoreo y alertas para implementar sus microservicios de software. Queríamos que el aprendizaje automático heredara las mismas prácticas y no siguiera una ruta de configuración de infraestructura paralela. Esto facilita que los equipos de infraestructura y SRE apliquen las mejores prácticas de seguridad y optimización de costos en toda la organización.
  3. Nativo de la nube: TrueFoundry se basa en Kubernetes y, por lo tanto, es nativo de la nube por su diseño. Sin embargo, aunque Kubernetes es nativo de la nube, existen muchas diferencias complejas entre las distribuciones de Kubernetes de AWS (EKS), GCP (GKE) y Azure (AKS). Algunos ejemplos de estas diferencias son:
El piloto automático de GKE exige tener los mismos valores para las solicitudes y los límites de los recursos, mientras que AKS, EKS y GKE Standard no lo hacen.
EKS y GKE tienen una opción para el aprovisionamiento automático de nodos, mientras que AKS no ofrece una forma de hacerlo.
El tiempo de aprovisionamiento de nodos es bastante alto para AKS, lo que lleva a un comportamiento de escalado automático muy lento.

Ser nativos de la nube nos permite tener acceso a los diferentes tipos de hardware proporcionados por los diferentes proveedores de nube, especialmente en el caso de las GPU.

4. Integre en lugar de reinventar: TrueFoundry se integra con la mayoría de los sistemas de uso común en lugar de reinventar la rueda. Esta filosofía impulsa muchas de nuestras decisiones de arquitectura. A veces, esto nos dificulta el proceso, ya que no siempre es fácil crear integraciones cuando no hay API sólidas disponibles, pero nos esforzamos por crear esas API e interfaces para que nuestros usuarios no tengan que aprender otra herramienta más.

ML Stack para una iteración e impacto rápidos

El aprendizaje automático requiere configurar una pila complicada para que los científicos de datos puedan experimentar y entregar rápidamente.

Pila ML

Lo ideal sería que los desarrolladores gastaran más en la capa verde superior, mientras que las capas inferiores deberían estar completamente abstraídas de ellas. TrueFoundry proporciona un conjunto abierto y personalizable que funciona con lo que se está utilizando actualmente y ayuda a los científicos de datos a procesar las aplicaciones sin centrarse en las capas de infraestructura subyacentes.

En el siguiente diagrama, TrueFoundry proporciona el registro de modelos de entrenamiento, servicio y modelo para facilitar a los científicos de datos la creación, el seguimiento y la implementación de modelos.

Módulos de plataforma TrueFoundry

El conjunto clave de integraciones que TrueFoundry proporciona actualmente son:

  1. CI/CD: Github Actions, Bitbucket Pipelines, Jenkins. Estamos añadiendo integraciones adicionales en función de la demanda de los clientes.
  2. Malla de servicios: Actualmente operamos con Istio. Planeamos dar soporte a otros controladores Ingress y proveedores de redes de servicios como Linkerd y Nginx.
  3. Monitorización: Las aplicaciones implementadas de TrueFoundry se pueden monitorear utilizando cualquiera de sus sistemas de monitoreo existentes, como Prometheus, Cloudwatch, DataDog, NewRelic, ELK stack, etc.
  4. Administración de costos: Proporcionamos una atribución detallada de costos por servicio/espacio de nombres mediante OpenCost. TrueFoundry también proporciona información directamente a los desarrolladores para reducir el costo de sus servicios.
  5. Control de acceso: TrueFoundry se integra con la mayoría de los IdP, como Okta, Auth0, AzureAD y Keycloak, mediante protocolos OIDC o SAML para la autenticación. La autorización para diferentes espacios de trabajo está integrada en el producto para decidir los permisos de forma granular.
  6. Gestión de secretos: TrueFoundry se integra con Hashcorp Vault, GCP Secrets Manager y AWS Parameter Store para la administración de secretos. También tenemos previsto añadir la integración con Azure Vault y AWS Secrets Manager.
  7. Motor de flujo de trabajo: TrueFoundry se integra con ArgoWorkflows para proporcionar un motor de flujo de trabajo a los científicos de datos.

Arquitectura TrueFoundry

TrueFoundry proporciona una arquitectura de plano dividido que se compone de los siguientes componentes principales:

  1. Plano de control: Este es el cerebro del sistema TrueFoundry, que organiza las implementaciones en los diferentes planos de cómputos. Proporcionamos un plano de control hospedado en nuestro plan habitual. Para los clientes empresariales, el plano de control también se puede implementar en la nube de los clientes.
  2. Plano de cálculo: Este es el clúster de Kubernetes en el que se ejecuta el código del usuario. Hay un agente en el plano de procesamiento (agente tfy) que se comunica con el plano de control y ejecuta los comandos recibidos desde el plano de control. El código del usuario que accede a los datos se ejecuta en el plano de cálculo y, por lo tanto, el clúster del plano de cálculo debe estar cerca de los datos.

3. Interfaces de cliente: Los desarrolladores y científicos de datos pueden comunicarse con la interfaz de usuario mediante un SDK de Python, nuestra interfaz de usuario web o mediante las CLI de TrueFoundry (servicefoundry y mlfoundry). TrueFoundry también expone las API para que los clientes creen flujos de trabajo de automatización, que se documentan aquí: https://docs.truefoundry.com/reference

4. Servidor de autenticación: Hay un servidor central de autenticación y licencias que realiza un seguimiento de todas las organizaciones y sus miembros. Este servidor está alojado en TrueFoundry y también se puede integrar con IdP externos para proporcionar una experiencia de inicio de sesión única a todos nuestros usuarios.

Arquitectura de panel dividido de Truefoundry

Ventajas de esta arquitectura

Redes seguras

El componente tfy-agent no tiene entrada y es responsable de iniciar la conexión al plano de control. Establece una conexión cifrada persistente con el plano de control a través del cual se produce la comunicación. Esto permite que el sistema funcione incluso si los clústeres del plano de cálculo son privados o se encuentran en diferentes VPC. La única restricción es que todos los clústeres del plano de cálculo deben poder acceder a la URL del plano de control. También puedes controlar los permisos otorgados a tfy-agent mediante el RBAC de Kubernetes para tener acceso a ciertos espacios de nombres.

Dependencia suave del plano de control de Truefoundry

El plano de control de Truefoundry solo es responsable de organizar las implementaciones en el plano de computación. No se encuentra en la ruta crítica del flujo de solicitudes a los servicios implementados. Por lo tanto, aunque elimines el plano de control de Truefoundry, todos los servicios implementados seguirán funcionando sin problemas. Esta disociación de la confiabilidad del servicio de Truefoundry ayuda a garantizar que Truefoundry no se encuentre en el camino crítico de la confiabilidad del servicio.

Ruta de solicitud de servicio implementada independiente de Truefoundry

Administración eficiente de múltiples clústeres

El plano de control de Truefoundry proporciona un único panel para ver todos los clústeres de Kubernetes de todos los proveedores de nube y locales de la empresa. Esto también facilita la transferencia de cargas de trabajo de un clúster a otro mediante nuestra función de clonación y promoción.

Flujo de implementación del usuario al plano de cómputos a través del plano de control

Menor costo y mantenimiento

El agente Truefoundry es un componente muy ligero que se encuentra en todos los clústeres, aunque solo es necesario que haya una única copia del plano de control. El plano de control necesita más recursos (3 CPU, 6 GB de RAM), mientras que el agente solo necesita 0,2 CPU y 400 MB de RAM. A medida que aumentan la escala del tráfico y los equipos, normalmente necesitamos agregar más clústeres en función de las regiones o los equipos. Sin embargo, no es necesario replicar el plano de control, lo que permite reducir los costos y el mantenimiento.

Un vistazo al plano de control de Truefoundry

El plano de control de Truefoundry se compone de varios microservicios que organizan las implementaciones, modelan el almacenamiento de metadatos, etc. Los componentes clave del plano de control de Truefoundry son:

  1. Interfaz de usuario web

2. Microservicios para organizar las implementaciones: el plano de control se compone de unos pocos microservicios para organizar las implementaciones en los clústeres y también almacena en caché las actualizaciones en vivo de todos los clústeres conectados en el plano de computación.

3. Base de datos Postgres: se utiliza para almacenar toda la información sobre los equipos, los servicios implementados y sus metadatos.

Clúster de planos de computación

Necesitamos instalar algunos componentes en el clúster Compute-Plane para aprovechar todos los beneficios de Truefoundry. La lista es la siguiente:

  1. tfy-agent (obligatorio): este es el agente truefoundry-agent que inicia la conexión con el plano de control y ayuda a coordinar las instrucciones desde el plano de control.
  2. Argo CD (Obligatorio): ArgoCD se usa para aplicar todos los manifiestos al clúster de Kubernetes. Esto es mejor que instalar Helm, ya que el controlador ArgoCD se asegura de que el estado interno esté sincronizado con el estado deseado en los manifiestos y no es propenso a que se produzcan errores al instalar Helm.
  3. Istio (Obligatorio actualmente, será opcional en el futuro): Actualmente confiamos en Istio como controlador de entrada para el clúster. No es obligatorio utilizar los sidecars de Istio y se pueden habilitar de forma opcional si es necesario para casos de uso como el TLS mutuo. También tenemos previsto utilizar las API Gateway de Kubernetes, que nos permitirán trabajar con varios controladores de entrada, como Nginx, Linkerd, Traefik, etc.
  4. Flujos de trabajo de Argo (Necesario solo para ejecutar trabajos): utilizamos ArgoWorkflows para ejecutar todos los trabajos del clúster debido a las opciones más avanzadas que ofrece en comparación con los trabajos de Kubernetes.
  5. Lanzamientos de Argo (Obligatorio): Usamos ArgoRollouts para respaldar los despliegues de Canary y BlueGreen en Kubernetes. Actualmente, este es un requisito previo obligatorio, pero será opcional en el futuro.
  6. Prometeo (Opcional): se trata de una dependencia opcional necesaria para mostrar métricas como la CPU, la memoria y los recuentos de solicitudes de los servicios.
  7. Keda (opcional): Se trata de una dependencia opcional y necesaria si quieres habilitar el ajuste de escala automático para tus cargas de trabajo.
  8. Loki (Opcional): esto ayuda a la agregación de registros y es una dependencia opcional. Siempre puedes usar cualquier otro agregador de registros con el que te sientas cómodo, como ELK Stack, Cloudwatch, Datadog, etc.
  9. Controladores (EFS, EBS, GPU): son necesarios si necesita compatibilidad con GPU o volúmenes en su clúster.
  10. Controlador de ordenadores portátiles (opcional): es necesario si desea proporcionar ordenadores portátiles en el clúster de Kubernetes.

Restricciones en la AMI del clúster de Kubernetes

Truefoundry puede funcionar con cualquier AMI subyacente, incluida Bottlerocket en AWS. Como el agente es igual que cualquier otro diagrama de gestión que se ejecute en Kubernetes, no tenemos ninguna restricción ni requisito en cuanto a las AMI subyacentes y podemos ejecutarlo en cualquier AMI, incluidas las máquinas convencionales.

Permisos para tfy-agent

El tfy-agent realiza todas las acciones en el usuario de Kubernetes en nombre de los usuarios que han iniciado sesión en la plataforma truefoundry. Por lo tanto, requiere acceso de administrador en un determinado conjunto de espacios de nombres en los que los usuarios pueden implementar las aplicaciones. Tenemos la funcionalidad de incluir en la lista negra o blanca un determinado conjunto de espacios de nombres y el agente solo puede realizar acciones en esos espacios de nombres.

Autenticación en Truefoundry

Truefoundry se basa en un servidor de autenticación que reside en nuestros servidores para la concesión de licencias y la autenticación.

Autorización en Truefoundry

Truefoundry proporciona un control de RBAC detallado a nivel de arrendatario, clúster, espacio de trabajo y repositorio de ML. Para entender los mecanismos de RBAC en Truefoundry, puedes leer nuestros documentos aquí: https://docs.truefoundry.com/docs/collaboration-and-access-control

Todas las reglas de autorización residen en la tabla de Postgres del plano de control y cada llamada a la API se comprueba para ver si el usuario está autorizado a realizar esa conexión.

Pipeline de creación de imágenes en el plano de control

Truefoundry proporciona una canalización básica de creación de imágenes que está optimizada para crear imágenes muy rápido en Kubernetes. Si quieres personalizar el proceso de creación de imágenes para incluir comprobaciones estáticas u otras herramientas de análisis de vulnerabilidades, existen dos enfoques:

  1. Puede seguir utilizando su propia canalización de CI para crear imágenes y, a continuación, proporcionar la URI de la imagen creada como entrada para las implementaciones de Truefoundry.
  2. Puede personalizar la canalización de compilación de Truefoundry para incluir los componentes que desee. Básicamente es un ArgoWorflow y, dado que el plano de control del plan Enterprise es tuyo, puedes personalizarlo como quieras.

Gestión secreta en Truefoundry

Verdadera fundición se integra con las tiendas de gestión secreta más populares. No almacena los valores secretos y solo almacena la ruta a esos secretos.

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro

Descubra más

October 5, 2023
|
5 minutos de lectura

<Webinar>GenAI Showcase para empresas

Best Fine Tuning Tools for Model Training
May 3, 2024
|
5 minutos de lectura

Las 6 mejores herramientas de ajuste para el entrenamiento de modelos en 2026

May 25, 2023
|
5 minutos de lectura

LLM de código abierto: abrazar o perecer

August 27, 2025
|
5 minutos de lectura

Mapeando el mercado de la IA local: desde chips hasta aviones de control

April 22, 2026
|
5 minutos de lectura

Mercados de agentes de IA: el futuro de la automatización de nivel empresarial

No se ha encontrado ningún artículo.
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 minutos de lectura

¿Qué es AI Gateway? Conceptos básicos y guía

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Aprovechar la puerta de enlace de IA de TrueFoundry para el cumplimiento de FIPS

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Integración de GraySwan con TrueFoundry

No se ha encontrado ningún artículo.
No se ha encontrado ningún artículo.

Blogs recientes

Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto