Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

Orquestación de GPU multinube: integración de nubes especializadas con TrueFoundry

Por TrueFoundry

Actualizado: February 16, 2026

Resumir con

La disponibilidad informática es el principal obstáculo para capacitar a los LLM y escalar la inferencia de alto rendimiento. Si ha intentado aprovisionar Instancias P5 de Amazon EC2 En el caso de las máquinas virtuales Azure ND H100 v5 últimamente, es probable que se haya encontrado con errores de InsuficientInstanceCapacity o que se le haya dicho que necesita un acuerdo de precios privado de varios años.

Esta escasez convierte a los proveedores de GPU especializados, como CoreWeave, Lambda Labs y FluidStack, en alternativas viables. Estas «neonubes» ofrecen NVIDIA H100s y los A100 suelen tener tarifas bajo demanda más bajas que las de los tres grandes.

¿El problema? ¿Está ejecutando AWS para su Amazon S3 el lago de datos, al tiempo que se activan manualmente nodos sin procesar en Lambda Labs, crea flujos de trabajo fragmentados. Para solucionar este problema, tratamos las nubes especializadas como estándar Kubernetes clústeres dentro de un plano de control unificado.

La arquitectura: traiga su propio clúster (BYOC)

TrueFoundry utiliza una arquitectura de plano dividido. El plano de control gestiona la programación de tareas y el seguimiento de los experimentos, mientras que el plano de cálculo permanece en su entorno. Dado que la mayoría de las nubes especializadas proporcionan una Kubernetes dar servicio o permitirle implementar K3, los adjuntamos a través de un agente estándar.

  1. El plano de cálculo: Aprovisione un clúster en el proveedor (por ejemplo, un espacio de nombres CoreWeave o una instancia de GPU Lambda).
  2. El agente: Instalas el Agente de TrueFoundry vía Yelmo.
  3. La integración: El clúster se une a su panel de control junto con Amazon EKS o Azure AKS.

Abstraemos el almacenamiento y la entrada. Ya sea que el proveedor utilice Vast Data o un RAID NVMe local, lo asignamos a un Reclamación de volumen persistente. Esto mantiene tu Estibador contenedores portátiles entre proveedores.

Figura 1: Topología híbrida que utiliza AWS para la persistencia de datos y nubes especializadas para cargas de trabajo con uso intensivo de la GPU.

Ventajas técnicas del modelo híbrido

1. Administración de costos y conmutación por error

Los precios del H100 bajo demanda varían significativamente. Usamos TrueFoundry para configurar colas priorizadas. Lo primero que puede hacer es utilizar una capacidad interrumpible y barata en nubes especializadas. Si el proveedor se antepone a la instancia o la capacidad desaparece, el programador puede conmutar automáticamente por error a una instancia reservada Amazon EC2 instancia.

2. Mitigar el bloqueo de la infraestructura

Confiar en plataformas de IA patentadas a menudo lo vincula a un ecosistema de almacenamiento e IAM específico de la nube. Empaquetamos los trabajos de formación como contenedores estándar. TrueFoundry se encarga de Controladores Kubernetes CSI para el montaje de S3 y configura el Kit de herramientas de contenedores de NVIDIA variables de entorno automáticamente. Para mover un trabajo de AWS a CoreWeave, actualice el cluster_name en sus especificaciones de implementación.

3. Observabilidad centralizada

Las configuraciones de nubes múltiples generalmente interrumpen el registro. Agregamos Prometeo métricas y Grafana paneles en todos los clústeres. Si un trabajo de entrenamiento se realiza en un nodo de Lambda Labs, verá los registros de uso de la GPU y del sistema en la misma interfaz de usuario que utiliza para su entorno de EKS de producción.

Flujo de trabajo: agregar capacidad de Lambda Labs

Para agregar capacidad especializada, siga este ciclo de vida:

  • Provisión: Crea tus nodos de GPU en la consola del proveedor.
  • Conectar: En TrueFoundry, selecciona «Conectar un clúster existente».
  • Despliegue el agente: Comandos Bash
helm repo add truefoundry https://truefoundry.github.io/infra-charts/
helm install tfy-agent truefoundry/tfy-agent \
  --set tenantName=my-org \
  --set clusterName=lambda-h100-pool \
  --set apiKey=<YOUR_API_KEY>
  • Tolerancias: Proveedores especializados a menudo nodos de GPU contaminados. Usted configura el espacio de trabajo de TrueFoundry para aplicar las tolerancias requeridas a todos los trabajos dirigidos a ese clúster.

Comparación de modelos de infraestructura

Feature Hyperscalers (AWS/Azure) Specialized (CoreWeave/Lambda) TrueFoundry Hybrid
GPU Availability Subject to capacity quotas High bare-metal availability Aggregated capacity pool
Pricing Model Standard enterprise pricing Competitive bare-metal rates Cost-optimized routing
Storage Latency Native (S3/FSx) Varies by provider Cross-cloud data streaming
Governance Native IAM/RBAC Provider-specific RBAC Unified SSO and Kubernetes RBAC

Línea de fondo

Confiar en una sola nube para la computación de LLM ya no es una estrategia viable para los equipos de ingeniería de alto crecimiento. Al desvincular la definición de la carga de trabajo del lugar de ejecución, puede tratar las GPU como un producto básico. Para aumentar la eficiencia, dirija su entrenamiento intensivo a nubes especializadas y, al mismo tiempo, mantenga sus datos y servicios principales en su región de hiperescala principal.

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro

Descubra más

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Mercados de agentes de IA: el futuro de la automatización de nivel empresarial

No se ha encontrado ningún artículo.
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 minutos de lectura

¿Qué es AI Gateway? Conceptos básicos y guía

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Aprovechar la puerta de enlace de IA de TrueFoundry para el cumplimiento de FIPS

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Integración de GraySwan con TrueFoundry

No se ha encontrado ningún artículo.
No se ha encontrado ningún artículo.

Blogs recientes

Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto