Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

Orquestación de la IA básica: integración de TrueFoundry con Oracle Cloud Infrastructure

Por TrueFoundry

Actualizado: February 22, 2026

Resumir con

Implementación de trabajos de capacitación distribuidos o inferencias de alto rendimiento en Infraestructura de nube de Oracle (OCI) requiere un enfoque arquitectónico específico. OCI proporciona instancias de GPU sin hardware sin sobrecarga de hipervisor y Acceso remoto directo a la memoria (RDMA) redes de clústeres a través de Ethernet convergente.

Si bien la infraestructura básica maximiza el rendimiento, requiere una administración operativa avanzada. Debe configurar las interfaces de red, administrar los controladores NVIDIA de bajo nivel y gestionar los errores de los nodos de forma manual sin la capa de abstracción de la virtualización gestionada. TrueFoundry funciona como una infraestructura superpuesta dentro de su arrendamiento de OCI. Traduce las cargas de trabajo de aprendizaje automático de alto nivel en comandos de ejecución exactos y sencillos. A continuación detallamos la integración técnica entre TrueFoundry y OCI, centrándonos en la orquestación de Kubernetes, las redes RDMA y la identidad de las cargas de trabajo.

Modelo de implementación: plano de control frente a plano de computación

TrueFoundry utiliza una arquitectura de plano dividido. El plano de control administra el RBAC, los metadatos y el enrutamiento. El plano de cálculo ejecuta el modelo, pondera y procesa los datos de los clientes. En un entorno OCI, se ejecuta el Plano de cómpute en Kubernetes Engine (OKE) de Oracle Cloud Infrastructure.

El plano de control aloja el servidor API y la lógica de programación. El agente TrueFoundry se ejecuta en su clúster de OKE. El agente inicia una operación solo de salida gRPC o WebSocket stream para buscar manifiestos de implementación. Este diseño elimina la necesidad de contar con puertos de entrada estándar en la red de nube virtual (VCN), lo que mantiene la privacidad del entorno de ejecución.

Figura 1: La arquitectura de plano dividido aísla el procesamiento de datos dentro de la VCN del cliente.

Redes: abstracción de RoCE v2 y RDMA

El entrenamiento de modelos lingüísticos de gran tamaño exige un ancho de banda masivo de nodo a nodo. OCI proporciona una red de clústeres especializada que puede ofrecer una latencia de tan solo dos microsegundos al omitir el kernel del sistema operativo mediante RDMA sobre Ethernet convergente v2 (RoCE v2). Para utilizar este hardware, debe programar las cargas de trabajo en nodos sin sistema operativo dentro del mismo dominio de fallas y configurarlos para que accedan directamente a las SmartNIC Mellanox ConnectX.

TrueFoundry automatiza estas restricciones de programación. Cuando envía un trabajo de capacitación distribuido utilizando PyTorch DDP o Velocidad profunda, el controlador TrueFoundry traduce su solicitud en un Kubernetes MPIJob. El controlador aplica reglas estrictas de afinidad de nodos para garantizar que todos los pods aterricen en la red de clústeres básica designada. A continuación, inyecta los volúmenes de rutas de host y los contextos de seguridad privilegiados necesarios para que el contenedor acceda a los dispositivos InfiniBand de forma nativa. No es necesario escribir manifiestos de Kubernetes personalizados.

Figura 2: Flujo de red RDMA que detalla la derivación del kernel para la comunicación de GPU entre nodos.

Federación de identidades y seguridad

OCI implementa Workload Identity para reemplazar las credenciales estáticas o las claves de API principales del usuario en el código de la aplicación.

Cuando una implementación de TrueFoundry requiere acceso a OCI Object Storage para cargar los pesos del modelo, la plataforma aprovisiona una cuenta de servicio de Kubernetes vinculada a un Administración de acceso e identidad (IAM) de OCI política. El servidor de metadatos OKE intercepta la solicitud de autenticación, valida el token de Kubernetes y emite un token de acceso OCI de corta duración al pod. El código de tu aplicación usa el SDK OCI estándar mediante este mecanismo de token inyectado. Restringimos el radio de alcance de un pod comprometido a las políticas de IAM específicas asociadas a esa cuenta de servicio aislada.

Figura 3: La secuencia de autenticación de OKE Workload Identity.

Optimización de cómputos: conexión múltiple de volúmenes de bloques

OCI ofrece opciones de hardware básicas, como el BM.GPU.H100.8, mediante modelos de precios de computación predecibles. Como se trata de máquinas físicas, la lógica de aprovisionamiento difiere completamente de la de los entornos virtualizados. TrueFoundry se integra directamente con el Escalador automático OKE Cluster para administrar estos nodos, tratando el hardware básico como capacidad elástica.

La carga simultánea de un modelo de 100 GB en una VRAM en 64 GPU agota el almacenamiento de red estándar y retrasa la preparación para la implementación. TrueFoundry evita esto al utilizar Volumen de bloque OCI funciones de conexión múltiple. La plataforma monta un único volumen de bloques con un alto nivel de IOPS que contiene las ponderaciones del modelo en varias instancias sin procesar simultáneamente en una configuración de solo lectura. Esta arquitectura minimiza el embotellamiento de la red que supone tener que cargar con el almacenamiento de objetos cada vez que se pone en marcha un pod, lo que puede reducir considerablemente los tiempos de implementación de los modelos de gran tamaño.

Comparación operativa: OCI nativo frente a TrueFoundry Overlay

En la siguiente tabla se describen las diferencias operativas entre la administración de primitivas de metal desnudo de OCI sin procesar y el uso de la superposición de TrueFoundry.

Task Native OCI Implementation OCI + TrueFoundry Implementation
Deploy Distributed Training Requires custom MPIJob manifests, exact node selectors for RDMA hardware, and manual HostPath mapping. Accepts training script via UI/CLI. Platform controller automates RDMA volume injection and scheduling.
Model Weight Loading Requires init containers to download weights from Object Storage over standard networking. Provisions multi-attach Block Volumes, presenting weights directly to bare-metal instances.
Identity Management Requires mapping IAM policies to Kubernetes Service Accounts per namespace using OCI CLI. Maps TrueFoundry workspaces to OCI IAM policies automatically via direct integration.
Bare Metal Autoscaling Requires manual Node Pool management and handling physical hardware provisioning states. Triggers OKE autoscaler based on GPU requests and cordons nodes upon hardware degradation automatically.

Conclusión

La colaboración entre TrueFoundry y Oracle Cloud Infrastructure está diseñada para eliminar la impedancia operativa de la computación básica. Al automatizar las complejidades de la orquestación de Kubernetes, las redes RDMA RoCE v2, la federación de identidades de carga de trabajo y la conexión múltiple de alto rendimiento por volumen de bloques, TrueFoundry garantiza que sus equipos de ingeniería y ciencia de datos puedan maximizar la velocidad bruta de las GPU básicas de OCI. Esta superposición de infraestructura le permite volver a centrarse por completo en la creación, el entrenamiento y la implementación de modelos de IA a gran escala sin dedicar amplios recursos de ingeniería a la administración de primitivas de nube de bajo nivel.

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro

Descubra más

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Mercados de agentes de IA: el futuro de la automatización de nivel empresarial

No se ha encontrado ningún artículo.
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 minutos de lectura

¿Qué es AI Gateway? Conceptos básicos y guía

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Aprovechar la puerta de enlace de IA de TrueFoundry para el cumplimiento de FIPS

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Integración de GraySwan con TrueFoundry

No se ha encontrado ningún artículo.
No se ha encontrado ningún artículo.

Blogs recientes

Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto