Blank white background with no objects or features visible.

Rejoignez notre écosystème VAR & VAD — assurez la gouvernance de l'IA d'entreprise pour les LLM, MCP et Agents. Devenez partenaire →

Orchestrer l'IA Bare-Metal : intégration de TrueFoundry à l'infrastructure cloud d'Oracle

Par Boyu Wang

Mis à jour : February 22, 2026

Résumez avec
Metallic silver knot design with interlocking loops and circular shape forming a decorative pattern.
Blurry black butterfly or moth icon with outstretched wings on white background.
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Déploiement de tâches de formation distribuées ou d'inférence haut débit sur Infrastructure cloud Oracle (OCI) nécessite une approche architecturale spécifique. OCI fournit des instances GPU bare-metal sans aucune surcharge d'hyperviseur et Accès direct à distance à la mémoire (RDMA) mise en réseau de clusters via Ethernet convergé.

Bien que l'infrastructure bare metal maximise les performances, elle nécessite une gestion opérationnelle avancée. Vous devez configurer les interfaces réseau, gérer les pilotes NVIDIA de bas niveau et gérer les défaillances des nœuds manuellement sans recourir à la couche d'abstraction de la virtualisation gérée. TrueFoundry fonctionne comme une superposition d'infrastructure au sein de votre location OCI. Il traduit les charges de travail d'apprentissage automatique de haut niveau en commandes d'exécution précises. Nous détaillons l'intégration technique entre TrueFoundry et OCI ci-dessous, en nous concentrant sur l'orchestration Kubernetes, la mise en réseau RDMA et l'identité des charges de travail.

Modèle de déploiement : plan de contrôle ou plan de calcul

TrueFoundry utilise une architecture à plans divisés. Le plan de contrôle gère le RBAC, les métadonnées et le routage. Le plan de calcul exécute les pondérations du modèle et traite les données des clients. Dans un environnement OCI, vous exécutez le plan de calcul sur Moteur Kubernetes d'infrastructure cloud Oracle (OKE).

Le plan de contrôle héberge le serveur API et la logique de planification. L'agent TrueFoundry s'exécute sur votre cluster OKE. L'agent lance un appel sortant uniquement grPC ou diffusez WebSocket pour rechercher des manifestes de déploiement. Cette conception supprime la nécessité de ports entrants standard sur le réseau cloud virtuel (VCN), préservant ainsi la confidentialité de votre environnement d'exécution.

Figure 1 : L'architecture Split-Plane isole le traitement des données au sein du VCN du client.

Mise en réseau : abstraction de RoCE v2 et de RDMA

La formation de grands modèles de langage nécessite une bande passante énorme de nœud à nœud. OCI fournit un réseau de clusters spécialisé capable de fournir une latence aussi faible que deux microsecondes en contournant le noyau du système d'exploitation à l'aide de RDMA sur Ethernet convergé v2 (RoCE v2). Pour utiliser ce matériel, vous devez planifier les charges de travail sur des nœuds bare-metal au sein du même domaine de défaillance et les configurer pour accéder directement aux Mellanox ConnectX SmartNIC.

TrueFoundry automatise ces contraintes de planification. Lorsque vous soumettez une tâche de formation distribuée à l'aide de DDP PyTorch ou Vitesse profonde, le contrôleur TrueFoundry traduit votre demande en Job Kubernetes MPI. Le contrôleur applique des règles d'affinité de nœud strictes pour garantir que tous les pods atterrissent sur le réseau de cluster bare-metal désigné. Il injecte ensuite les volumes de chemin d'hôte requis et les contextes de sécurité privilégiés afin que le conteneur accède aux périphériques InfiniBand de manière native. Il n'est pas nécessaire d'écrire des manifestes Kubernetes personnalisés.

Figure 2 : Flux réseau RDMA détaillant le contournement du noyau pour la communication GPU entre nœuds.

Fédération et sécurité des identités

OCI implémente Workload Identity pour remplacer les informations d'identification statiques ou les clés d'API principales de l'utilisateur dans le code de l'application.

Lorsqu'un déploiement TrueFoundry nécessite l'accès à OCI Object Storage pour charger les poids des modèles, la plateforme fournit un compte de service Kubernetes lié à un Gestion des identités et des accès (IAM) OCI politique. Le serveur de métadonnées OKE intercepte la demande d'authentification, valide le jeton Kubernetes et émet un jeton d'accès OCI de courte durée au pod. Le code de votre application utilise le SDK OCI standard via ce mécanisme de jeton injecté. Nous limitons le rayon d'action d'un pod compromis aux politiques IAM spécifiques associées à ce compte de service isolé.

Figure 3 : La séquence d'authentification OKE Workload Identity.

Optimisation du calcul : attachement multiple à plusieurs volumes de blocs

OCI propose des options matérielles simples telles que le BM.GPU.H100.8 via des modèles de tarification de calcul prévisibles. Comme il s'agit de machines physiques, la logique de provisionnement est totalement différente de celle des environnements virtualisés. TrueFoundry s'intègre directement à Autoscaler OKE Cluster pour gérer ces nœuds, en traitant le matériel nu comme une capacité élastique.

Le chargement d'un modèle de 100 Go dans la VRAM via 64 GPU sollicite simultanément le stockage réseau standard et retarde la préparation au déploiement. TrueFoundry contourne cela en utilisant Volume du bloc OCI fonctionnalités de connexion multiple. La plate-forme monte un seul volume de bloc à IOPS élevé contenant les poids du modèle sur plusieurs instances bare-metal simultanément dans une configuration en lecture seule. Cette architecture minimise l'engorgement du réseau lié à l'extraction d'objets depuis Object Storage à chaque démarrage d'un pod, ce qui peut réduire considérablement les temps de déploiement des grands modèles.

Comparaison opérationnelle : OCI natif et superposition TrueFoundry

Le tableau suivant décrit les différences opérationnelles entre la gestion des primitives brutes OCI bare-metal et l'utilisation de la superposition TrueFoundry.

Task Native OCI Implementation OCI + TrueFoundry Implementation
Deploy Distributed Training Requires custom MPIJob manifests, exact node selectors for RDMA hardware, and manual HostPath mapping. Accepts training script via UI/CLI. Platform controller automates RDMA volume injection and scheduling.
Model Weight Loading Requires init containers to download weights from Object Storage over standard networking. Provisions multi-attach Block Volumes, presenting weights directly to bare-metal instances.
Identity Management Requires mapping IAM policies to Kubernetes Service Accounts per namespace using OCI CLI. Maps TrueFoundry workspaces to OCI IAM policies automatically via direct integration.
Bare Metal Autoscaling Requires manual Node Pool management and handling physical hardware provisioning states. Triggers OKE autoscaler based on GPU requests and cordons nodes upon hardware degradation automatically.

Conclusion

La collaboration entre TrueFoundry et Oracle Cloud Infrastructure est conçue pour supprimer l'impédance opérationnelle de l'informatique nue. En automatisant les complexités de l'orchestration de Kubernetes, de la mise en réseau RDMA RoCE v2, de la fédération des identités de charge de travail et du multi-attachement Block Volume à hautes performances, TrueFoundry permet à vos équipes de science des données et d'ingénierie de maximiser la vitesse brute des GPU bare-metal d'OCI. Cette superposition d'infrastructure vous permet de vous concentrer entièrement sur la création, la formation et le déploiement de modèles d'IA à grande échelle sans consacrer de nombreuses ressources d'ingénierie à la gestion des primitives cloud de bas niveau.

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS
Table des matières

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Démo du livre

Découvrez-en plus

Aucun article n'a été trouvé.
May 14, 2026
|
5 min de lecture

Orchestrer l'IA Bare-Metal : intégration de TrueFoundry à l'infrastructure cloud d'Oracle

Aucun article n'a été trouvé.
May 14, 2026
|
5 min de lecture

Orchestration GPU multicloud : intégration de clouds spécialisés à TrueFoundry

Aucun article n'a été trouvé.
May 13, 2026
|
5 min de lecture

TOKENMAXXING TRILOGY · PART 3 OF 3: Building the AI Leverage

Aucun article n'a été trouvé.
May 13, 2026
|
5 min de lecture

Building the Infrastructure Layer That Enterprise AI Has Been Missing

Aucun article n'a été trouvé.
Aucun article n'a été trouvé.

Blogs récents

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Faites un rapide tour d'horizon des produits
Commencer la visite guidée du produit
Visite guidée du produit