Prochain webinaire : La sécurité d'entreprise pour Claude Code | 21 avril · 11 h PST. Inscrivez-vous ici →

Orchestrer l'IA Bare-Metal : intégration de TrueFoundry à l'infrastructure cloud d'Oracle

Par TrueFoundry

Mis à jour : February 22, 2026

Résumez avec

Déploiement de tâches de formation distribuées ou d'inférence haut débit sur Infrastructure cloud Oracle (OCI) nécessite une approche architecturale spécifique. OCI fournit des instances GPU bare-metal sans aucune surcharge d'hyperviseur et Accès direct à distance à la mémoire (RDMA) mise en réseau de clusters via Ethernet convergé.

Bien que l'infrastructure bare metal maximise les performances, elle nécessite une gestion opérationnelle avancée. Vous devez configurer les interfaces réseau, gérer les pilotes NVIDIA de bas niveau et gérer les défaillances des nœuds manuellement sans recourir à la couche d'abstraction de la virtualisation gérée. TrueFoundry fonctionne comme une superposition d'infrastructure au sein de votre location OCI. Il traduit les charges de travail d'apprentissage automatique de haut niveau en commandes d'exécution précises. Nous détaillons l'intégration technique entre TrueFoundry et OCI ci-dessous, en nous concentrant sur l'orchestration Kubernetes, la mise en réseau RDMA et l'identité des charges de travail.

Modèle de déploiement : plan de contrôle ou plan de calcul

TrueFoundry utilise une architecture à plans divisés. Le plan de contrôle gère le RBAC, les métadonnées et le routage. Le plan de calcul exécute les pondérations du modèle et traite les données des clients. Dans un environnement OCI, vous exécutez le plan de calcul sur Moteur Kubernetes d'infrastructure cloud Oracle (OKE).

Le plan de contrôle héberge le serveur API et la logique de planification. L'agent TrueFoundry s'exécute sur votre cluster OKE. L'agent lance un appel sortant uniquement grPC ou diffusez WebSocket pour rechercher des manifestes de déploiement. Cette conception supprime la nécessité de ports entrants standard sur le réseau cloud virtuel (VCN), préservant ainsi la confidentialité de votre environnement d'exécution.

Figure 1 : L'architecture Split-Plane isole le traitement des données au sein du VCN du client.

Mise en réseau : abstraction de RoCE v2 et de RDMA

La formation de grands modèles de langage nécessite une bande passante énorme de nœud à nœud. OCI fournit un réseau de clusters spécialisé capable de fournir une latence aussi faible que deux microsecondes en contournant le noyau du système d'exploitation à l'aide de RDMA sur Ethernet convergé v2 (RoCE v2). Pour utiliser ce matériel, vous devez planifier les charges de travail sur des nœuds bare-metal au sein du même domaine de défaillance et les configurer pour accéder directement aux Mellanox ConnectX SmartNIC.

TrueFoundry automatise ces contraintes de planification. Lorsque vous soumettez une tâche de formation distribuée à l'aide de DDP PyTorch ou Vitesse profonde, le contrôleur TrueFoundry traduit votre demande en Job Kubernetes MPI. Le contrôleur applique des règles d'affinité de nœud strictes pour garantir que tous les pods atterrissent sur le réseau de cluster bare-metal désigné. Il injecte ensuite les volumes de chemin d'hôte requis et les contextes de sécurité privilégiés afin que le conteneur accède aux périphériques InfiniBand de manière native. Il n'est pas nécessaire d'écrire des manifestes Kubernetes personnalisés.

Figure 2 : Flux réseau RDMA détaillant le contournement du noyau pour la communication GPU entre nœuds.

Fédération et sécurité des identités

OCI implémente Workload Identity pour remplacer les informations d'identification statiques ou les clés d'API principales de l'utilisateur dans le code de l'application.

Lorsqu'un déploiement TrueFoundry nécessite l'accès à OCI Object Storage pour charger les poids des modèles, la plateforme fournit un compte de service Kubernetes lié à un Gestion des identités et des accès (IAM) OCI politique. Le serveur de métadonnées OKE intercepte la demande d'authentification, valide le jeton Kubernetes et émet un jeton d'accès OCI de courte durée au pod. Le code de votre application utilise le SDK OCI standard via ce mécanisme de jeton injecté. Nous limitons le rayon d'action d'un pod compromis aux politiques IAM spécifiques associées à ce compte de service isolé.

Figure 3 : La séquence d'authentification OKE Workload Identity.

Optimisation du calcul : attachement multiple à plusieurs volumes de blocs

OCI propose des options matérielles simples telles que le BM.GPU.H100.8 via des modèles de tarification de calcul prévisibles. Comme il s'agit de machines physiques, la logique de provisionnement est totalement différente de celle des environnements virtualisés. TrueFoundry s'intègre directement à Autoscaler OKE Cluster pour gérer ces nœuds, en traitant le matériel nu comme une capacité élastique.

Le chargement d'un modèle de 100 Go dans la VRAM via 64 GPU sollicite simultanément le stockage réseau standard et retarde la préparation au déploiement. TrueFoundry contourne cela en utilisant Volume du bloc OCI fonctionnalités de connexion multiple. La plate-forme monte un seul volume de bloc à IOPS élevé contenant les poids du modèle sur plusieurs instances bare-metal simultanément dans une configuration en lecture seule. Cette architecture minimise l'engorgement du réseau lié à l'extraction d'objets depuis Object Storage à chaque démarrage d'un pod, ce qui peut réduire considérablement les temps de déploiement des grands modèles.

Comparaison opérationnelle : OCI natif et superposition TrueFoundry

Le tableau suivant décrit les différences opérationnelles entre la gestion des primitives brutes OCI bare-metal et l'utilisation de la superposition TrueFoundry.

Task Native OCI Implementation OCI + TrueFoundry Implementation
Deploy Distributed Training Requires custom MPIJob manifests, exact node selectors for RDMA hardware, and manual HostPath mapping. Accepts training script via UI/CLI. Platform controller automates RDMA volume injection and scheduling.
Model Weight Loading Requires init containers to download weights from Object Storage over standard networking. Provisions multi-attach Block Volumes, presenting weights directly to bare-metal instances.
Identity Management Requires mapping IAM policies to Kubernetes Service Accounts per namespace using OCI CLI. Maps TrueFoundry workspaces to OCI IAM policies automatically via direct integration.
Bare Metal Autoscaling Requires manual Node Pool management and handling physical hardware provisioning states. Triggers OKE autoscaler based on GPU requests and cordons nodes upon hardware degradation automatically.

Conclusion

La collaboration entre TrueFoundry et Oracle Cloud Infrastructure est conçue pour supprimer l'impédance opérationnelle de l'informatique nue. En automatisant les complexités de l'orchestration de Kubernetes, de la mise en réseau RDMA RoCE v2, de la fédération des identités de charge de travail et du multi-attachement Block Volume à hautes performances, TrueFoundry permet à vos équipes de science des données et d'ingénierie de maximiser la vitesse brute des GPU bare-metal d'OCI. Cette superposition d'infrastructure vous permet de vous concentrer entièrement sur la création, la formation et le déploiement de modèles d'IA à grande échelle sans consacrer de nombreuses ressources d'ingénierie à la gestion des primitives cloud de bas niveau.

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS
Table des matières

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Démo du livre

Découvrez-en plus

Aucun article n'a été trouvé.
 Best AI Gateways in 2026
April 22, 2026
|
5 min de lecture

5 meilleures passerelles IA en 2026

comparaison
April 22, 2026
|
5 min de lecture

Intégration de Cline avec TrueFoundry AI Gateway

Outils LLM
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 min de lecture

Qu'est-ce qu'AI Gateway ? Concepts de base et guide

Aucun article n'a été trouvé.
April 22, 2026
|
5 min de lecture

LLM Embeddings 101 : un guide complet 2024

Terminologie LLM
Aucun article n'a été trouvé.

Blogs récents

Faites un rapide tour d'horizon des produits
Commencer la visite guidée du produit
Visite guidée du produit