TrueFoundry sur OCI : architecture d'IA en métal brut

Résumez avec

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Déploiement de tâches de formation distribuées ou d'inférence haut débit sur Infrastructure cloud Oracle (OCI) nécessite une approche architecturale spécifique. OCI fournit des instances GPU bare-metal sans aucune surcharge d'hyperviseur et Accès direct à distance à la mémoire (RDMA) mise en réseau de clusters via Ethernet convergé.

Bien que l'infrastructure bare metal maximise les performances, elle nécessite une gestion opérationnelle avancée. Vous devez configurer les interfaces réseau, gérer les pilotes NVIDIA de bas niveau et gérer les défaillances des nœuds manuellement sans recourir à la couche d'abstraction de la virtualisation gérée. TrueFoundry fonctionne comme une superposition d'infrastructure au sein de votre location OCI. Il traduit les charges de travail d'apprentissage automatique de haut niveau en commandes d'exécution précises. Nous détaillons l'intégration technique entre TrueFoundry et OCI ci-dessous, en nous concentrant sur l'orchestration Kubernetes, la mise en réseau RDMA et l'identité des charges de travail.

Modèle de déploiement : plan de contrôle ou plan de calcul

TrueFoundry utilise une architecture à plans divisés. Le plan de contrôle gère le RBAC, les métadonnées et le routage. Le plan de calcul exécute les pondérations du modèle et traite les données des clients. Dans un environnement OCI, vous exécutez le plan de calcul sur Moteur Kubernetes d'infrastructure cloud Oracle (OKE).

Le plan de contrôle héberge le serveur API et la logique de planification. L'agent TrueFoundry s'exécute sur votre cluster OKE. L'agent lance un appel sortant uniquement grPC ou diffusez WebSocket pour rechercher des manifestes de déploiement. Cette conception supprime la nécessité de ports entrants standard sur le réseau cloud virtuel (VCN), préservant ainsi la confidentialité de votre environnement d'exécution.

Figure 1 : L'architecture Split-Plane isole le traitement des données au sein du VCN du client.

Mise en réseau : abstraction de RoCE v2 et de RDMA

La formation de grands modèles de langage nécessite une bande passante énorme de nœud à nœud. OCI fournit un réseau de clusters spécialisé capable de fournir une latence aussi faible que deux microsecondes en contournant le noyau du système d'exploitation à l'aide de RDMA sur Ethernet convergé v2 (RoCE v2). Pour utiliser ce matériel, vous devez planifier les charges de travail sur des nœuds bare-metal au sein du même domaine de défaillance et les configurer pour accéder directement aux Mellanox ConnectX SmartNIC.

TrueFoundry automatise ces contraintes de planification. Lorsque vous soumettez une tâche de formation distribuée à l'aide de DDP PyTorch ou Vitesse profonde, le contrôleur TrueFoundry traduit votre demande en Job Kubernetes MPI. Le contrôleur applique des règles d'affinité de nœud strictes pour garantir que tous les pods atterrissent sur le réseau de cluster bare-metal désigné. Il injecte ensuite les volumes de chemin d'hôte requis et les contextes de sécurité privilégiés afin que le conteneur accède aux périphériques InfiniBand de manière native. Il n'est pas nécessaire d'écrire des manifestes Kubernetes personnalisés.

Figure 2 : Flux réseau RDMA détaillant le contournement du noyau pour la communication GPU entre nœuds.

Fédération et sécurité des identités

OCI implémente Workload Identity pour remplacer les informations d'identification statiques ou les clés d'API principales de l'utilisateur dans le code de l'application.

Lorsqu'un déploiement TrueFoundry nécessite l'accès à OCI Object Storage pour charger les poids des modèles, la plateforme fournit un compte de service Kubernetes lié à un Gestion des identités et des accès (IAM) OCI politique. Le serveur de métadonnées OKE intercepte la demande d'authentification, valide le jeton Kubernetes et émet un jeton d'accès OCI de courte durée au pod. Le code de votre application utilise le SDK OCI standard via ce mécanisme de jeton injecté. Nous limitons le rayon d'action d'un pod compromis aux politiques IAM spécifiques associées à ce compte de service isolé.

‍

Figure 3 : La séquence d'authentification OKE Workload Identity.

Optimisation du calcul : attachement multiple à plusieurs volumes de blocs

OCI propose des options matérielles simples telles que le BM.GPU.H100.8 via des modèles de tarification de calcul prévisibles. Comme il s'agit de machines physiques, la logique de provisionnement est totalement différente de celle des environnements virtualisés. TrueFoundry s'intègre directement à Autoscaler OKE Cluster pour gérer ces nœuds, en traitant le matériel nu comme une capacité élastique.

Le chargement d'un modèle de 100 Go dans la VRAM via 64 GPU sollicite simultanément le stockage réseau standard et retarde la préparation au déploiement. TrueFoundry contourne cela en utilisant Volume du bloc OCI fonctionnalités de connexion multiple. La plate-forme monte un seul volume de bloc à IOPS élevé contenant les poids du modèle sur plusieurs instances bare-metal simultanément dans une configuration en lecture seule. Cette architecture minimise l'engorgement du réseau lié à l'extraction d'objets depuis Object Storage à chaque démarrage d'un pod, ce qui peut réduire considérablement les temps de déploiement des grands modèles.

Comparaison opérationnelle : OCI natif et superposition TrueFoundry

Le tableau suivant décrit les différences opérationnelles entre la gestion des primitives brutes OCI bare-metal et l'utilisation de la superposition TrueFoundry.

Task	Native OCI Implementation	OCI + TrueFoundry Implementation
Deploy Distributed Training	Requires custom MPIJob manifests, exact node selectors for RDMA hardware, and manual HostPath mapping.	Accepts training script via UI/CLI. Platform controller automates RDMA volume injection and scheduling.
Model Weight Loading	Requires init containers to download weights from Object Storage over standard networking.	Provisions multi-attach Block Volumes, presenting weights directly to bare-metal instances.
Identity Management	Requires mapping IAM policies to Kubernetes Service Accounts per namespace using OCI CLI.	Maps TrueFoundry workspaces to OCI IAM policies automatically via direct integration.
Bare Metal Autoscaling	Requires manual Node Pool management and handling physical hardware provisioning states.	Triggers OKE autoscaler based on GPU requests and cordons nodes upon hardware degradation automatically.

‍

Conclusion

La collaboration entre TrueFoundry et Oracle Cloud Infrastructure est conçue pour supprimer l'impédance opérationnelle de l'informatique nue. En automatisant les complexités de l'orchestration de Kubernetes, de la mise en réseau RDMA RoCE v2, de la fédération des identités de charge de travail et du multi-attachement Block Volume à hautes performances, TrueFoundry permet à vos équipes de science des données et d'ingénierie de maximiser la vitesse brute des GPU bare-metal d'OCI. Cette superposition d'infrastructure vous permet de vous concentrer entièrement sur la création, la formation et le déploiement de modèles d'IA à grande échelle sans consacrer de nombreuses ressources d'ingénierie à la gestion des primitives cloud de bas niveau.

‍

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS

Comment pouvez-vous empêcher les coûts de GenAI de grimper en flèche à grande échelle ?

Accédez au rapport complet de 2026

Table des matières

Lien textuel

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Orchestrer l'IA Bare-Metal : intégration de TrueFoundry à l'infrastructure cloud d'Oracle

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Modèle de déploiement : plan de contrôle ou plan de calcul

Mise en réseau : abstraction de RoCE v2 et de RDMA

Fédération et sécurité des identités

Optimisation du calcul : attachement multiple à plusieurs volumes de blocs

Comparaison opérationnelle : OCI natif et superposition TrueFoundry

Conclusion

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

5 meilleures passerelles IA en 2026

Intégration de Cline avec TrueFoundry AI Gateway

Qu'est-ce qu'AI Gateway ? Concepts de base et guide

LLM Embeddings 101 : un guide complet 2024

Blogs récents

Claude Code Governance : comment gérer les déploiements d'agents à l'aide d'une passerelle IA

TrueFoundry contre Apigee (Google) : pourquoi un plan de contrôle IA spécialement conçu surpasse une stratégie MCP axée sur la gestion des API

Cartesia et TrueFoundry AI Gateway : passerelle native pour l'inférence vocale

Partenariat entre Databricks et TrueFoundry

LitellM vs LangChain : une comparaison pratique pour les équipes d'IA de production

Sandboxing de Claude Code : comment isoler, contraindre et sécuriser le code Claude en production

Résoudre les goulots d'étranglement liés aux données SEO grâce à des agents autonomes et à TrueFoundry

Intégrations Claude Code MCP : comment les outils se connectent aux agents de codage IA

Le guide complet de l'architecture multi-agents pour les équipes d'IA de production

Kong contre LiteLM : architecture, tarification et compromis

Guide du marché Gartner® pour les passerelles IA 2025

Comprendre la tarification de Portkey AI Gateway pour 2026 : guide complet et comparaison

Un guide définitif des passerelles IA en 2026 : comparaison du paysage concurrentiel

Une revue détaillée de LitellM : fonctionnalités, prix, avantages et inconvénients [2026]

Utilisation des jetons OpenCode : comment cela fonctionne et comment l'optimiser

Orchestrer l'IA Bare-Metal : intégration de TrueFoundry à l'infrastructure cloud d'Oracle

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Modèle de déploiement : plan de contrôle ou plan de calcul

Mise en réseau : abstraction de RoCE v2 et de RDMA

Fédération et sécurité des identités

Optimisation du calcul : attachement multiple à plusieurs volumes de blocs

Comparaison opérationnelle : OCI natif et superposition TrueFoundry

Conclusion

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Découvrez-en plus

5 meilleures passerelles IA en 2026

Intégration de Cline avec TrueFoundry AI Gateway

Qu'est-ce qu'AI Gateway ? Concepts de base et guide

LLM Embeddings 101 : un guide complet 2024

Blogs récents

Claude Code Governance : comment gérer les déploiements d'agents à l'aide d'une passerelle IA

TrueFoundry contre Apigee (Google) : pourquoi un plan de contrôle IA spécialement conçu surpasse une stratégie MCP axée sur la gestion des API

Cartesia et TrueFoundry AI Gateway : passerelle native pour l'inférence vocale

Partenariat entre Databricks et TrueFoundry

LitellM vs LangChain : une comparaison pratique pour les équipes d'IA de production

Sandboxing de Claude Code : comment isoler, contraindre et sécuriser le code Claude en production

Résoudre les goulots d'étranglement liés aux données SEO grâce à des agents autonomes et à TrueFoundry

Intégrations Claude Code MCP : comment les outils se connectent aux agents de codage IA

Le guide complet de l'architecture multi-agents pour les équipes d'IA de production

Kong contre LiteLM : architecture, tarification et compromis

Guide du marché Gartner® pour les passerelles IA 2025

Comprendre la tarification de Portkey AI Gateway pour 2026 : guide complet et comparaison

Un guide définitif des passerelles IA en 2026 : comparaison du paysage concurrentiel

Une revue détaillée de LitellM : fonctionnalités, prix, avantages et inconvénients [2026]

Utilisation des jetons OpenCode : comment cela fonctionne et comment l'optimiser

Abonnez-vous à notre newsletter