Architecture de LLM sur OpenShift : résolution des SCC et de l'identité hybride

Mis à jour : February 17, 2026

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Les architectes d'entreprise connaissent la réalité du déploiement sur Red Hat OpenShift: kubectl n'applique pas simplement des manifestes standard. Que vous utilisiez sur site, sur Satellite IBM Cloud, ou via Azure Red Hat OpenShift (ARO), les primitives de sécurité, en particulier les contraintes de contexte de sécurité (SCC), vont immédiatement briser les déploiements standard de Kubernetes en amont.

TrueFoundry fonctionne comme une superposition d'orchestration. Nous découplons l'expérience des développeurs de la complexité de l'infrastructure, ce qui vous permet de déployer des LLM tout en respectant les limites strictes de l'écosystème Red Hat. Cet article explique comment nous nous intégrons au réseau d'OpenShift, IBM Cloud IAM, et watsonx.ai.

Le modèle de déploiement : architecture à plans divisés

Nous utilisons une architecture à plans divisés pour répondre aux exigences de résidence des données. Vous contrôlez strictement Plan de calcul; nous gérons les métadonnées dans le Plan de contrôle.

Plan de contrôle (SaaS ou VPC) : Gère la gestion des identités, les catalogues de modèles et la planification des tâches.
Plan de calcul (votre cluster) : L'agent TrueFoundry s'exécute directement sur votre Plateforme de conteneurs Red Hat OpenShift.

L'agent initie une connexion WebSocket sortante uniquement avec le plan de contrôle. Vous n'ouvrez pas les ports de pare-feu entrants. Cela répond aux exigences de sécurité strictes ou de haute sécurité courantes dans les secteurs de la finance et de la santé.

Figure 1 : TrueFoundry fonctionne dans le plan de calcul local, en respectant le périmètre sécurisé.

Sécurité : automatisation des SCC et du RBAC

Le point de friction dans OpenShift est l'application de Contraintes liées au contexte de sécurité (SCC). Contrairement à Kubernetes en amont, OpenShift empêche les pods de s'exécuter en tant que root ou d'accéder aux chemins hôtes par défaut.

Gestion de Restricted-V2

Nous concevons l'agent TrueFoundry pour qu'il fonctionne dans le SCC v2 restreint.

Injection UID : Nous ne codons pas en dur les noms d'utilisateur. L'agent détecte la plage d'UID annotée de l'espace de noms et injecte dynamiquement l'ID RunAsUser correct dans la spécification du pod d'inférence lors de l'exécution.
Abstraction du volume : Nous contournons les exigences de HostPath en utilisant des réclamations de volume persistantes (PVC) soutenues par IBM Cloud Block Storage ou vSphere CSI pour les configurations sur site.

Fédération des identités : IBM Cloud IAM

Les informations d'identification codées en dur dans des secrets constituent un risque de sécurité. Pour les déploiements sur IBM Cloud, nous mettons en œuvre la fédération des identités à l'aide Profils fiables IBM Cloud.

Cela permet à vos charges de travail OpenShift de prendre une identité dynamique. Le pod échange son jeton de compte de service localisé contre un jeton IBM Cloud IAM, accordant un accès temporaire à IBM Cloud Object Storage (COS) ou IBM Key Protect.

Figure 2 : Flux d'authentification utilisant des profils fiables pour éliminer les informations d'identification statiques à longue durée de vie.

Mise en réseau : intégration à OpenShift Routes

Les ressources Kubernetes Ingress standard nécessitent souvent une traduction dans les environnements Red Hat. TrueFoundry s'intègre directement à Contrôleur d'entrée OpenShift (HAProxy).

Entrée : Lorsque vous déployez un modèle, nous provisionnons automatiquement une route OpenShift, en gérant la terminaison SSL à la périphérie.
Sortie avec interstice d'air : Pour les environnements déconnectés, nous prenons en charge l'extraction d'images depuis l'intérieur Red Hat Quay registres. Vous pouvez pré-mettre en cache les pondérations des modèles dans un magasin interne compatible S3 afin d'éliminer les dépendances à Internet lors de l'exécution.

Calcul : planification du GPU et Watsonx.ai

Nous interagissons avec Opérateur GPU NVIDIA pour gérer l'accélération matérielle.

Partitionnement MIG

Pour les clusters A100 ou H100, nous prenons en charge Carte graphique multi-instance NVIDIA (MIG). Le planificateur TrueFoundry identifie les profils MIG disponibles et cible les pods vers la bonne partition logique, augmentant ainsi la densité d'utilisation du matériel sans configuration d'affinité manuelle.

La passerelle unifiée

Pour les équipes utilisant watsonx.ai d'IBM, nous fournissons une passerelle IA unifiée.

Traduction du protocole : Les développeurs utilisent un schéma standard compatible avec OpenAI. La passerelle gère la transformation vers l'API watsonx.ai.
Télémétrie unifiée : Nous enregistrons les demandes destinées à des modèles auto-hébergés (Llama 3, Mistral) et à des modèles SaaS (Granite, Watsonx) dans un seul volet pour des raisons d'observabilité des coûts et des audits.

Figure 3 : La passerelle unifie le trafic entre les pods auto-hébergés et les services IBM gérés.

Comparaison opérationnelle

Le tableau ci-dessous décrit les changements opérationnels spécifiques lors de la superposition de TrueFoundry sur OpenShift natif.

Task	Native OpenShift Implementation	OpenShift + TrueFoundry
Security Contexts (SCC)	Manual definition of SCCs; debugging "Permission Denied" on non-root containers.	Automated UID injection; pre-configured compatibility with `restricted-v2`.
Manifest Management	Authoring raw Deployment, Service, and Route YAMLs; managing image pull secrets.	Python SDK or UI based deployment; automated generation of valid OpenShift manifests.
Observability	Disparate logs between OpenShift (Loki) and Cloud (Watsonx).	Centralized tracing and cost metrics for both cluster-local and SaaS models.
GPU Scheduling	Manual configuration of node selectors and tolerations in pod specs.	Auto-detection of accelerators; semantic matching of workloads to GPU types.

Continuité architecturale

L'intégration de TrueFoundry à IBM Cloud et Red Hat OpenShift vous permet de maintenir la posture de conformité stricte de l'écosystème Red Hat tout en accélérant le déploiement des modèles. Vous conservez la résidence des données sur OpenShift, que ce soit sur site ou dans le cloud IBM, et vous offrez à vos équipes d'ingénierie une interface unifiée qui fait abstraction des contraintes d'infrastructure sous-jacentes.

‍

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS

Comment pouvez-vous empêcher les coûts de GenAI de grimper en flèche à grande échelle ?

Gartner report on best practices for optimizing generative and agentic AI costs and projected statistics.

Accédez au rapport complet de 2026

Gartner Hype Cycle for Platform Engineering 2026

Access Full 2026 Report

One Layer of Control for All AI

Route and govern model and tool traffic with a centralized AI Gateway

Book Demo

Table des matières

Lien textuel

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Boyu Wang

Architecture de LLM sur OpenShift : résolution des SCC et de l'identité hybride

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Le modèle de déploiement : architecture à plans divisés