Diseño de LLM en OpenShift: solución de los SCC y la identidad híbrida

Actualizado: February 17, 2026

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Los arquitectos empresariales conocen la realidad de la implementación en Red Hat OpenShift: no se limita a aplicar los manifiestos estándar con kubectl. Ya sea que ejecutes de forma local, en IBM Cloud Satellite, o mediante Azure Red Hat OpenShift (ARO), las primitivas de seguridad, específicamente las restricciones del contexto de seguridad (SCC), superarán de inmediato las implementaciones estándar de Kubernetes en sentido ascendente.

TrueFoundry funciona como una superposición de orquestación. Separamos la experiencia de los desarrolladores de la complejidad de la infraestructura, lo que le permite implementar LLM sin dejar de respetar los estrictos límites del ecosistema de Red Hat. En esta publicación se detalla cómo nos integramos con las redes de OpenShift, IBM Cloud IAM, y watsonx.ai.

El modelo de implementación: arquitectura de plano dividido

Usamos una arquitectura de plano dividido para cumplir con los requisitos de residencia de datos. Usted controla estrictamente la Plano de cálculo; gestionamos los metadatos en el Plano de control.

Plano de control (SaaS o VPC): Gestiona la gestión de identidades, los catálogos de modelos y la programación de trabajos.
Plano de cálculo (su clúster): El agente TrueFoundry se ejecuta directamente en su Plataforma de contenedores Red Hat OpenShift.

El agente inicia una conexión WebSocket solo saliente al plano de control. No se abren los puertos de firewall entrantes. Esto satisface los requisitos de aislamiento o de alta seguridad comunes en los sectores financiero y sanitario.

Figura 1: TrueFoundry opera dentro del plano de computación local, respetando el perímetro seguro.

Seguridad: automatización de SCC y RBAC

El punto de fricción en OpenShift es la aplicación de Restricciones del contexto de seguridad (SCC). A diferencia de los Kubernetes anteriores, OpenShift evita que los pods se ejecuten como root o accedan a las rutas del host de forma predeterminada.

Manejo de Restricted-v2

Diseñamos el agente TrueFoundry para que funcione dentro del SCC de versión 2 restringida.

Inyección de UID: No codificamos los seudónimos. El agente detecta el rango de UID anotado del espacio de nombres e inyecta dinámicamente el ID de RunAsUser correcto en la especificación del pod de inferencia durante el tiempo de ejecución.
Abstracción de volúmenes: Evitamos los requisitos de HostPath al utilizar reclamaciones de volumen persistentes (PVC) respaldadas por Almacenamiento en bloque en la nube de IBM o vSphere CSI para configuraciones locales.

Federación de identidades: IBM Cloud IAM

Las credenciales codificadas en secreto representan un riesgo para la seguridad. Para los despliegues en IBM Cloud, implementamos la federación de identidades mediante Perfiles confiables de IBM Cloud.

Esto permite que sus cargas de trabajo de OpenShift asuman una identidad dinámica. El pod intercambia su token de cuenta de servicio localizado por un token de IBM Cloud IAM, lo que otorga acceso temporal a Almacenamiento de objetos en la nube (COS) de IBM o IBM Key Protect.

Figura 2: Flujo de autenticación que utiliza perfiles de confianza para eliminar las credenciales estáticas de larga duración.

Redes: integración con OpenShift Routes

Los recursos estándar de Kubernetes Ingress a menudo requieren traducción en los entornos de Red Hat. TrueFoundry se integra directamente con Controlador de ingreso OpenShift (HAProxy).

Entrada: Cuando implementa un modelo, suministramos una ruta de OpenShift automáticamente y gestionamos la terminación de SSL en el borde.
Salida con brecha de aire: Para entornos desconectados, admitimos la obtención de imágenes internas Red Hat Quay registros. Puede almacenar previamente en caché los pesos de los modelos en un almacén interno compatible con S3 para eliminar las dependencias de Internet en tiempo de ejecución.

Computación: programación de GPU y Watsonx.ai

Interactuamos con Operador de GPU NVIDIA para gestionar la aceleración del hardware.

Particionamiento MIG

Para los clústeres A100 o H100, admitimos GPU NVIDIA de instancias múltiples (MIG). El programador TrueFoundry identifica los perfiles MIG disponibles y dirige los pods a la partición lógica correcta, lo que aumenta la densidad de utilización del hardware sin necesidad de una configuración de afinidad manual.

La puerta de enlace unificada

Para equipos que utilizan IBM watsonx.ai, proporcionamos una puerta de enlace de IA unificada.

Traducción de protocolos: Los desarrolladores utilizan un esquema estándar compatible con OpenAI. El Gateway gestiona la transformación a la API watsonx.ai.
Telemetría unificada: Registramos las solicitudes a los modelos autohospedados (Llama 3, Mistral) y a los modelos SaaS (Granite, Watsonx) en un solo panel para poder observar los costos y las auditorías.

Figura 3: La pasarela unifica el tráfico entre los pods autohospedados y los servicios gestionados de IBM.

Comparación operativa

La siguiente tabla describe los cambios operativos específicos al superponer TrueFoundry en OpenShift nativo.

Task	Native OpenShift Implementation	OpenShift + TrueFoundry
Security Contexts (SCC)	Manual definition of SCCs; debugging "Permission Denied" on non-root containers.	Automated UID injection; pre-configured compatibility with `restricted-v2`.
Manifest Management	Authoring raw Deployment, Service, and Route YAMLs; managing image pull secrets.	Python SDK or UI based deployment; automated generation of valid OpenShift manifests.
Observability	Disparate logs between OpenShift (Loki) and Cloud (Watsonx).	Centralized tracing and cost metrics for both cluster-local and SaaS models.
GPU Scheduling	Manual configuration of node selectors and tolerations in pod specs.	Auto-detection of accelerators; semantic matching of workloads to GPU types.

Continuidad arquitectónica

La integración de TrueFoundry con IBM Cloud y Red Hat OpenShift le permite mantener la estricta postura de cumplimiento del ecosistema de Red Hat y, al mismo tiempo, acelerar la implementación del modelo. Usted conserva la residencia de los datos en OpenShift, ya sea en las instalaciones o en IBM Cloud, y proporciona a sus equipos de ingeniería una interfaz unificada que elimina las restricciones de infraestructura subyacentes.

‍

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase

¿Cómo se puede evitar que los costos de GenAI se disparen a gran escala?

Gartner report on best practices for optimizing generative and agentic AI costs and projected statistics.

Acceda al informe completo de 2026

Gartner Hype Cycle for Platform Engineering 2026

Access Full 2026 Report

One Layer of Control for All AI

Route and govern model and tool traffic with a centralized AI Gateway

Book Demo

Tabla de contenido

Enlace de texto

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

Boyu Wang

Diseño de LLM en OpenShift: solución de los SCC y la identidad híbrida

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

El modelo de implementación: arquitectura de plano dividido