Executando LLMs no OpenShift: SCCs, IAM e Integração com Watsonx

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

Arquitetos corporativos conhecem a realidade da implantação em Red Hat OpenShift: você não simplesmente aplica manifestos padrão com kubectl. Seja executando no local (on-premise), em IBM Cloud Satellite, ou via Azure Red Hat OpenShift (ARO), as primitivas de segurança — especificamente as Restrições de Contexto de Segurança (SCCs) — quebrarão imediatamente as implantações padrão do Kubernetes upstream.

TrueFoundry funciona como uma camada de orquestração. Nós desvinculamos a experiência do desenvolvedor da complexidade da infraestrutura, permitindo que você implante LLMs enquanto adere aos limites rigorosos do ecossistema Red Hat. Esta publicação detalha como nos integramos com a rede do OpenShift, IBM Cloud IAM, e watsonx.ai.

O Modelo de Implantação: Arquitetura de Plano Dividido

Utilizamos uma arquitetura de plano dividido para satisfazer os requisitos de residência de dados. Você controla rigorosamente o Plano de Computação; nós gerenciamos os metadados no Plano de Controle.

Plano de Controle (SaaS ou VPC): Gerencia a identidade, catálogos de modelos e o agendamento de tarefas.
Plano de Computação (Seu Cluster): O Agente TrueFoundry é executado diretamente no seu Red Hat OpenShift Container Platform.

O Agente inicia uma conexão WebSocket apenas de saída com o Plano de Controle. Você não abre portas de firewall de entrada. Isso atende aos requisitos de ambientes isolados (air-gapped) ou de alta segurança comuns nos setores financeiro e de saúde.

Fig. 1: TrueFoundry opera dentro do plano de computação local, respeitando o perímetro de segurança.

Segurança: Automatizando SCCs e RBAC

O ponto de atrito no OpenShift é a aplicação de Security Context Constraints (SCCs). Ao contrário do Kubernetes upstream, o OpenShift impede que os pods sejam executados como root ou acessem caminhos de host por padrão.

Gerenciamento de Restricted-v2

Projetamos o agente TrueFoundry para operar dentro do SCC restricted-v2.

Injeção de UID: Não codificamos IDs de Usuário diretamente. O agente detecta o intervalo de UID anotado do namespace e injeta dinamicamente o ID runAsUser correto na especificação do pod de inferência em tempo de execução.
Abstração de Volume: Contornamos os requisitos de hostPath utilizando Persistent Volume Claims (PVCs) suportados por IBM Cloud Block Storage ou vSphere CSI para configurações on-premise.

Federação de Identidade: IBM Cloud IAM

Credenciais codificadas em segredos são um risco de segurança. Para implantações no IBM Cloud, implementamos a federação de identidade usando IBM Cloud Trusted Profiles.

Isso permite que suas cargas de trabalho OpenShift assumam uma identidade dinâmica. O pod troca seu Token de Conta de Serviço localizado por um token IBM Cloud IAM, concedendo acesso temporário a IBM Cloud Object Storage (COS) ou IBM Key Protect.

Fig 2: Fluxo de autenticação utilizando Perfis Confiáveis para eliminar credenciais estáticas de longa duração.

Rede: Integrando com Rotas OpenShift

Recursos de Ingress padrão do Kubernetes frequentemente exigem tradução em ambientes Red Hat. TrueFoundry se integra diretamente com o OpenShift Ingress Controller (HAProxy).

Ingress: Ao implantar um modelo, provisionamos uma Rota OpenShift automaticamente, gerenciando a terminação SSL na borda.
Egress Air-Gapped: Para ambientes desconectados, suportamos pulls de imagem de Red Hat Quay registries. Você pode pré-armazenar em cache os pesos do modelo em um armazenamento interno compatível com S3 para eliminar dependências de internet em tempo de execução.

Computação: Agendamento de GPU e Watsonx.ai

Fazemos a interface com o NVIDIA GPU Operator para lidar com a aceleração de hardware.

Particionamento MIG

Para clusters A100 ou H100, oferecemos suporte NVIDIA Multi-Instance GPU (MIG). O agendador TrueFoundry identifica perfis MIG disponíveis e direciona os pods para a partição lógica correta, aumentando a densidade de utilização de hardware sem configuração manual de afinidade.

O Gateway Unificado

Para equipes que utilizam IBM watsonx.ai, fornecemos um Gateway de IA unificado.

Tradução de Protocolo: Os desenvolvedores usam um esquema padrão compatível com OpenAI. O Gateway lida com a transformação para a API do watsonx.ai.
Telemetria Unificada: Registramos solicitações para modelos auto-hospedados (Llama 3, Mistral) e modelos SaaS (Granite, Watsonx) em um único painel para observabilidade de custos e auditoria.

Fig 3: O Gateway unifica o tráfego entre pods auto-hospedados e serviços gerenciados da IBM.

Comparação Operacional

A tabela abaixo descreve as mudanças operacionais específicas ao sobrepor o TrueFoundry no OpenShift nativo.

Task	Native OpenShift Implementation	OpenShift + TrueFoundry
Security Contexts (SCC)	Manual definition of SCCs; debugging "Permission Denied" on non-root containers.	Automated UID injection; pre-configured compatibility with `restricted-v2`.
Manifest Management	Authoring raw Deployment, Service, and Route YAMLs; managing image pull secrets.	Python SDK or UI based deployment; automated generation of valid OpenShift manifests.
Observability	Disparate logs between OpenShift (Loki) and Cloud (Watsonx).	Centralized tracing and cost metrics for both cluster-local and SaaS models.
GPU Scheduling	Manual configuration of node selectors and tolerations in pod specs.	Auto-detection of accelerators; semantic matching of workloads to GPU types.

Continuidade Arquitetônica

A integração do TrueFoundry com o IBM Cloud e o Red Hat OpenShift permite que você mantenha a rigorosa postura de conformidade do ecossistema Red Hat, ao mesmo tempo em que acelera a implantação de modelos. Você mantém a residência dos dados no OpenShift — seja on-premise ou no IBM Cloud — e oferece às suas equipes de engenharia uma interface unificada que abstrai as restrições da infraestrutura subjacente.

‍

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now