Arquitetando LLMs no OpenShift: Resolvendo SCCs e Identidade Híbrida

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Arquitetos corporativos conhecem a realidade da implantação em Red Hat OpenShift: você não simplesmente aplica manifestos padrão com kubectl. Seja executando no local (on-premise), em IBM Cloud Satellite, ou via Azure Red Hat OpenShift (ARO), as primitivas de segurança — especificamente as Restrições de Contexto de Segurança (SCCs) — quebrarão imediatamente as implantações padrão do Kubernetes upstream.
TrueFoundry funciona como uma camada de orquestração. Nós desvinculamos a experiência do desenvolvedor da complexidade da infraestrutura, permitindo que você implante LLMs enquanto adere aos limites rigorosos do ecossistema Red Hat. Esta publicação detalha como nos integramos com a rede do OpenShift, IBM Cloud IAM, e watsonx.ai.
O Modelo de Implantação: Arquitetura de Plano Dividido
Utilizamos uma arquitetura de plano dividido para satisfazer os requisitos de residência de dados. Você controla rigorosamente o Plano de Computação; nós gerenciamos os metadados no Plano de Controle.
- Plano de Controle (SaaS ou VPC): Gerencia a identidade, catálogos de modelos e o agendamento de tarefas.
- Plano de Computação (Seu Cluster): O Agente TrueFoundry é executado diretamente no seu Red Hat OpenShift Container Platform.
O Agente inicia uma conexão WebSocket apenas de saída com o Plano de Controle. Você não abre portas de firewall de entrada. Isso atende aos requisitos de ambientes isolados (air-gapped) ou de alta segurança comuns nos setores financeiro e de saúde.

Fig. 1: TrueFoundry opera dentro do plano de computação local, respeitando o perímetro de segurança.
Segurança: Automatizando SCCs e RBAC
O ponto de atrito no OpenShift é a aplicação de Security Context Constraints (SCCs). Ao contrário do Kubernetes upstream, o OpenShift impede que os pods sejam executados como root ou acessem caminhos de host por padrão.
Gerenciamento de Restricted-v2
Projetamos o agente TrueFoundry para operar dentro do SCC restricted-v2.
- Injeção de UID: Não codificamos IDs de Usuário diretamente. O agente detecta o intervalo de UID anotado do namespace e injeta dinamicamente o ID runAsUser correto na especificação do pod de inferência em tempo de execução.
- Abstração de Volume: Contornamos os requisitos de hostPath utilizando Persistent Volume Claims (PVCs) suportados por IBM Cloud Block Storage ou vSphere CSI para configurações on-premise.
Federação de Identidade: IBM Cloud IAM
Credenciais codificadas em segredos são um risco de segurança. Para implantações no IBM Cloud, implementamos a federação de identidade usando IBM Cloud Trusted Profiles.
Isso permite que suas cargas de trabalho OpenShift assumam uma identidade dinâmica. O pod troca seu Token de Conta de Serviço localizado por um token IBM Cloud IAM, concedendo acesso temporário a IBM Cloud Object Storage (COS) ou IBM Key Protect.

Fig 2: Fluxo de autenticação utilizando Perfis Confiáveis para eliminar credenciais estáticas de longa duração.
Rede: Integrando com Rotas OpenShift
Recursos de Ingress padrão do Kubernetes frequentemente exigem tradução em ambientes Red Hat. TrueFoundry se integra diretamente com o OpenShift Ingress Controller (HAProxy).
- Ingress: Ao implantar um modelo, provisionamos uma Rota OpenShift automaticamente, gerenciando a terminação SSL na borda.
- Egress Air-Gapped: Para ambientes desconectados, suportamos pulls de imagem de Red Hat Quay registries. Você pode pré-armazenar em cache os pesos do modelo em um armazenamento interno compatível com S3 para eliminar dependências de internet em tempo de execução.
Computação: Agendamento de GPU e Watsonx.ai
Fazemos a interface com o NVIDIA GPU Operator para lidar com a aceleração de hardware.
Particionamento MIG
Para clusters A100 ou H100, oferecemos suporte NVIDIA Multi-Instance GPU (MIG). O agendador TrueFoundry identifica perfis MIG disponíveis e direciona os pods para a partição lógica correta, aumentando a densidade de utilização de hardware sem configuração manual de afinidade.
O Gateway Unificado
Para equipes que utilizam IBM watsonx.ai, fornecemos um Gateway de IA unificado.
- Tradução de Protocolo: Os desenvolvedores usam um esquema padrão compatível com OpenAI. O Gateway lida com a transformação para a API do watsonx.ai.
- Telemetria Unificada: Registramos solicitações para modelos auto-hospedados (Llama 3, Mistral) e modelos SaaS (Granite, Watsonx) em um único painel para observabilidade de custos e auditoria.

Fig 3: O Gateway unifica o tráfego entre pods auto-hospedados e serviços gerenciados da IBM.
Comparação Operacional
A tabela abaixo descreve as mudanças operacionais específicas ao sobrepor o TrueFoundry no OpenShift nativo.
Continuidade Arquitetônica
A integração do TrueFoundry com o IBM Cloud e o Red Hat OpenShift permite que você mantenha a rigorosa postura de conformidade do ecossistema Red Hat, ao mesmo tempo em que acelera a implantação de modelos. Você mantém a residência dos dados no OpenShift — seja on-premise ou no IBM Cloud — e oferece às suas equipes de engenharia uma interface unificada que abstrai as restrições da infraestrutura subjacente.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI













.webp)






.webp)

.webp)
.webp)





.png)



