TrueFoundry no GCP: Arquitetura de GKE, TPU e Identidade de Carga de Trabalho

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

A implantação de IA Generativa no Google Cloud Platform (GCP) exige a orquestração de um conjunto complexo de primitivas: Google Kubernetes Engine (GKE), Cloud TPUs e Vertex AI. Embora o GCP forneça a capacidade de computação bruta, a conexão desses elementos em uma Plataforma de Desenvolvedor Interna (IDP) em conformidade exige uma engenharia personalizada substancial.

TrueFoundry atua como a camada de infraestrutura. Nós cuidamos da orquestração, deixando você com controle sobre a VPC e a residência de dados. Esta publicação detalha nossos padrões de integração com o GCP, especificamente em relação à arquitetura de plano dividido, Federação de Identidade de Carga de Trabalho, e gerenciamento de TPU.

Modelo de Implantação: Arquitetura de Plano Dividido

Utilizamos uma arquitetura de plano dividido para isolar a interface de gerenciamento do seu ambiente de execução de carga de trabalho.

O Plano de Controle: Nosso servidor de API e painel hospedados. Ele gerencia metadados, RBAC e agendamento de tarefas.
O Plano de Computação: Agentes e controladores executados diretamente no seu cluster GKE. Ele gerencia pesos de modelo, dados do cliente e inferência.

Limite de Segurança Não exigimos regras de firewall de entrada. O Agente no seu cluster inicia um fluxo WebSocket ou gRPC seguro e apenas de saída para o nosso Plano de Controle. Ele consulta manifestos de implantação e envia telemetria. Sua VPC permanece privada para o tráfego de entrada externo.

Fig. 1: A Arquitetura de Plano Dividido isola o processamento de dados dentro da VPC do cliente.

Topologia de Rede

Para alto desempenho, configuramos o plano de computação para usar clusters nativos de VPC usando IPs de Alias. Todos os recursos de computação residem em sub-redes privadas.

Ingress (Solicitações de Inferência) O tráfego da aplicação entra na VPC via Cloud Load Balancing (tipicamente um ALB Externo Global). O ALB encerra o TLS e encaminha as solicitações para o Istio Ingress Gateway em execução dentro do cluster GKE.

Private Google Access Para manter a conformidade, o tráfego para as APIs do Google (Cloud Storage, Vertex AI) é roteado via Private Google Access. Isso mantém o tráfego entre os pods de inferência e os serviços gerenciados do GCP na rede principal do Google, ignorando a internet pública.

Saída Os nós de trabalho do GKE exigem acesso de saída para extrair imagens de contêiner de Artifact Registry. Roteamos esse tráfego através do Cloud NAT anexadas às sub-redes privadas.

Fig 2: Fluxo de tráfego de rede detalhando a entrada e a conectividade privada.

Federação de Identidades

Impomos a remoção de chaves estáticas de Contas de Serviço (arquivos .json). A TrueFoundry implementa Identidade de Carga de Trabalho do GKE para toda a autenticação de carga de trabalho.

A Sequência de Autenticação

Criação: Ao implantar um serviço, criamos uma Conta de Serviço do Kubernetes (KSA).
Vinculação: Anotamos a KSA para vinculá-la a uma Conta de Serviço do Google (GSA) através da vinculação roles/iam.workloadIdentityUser.
Troca: O servidor de metadados do GKE intercepta as solicitações, trocando o token KSA por um token de acesso de curta duração do Google Cloud.
Acesso: O pod usa este token para autenticar nativamente (ADC) com recursos como BigQuery ou Vertex AI.

Se um pod for comprometido, o raio de impacto é estritamente limitado às funções IAM concedidas a essa GSA específica.

Fig 3: O fluxo de autenticação da Identidade de Carga de Trabalho do GKE.

Computação: Otimização de TPU e Spot

Integramos com Pools de Nós GKE para orquestrar GPUs NVIDIA e TPUs na Nuvem.

Orquestração de TPU O agendamento em TPUs exige o tratamento de restrições de topologia específicas. O TrueFoundry gerencia o nodeSelector e as tolerations necessários para agendar pods em fatias de TPU (por exemplo, v4-8, v5e). Injetamos automaticamente os drivers e limites de recursos necessários no manifesto de implantação, abstraindo a configuração de baixo nível do Kubernetes.

Gerenciamento de VMs Spot Para processamento em lote ou cargas de trabalho de desenvolvimento, gerenciamos VMs Spot para reduzir custos (tipicamente 60-90% em comparação com sob demanda).

Provisionamento: Orquestramos Pools de Nós com provisionamento spot ativado.
Tratamento de Encerramento: Monitoramos o aviso de preempção de 30 segundos. Após a detecção, isolamos o nó e acionamos o agendador para mover o pod para um pool On-Demand de fallback ou um nó Spot alternativo.

Gateway de IA: Interface Unificada

Gerenciar chaves distintas para modelos como Gemini Pro cria sobrecarga operacional. O TrueFoundry oferece um Gateway de IA que atua como uma interface de API unificada.

Autenticação Unificada: Autentique-se uma vez contra o Gateway. Lidamos com a troca de Workload Identity downstream com o Vertex AI.
Troca de Modelo: Mude do Gemini Pro para um Llama-3-70b auto-hospedado alterando um parâmetro de configuração. Sem reescritas de código.
Atribuição de Custos: Registramos o uso de tokens por projeto, permitindo que você atribua os custos compartilhados do Vertex AI de volta aos centros de custo internos.

Comparação Operacional

Task	Native GCP Implementation	TrueFoundry Overlay
Deploy TPU Workload	Manual Node Pool config. Write complex taints, tolerations, and resource limits in YAML.	Select TPU type (e.g., v5e). Controller automates node selection and scheduling constraints.
Spot VM Management	Provision Spot pools. Write custom termination handlers for the 30s preemption signal.	Toggle Spot config. Controller handles preemption, node draining, and fallback logic.
Vertex AI Access	Grant IAM permissions per service account. Build custom logging for token/cost tracking.	Route via AI Gateway. Get unified logging, cost attribution, and rate limiting out of the box.
Secret Management	Mount secrets via CSI Driver. Configure SecretProviderClass manifests per app.	UI integration referencing Secret Manager resource IDs for direct env var injection.

Resumo

Esta integração permite que sua equipe explore totalmente as vantagens de hardware do GCP — especificamente TPUs e redes de alta vazão — sem se prender à fricção operacional do gerenciamento puro do Kubernetes. O TrueFoundry atua como um multiplicador de força para sua infraestrutura: nós abstraímos a complexidade da orquestração GKE enquanto você mantém autoridade absoluta sobre segurança e residência de dados. Este equilíbrio permite que você operacionalize cargas de trabalho de GenAI imediatamente, transformando a infraestrutura de uma restrição em uma vantagem de velocidade competitiva.

‍

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now