Cómo se integra TrueFoundry con GCP: la arquitectura del plano de control

Actualizado: February 15, 2026

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

La implementación de la IA generativa en Google Cloud Platform (GCP) requiere organizar un conjunto complejo de primitivas: Google Kubernetes Engine (GKE), TPU en la nube y Vertex AI. Si bien GCP proporciona la computación sin procesar, conectarla a una plataforma de desarrollo interno (IDP) que cumpla con las normas requiere una ingeniería personalizada sustancial.

TrueFoundry actúa como la superposición de la infraestructura. Nos encargamos de la organización, lo que le permite tener el control sobre la VPC y la residencia de los datos. En esta publicación, se detallan nuestros patrones de integración con GCP, específicamente en lo que respecta a la arquitectura de plano dividido Federación de identidades de carga de trabajoy administración de TPU.

Modelo de implementación: arquitectura de plano dividido

Usamos una arquitectura de plano dividido para aislar la interfaz de administración de su entorno de ejecución de cargas de trabajo.

El plano de control: Nuestro panel de control y servidor de API alojados. Gestiona los metadatos, el RBAC y la programación de trabajos.
El plano de cálculo: Los agentes y controladores se ejecutan directamente en tu clúster de GKE. Gestiona las ponderaciones de los modelos, los datos de los clientes y las inferencias.

Límite de seguridad No exigimos reglas de firewall de entrada. El agente de su clúster inicia una transmisión WebSocket o gRPC segura y solo de salida a nuestro plano de control. Sondea los manifiestos de despliegue e impulsa la telemetría. Su VPC permanece privada frente al tráfico de entrada externo.

Figura 1: La arquitectura de plano dividido aísla el procesamiento de datos dentro de la VPC del cliente.

Topología de redes

Para un alto rendimiento, configuramos el plano de procesamiento para usar Clústeres nativos de VPC usando IP de alias. Todos los recursos informáticos residen en subredes privadas.

Entrada (solicitudes de inferencia) El tráfico de aplicaciones entra en la VPC a través de Balance de carga en la nube (normalmente un ALB externo global). El ALB termina el TLS y reenvía las solicitudes al Puerta de enlace Istio Ingress que se ejecuta en el clúster de GKE.

Acceso privado a Google Para mantener el cumplimiento, el tráfico a las API de Google (Cloud Storage, Vertex AI) se dirige a través de Acceso privado a Google. Esto mantiene el tráfico entre los módulos de inferencia y los servicios gestionados por GCP en la red troncal de la red de Google, sin pasar por la Internet pública.

Salida Los nodos de trabajo de GKE requieren acceso saliente para extraer imágenes de contenedores desde Registro de artefactos. Enrutamos este tráfico NAT en la nube conectado a las subredes privadas.

Figura 2: Flujo de tráfico de red que detalla la entrada y la conectividad privada.

Federación de identidades

Impulsamos la eliminación de las claves estáticas de las cuentas de servicio (archivos.json). TrueFoundry implementa Identidad de carga de trabajo de GKE para toda la autenticación de cargas de trabajo.

La secuencia de autenticación

Creación: Cuando implementas un servicio, creamos una cuenta de servicio de Kubernetes (KSA).
Encuadernación: Hacemos anotaciones en la KSA para vincularla a una cuenta de servicio de Google (GSA) mediante el enlace roles/iam.workloadIdentityUser.
Intercambio: El Servidor de metadatos de GKE intercepta las solicitudes e intercambia el token KSA por un token de acceso a Google Cloud de corta duración.
Acceso: El pod usa este token para autenticarse de forma nativa (ADC) con recursos como BigQuery o Vertex AI.

Si una cápsula se ve comprometida, el radio de explosión se limita estrictamente a las funciones de IAM asignadas a esa GSA específica.

Figura 3: El flujo de autenticación de la identidad de carga de trabajo de GKE.

Computación: optimización de puntos y TPU

Nos integramos con Grupos de nodos de GKE para orquestar las GPU NVIDIA y las TPU en la nube.

Orquestación de TPU La programación en TPU requiere gestionar restricciones topológicas específicas. TrueFoundry administra el NodeSelector y las tolerancias necesarias para programar los pods en segmentos de TPU (p. ej., las versiones 4-8 y 5e). Introducimos automáticamente los controladores y los límites de recursos necesarios en el manifiesto de despliegue, con lo que extraemos la configuración de Kubernetes de bajo nivel.

Administración puntual de máquinas virtuales Para las cargas de trabajo de procesamiento o desarrollo por lotes, gestionamos Detecta máquinas virtuales para reducir los costos (normalmente entre un 60 y un 90% en comparación con bajo demanda).

Aprovisionamiento: Organizamos grupos de nodos con el aprovisionamiento puntual habilitado.
Gestión de la terminación: Supervisamos el aviso de preferencia de 30 segundos. Tras la detección, acordonamos el nodo y activamos el programador para que mueva el pod a un grupo bajo demanda alternativo o a un nodo spot alternativo.

AI Gateway: interfaz unificada

Administrar claves distintas para modelos como Géminis Pro crea una sobrecarga operativa. TrueFoundry proporciona una puerta de enlace de IA que actúa como una interfaz API unificada.

Autenticación unificada: Autentica una vez en la puerta de enlace. Gestionamos el intercambio de identidades de las cargas de trabajo posteriores con Vertex AI.
Cambio de modelo: Cambie de gemini pro a un llama-3-70b autohospedado cambiando un parámetro de configuración. Sin reescrituras de código.
Atribución de costos: Registramos el uso de los tokens por proyecto, lo que le permite asignar los costos compartidos de Vertex AI a los centros de costos internos.

Comparación operativa

Task	Native GCP Implementation	TrueFoundry Overlay
Deploy TPU Workload	Manual Node Pool config. Write complex taints, tolerations, and resource limits in YAML.	Select TPU type (e.g., v5e). Controller automates node selection and scheduling constraints.
Spot VM Management	Provision Spot pools. Write custom termination handlers for the 30s preemption signal.	Toggle Spot config. Controller handles preemption, node draining, and fallback logic.
Vertex AI Access	Grant IAM permissions per service account. Build custom logging for token/cost tracking.	Route via AI Gateway. Get unified logging, cost attribution, and rate limiting out of the box.
Secret Management	Mount secrets via CSI Driver. Configure SecretProviderClass manifests per app.	UI integration referencing Secret Manager resource IDs for direct env var injection.

Resumen

Esta integración permite a tu equipo aprovechar al máximo las ventajas del hardware de GCP (en concreto, las TPU y las redes de alto rendimiento) sin verse atrapado en la fricción operativa que supone gestionar Kubernetes sin procesar. TrueFoundry actúa como un multiplicador de fuerza para tu infraestructura: eliminamos la complejidad de la organización de GKE y tú conservas la autoridad absoluta sobre la seguridad y la residencia de los datos. Este equilibrio te permite poner en funcionamiento las cargas de trabajo de GenAI de forma inmediata, lo que convierte la infraestructura de una limitación en una ventaja competitiva en velocidad.

‍

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase

¿Cómo se puede evitar que los costos de GenAI se disparen a gran escala?

Gartner report on best practices for optimizing generative and agentic AI costs and projected statistics.

Acceda al informe completo de 2026

Gartner Hype Cycle for Platform Engineering 2026

Access Full 2026 Report

One Layer of Control for All AI

Route and govern model and tool traffic with a centralized AI Gateway

Book Demo

Tabla de contenido

Enlace de texto

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

Boyu Wang

Cómo se integra TrueFoundry con GCP: la arquitectura del plano de control

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Modelo de implementación: arquitectura de plano dividido

Topología de redes

Federación de identidades

Computación: optimización de puntos y TPU

AI Gateway: interfaz unificada

Comparación operativa

Resumen

La forma más rápida de crear, gobernar y escalar su IA

One Layer of Control for All AI

Controle, implemente y rastree la IA en su propia infraestructura

La forma más rápida de crear, gobernar y escalar su IA

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

Las mejores herramientas de observación de LLM

Herramientas de gestión rápida para sistemas de IA de producción

Blogs recientes

Decoding the Gartner® Hype Cycle™ for Platform Engineering 2026

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

What Is Multi-Agent Orchestration? A Practical Guide for Enterprise Teams

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Agent Platforms in 2026: Compared for Enterprise and Developer Teams

PII Redaction at the Gateway vs. the Application Layer: A Performance and Correctness Analysis

Context Engineering at the Gateway Layer: How Session Management Enables Long-Running Agents

Separating Agent Logic from Runtime: The Case for a Managed Agent Layer

Converting an OpenAPI Spec to an MCP Server: Architecture and Edge Cases

How to Test AI-Powered Systems and LLM Workflows in Production-Like Environments

Implementing SCIM at TrueFoundry: Automating User & Team Management with Okta

Real-Time LLM Cost Attribution: From Token Counts to Team Budgets

OpenTelemetry for LLMs: How we instrument a multi-provider AI gateway

Introducing Agent Gateway: A Unified Control Plane for Enterprise AI Agents

Provider-Agnostic Prompt Caching: How an LLM Gateway Normalizes Anthropic, OpenAI, and Bedrock

Blog

Cómo se integra TrueFoundry con GCP: la arquitectura del plano de control

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Modelo de implementación: arquitectura de plano dividido

Topología de redes

Federación de identidades

Computación: optimización de puntos y TPU

AI Gateway: interfaz unificada

Comparación operativa

Resumen

La forma más rápida de crear, gobernar y escalar su IA

One Layer of Control for All AI

Controle, implemente y rastree la IA en su propia infraestructura

La forma más rápida de crear, gobernar y escalar su IA

Descubra más

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

Las mejores herramientas de observación de LLM

Herramientas de gestión rápida para sistemas de IA de producción

Blogs recientes

Decoding the Gartner® Hype Cycle™ for Platform Engineering 2026

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

What Is Multi-Agent Orchestration? A Practical Guide for Enterprise Teams

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Agent Platforms in 2026: Compared for Enterprise and Developer Teams

PII Redaction at the Gateway vs. the Application Layer: A Performance and Correctness Analysis

Context Engineering at the Gateway Layer: How Session Management Enables Long-Running Agents

Separating Agent Logic from Runtime: The Case for a Managed Agent Layer

Converting an OpenAPI Spec to an MCP Server: Architecture and Edge Cases

How to Test AI-Powered Systems and LLM Workflows in Production-Like Environments

Implementing SCIM at TrueFoundry: Automating User & Team Management with Okta

Real-Time LLM Cost Attribution: From Token Counts to Team Budgets

OpenTelemetry for LLMs: How we instrument a multi-provider AI gateway

Introducing Agent Gateway: A Unified Control Plane for Enterprise AI Agents

Provider-Agnostic Prompt Caching: How an LLM Gateway Normalizes Anthropic, OpenAI, and Bedrock

Blog

Suscríbase a nuestro boletín