TrueFoundry y Cerebras anuncian una asociación estratégica

Actualizado: September 11, 2025

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Las empresas se apresuran a poner en práctica la IA, pero el proceso desde la prueba de concepto hasta la producción a menudo se queda atrapado entre dos extremos: rendimiento bruto y disciplina operativa. Por un lado, se necesita una infraestructura que pueda gestionar las demandas de escala y latencia de las aplicaciones de IA modernas. Por otro lado, se necesitan controles de gobernanza, seguridad y costes para que sea viable en la empresa.

La nueva asociación entre Sistemas Cerebras y True Foundry cierra esta brecha. Juntos, ofrecen una plataforma en la que las organizaciones pueden ejecutar los modelos más avanzados del mundo a una velocidad sin precedentes y, al mismo tiempo, garantizar la observabilidad, la gobernanza y la flexibilidad.

Cerebras: redefiniendo la inferencia de la IA a escala

Cerebras se ha hecho conocido por superar los límites del hardware y la inferencia de inteligencia artificial. Con su tecnología a escala de oblea y Inferencia cerebral servicio, las empresas obtienen:

Velocidad vertiginosa: Inferencia a miles de tokens por segundo, lo que permite agentes en tiempo real, copilotos de código y experiencias de IA interactivas.
Amplitud de modelos: Soporte para los principales LLM de la actualidad, incluidos Llama 3.1/3.3, Mistral, Qwen e incluso modelos de razonamiento como el GPT-OSS-120B.
Escalabilidad: Una hoja de ruta para gestionar 40 millones de tokens por segundo antes de finales de 2025 a través de clústeres CS-3 distribuidos en todo el mundo.
Eficiencia: Menor costo por consulta en comparación con la infraestructura vinculada a la GPU, lo que hace que la implementación a gran escala sea económicamente factible.

Para las empresas, esto significa la capacidad de cumplir finalmente productos de IA de baja latencia—desde agentes conversacionales hasta resúmenes en tiempo real— sin que el hardware los obstruya.

TrueFoundry AI Gateway: gobernanza, flexibilidad y confiabilidad

Mientras Cerebras resuelve el rendimiento problema, TrueFoundry resuelve el operacional uno. Es Puerta de enlace de IA actúa como el plano de control para el uso de la IA empresarial:

Acceso unificado: Una única API compatible con OpenAI para conectarse con miles de modelos, ya sea alojados por Cerebras, otro proveedor o de forma local.
Gobernanza y seguridad: Autenticación centralizada, RBAC, registros de auditoría y control de acceso detallado.
Observabilidad: Análisis detallados sobre la latencia, el uso de los tokens, los errores y el gasto, que permiten una optimización basada en datos.
Fiabilidad: Enrutamiento inteligente, políticas de respaldo y equilibrio de carga para garantizar el tiempo de actividad y el rendimiento incluso si un proveedor se degrada.
Flexibilidad de implementación: SaaS, VPC o local, incluidos entornos aislados para industrias altamente reguladas.

En resumen, TrueFoundry garantiza que las empresas puedan escalar el uso de la IA de forma segura, visible y predecible.

Qué desbloquea la asociación

La unión de Cerebras y TrueFoundry crea un solución integral para el despliegue de IA empresarial:

Alto rendimiento y alto control
Las empresas ya no necesitan elegir entre una inferencia rápida y una gobernanza estricta. Tienen ambas opciones: Cerebras por su velocidad y TrueFoundry por su control.
Adopción perfecta por parte de desarrolladores
Con las API de estilo OpenAI de TrueFoundry, los desarrolladores pueden integrar la inferencia de Cerebras con cambios mínimos en el código e incluso cambiar de proveedor si es necesario.
Flexibilidad preparada para el futuro
TrueFoundry reduce la dependencia de un solo proveedor. Las empresas pueden redirigir las cargas de trabajo entre Cerebras, modelos de código abierto u otros proveedores, en función del costo, la latencia o las necesidades de cumplimiento.
Implementaciones listas para el cumplimiento
Las industrias reguladas pueden adoptar el rendimiento de vanguardia de Cerebras en configuraciones de VPC o locales, sin sacrificar la soberanía de los datos.
Tiempo de generación de valor acelerado
Con la infraestructura y la gobernanza resueltas, los equipos pueden centrarse en creación de productos impulsados por IA—chatbots para clientes, motores de personalización, asistentes de salud— en lugar de construir tuberías.

Por qué es importante

Esta asociación marca un cambio en la forma en que las empresas abordan la IA. Ya no basta con realizar pruebas comparativas en laboratorios o pruebas piloto en equipos aislados. Las empresas necesitan:

Velocidad para admitir aplicaciones de IA interactivas y en tiempo real.
Seguridad para cumplir con las restricciones de cumplimiento y costos.
Flexibilidad para adaptarse a medida que evolucionan los modelos, los proveedores y las necesidades empresariales.

Cerebras × TrueFoundry cumple con los tres.

La asociación entre Cerebras y TrueFoundry representa más que una simple integración: es un modelo para la siguiente fase de la adopción de la IA empresarial. Combinando Rendimiento de inferencia sin precedentes de Cerebras con La puerta de enlace de IA de TrueFoundry para la gobernanza y el control, las empresas pueden por fin ejecutar cargas de trabajo de IA que no solo son potentes, sino que también están listas para la producción.

Para las empresas que desean sacar la IA de los prototipos y llevarla a los flujos de trabajo de misión crítica, esta colaboración desbloquea la pieza que faltaba: una plataforma rápida, gobernada y preparada para el futuro.true

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase

¿Cómo se puede evitar que los costos de GenAI se disparen a gran escala?

Gartner report on best practices for optimizing generative and agentic AI costs and projected statistics.

Acceda al informe completo de 2026

Gartner Hype Cycle for Platform Engineering 2026

Access Full 2026 Report

One Layer of Control for All AI

Route and govern model and tool traffic with a centralized AI Gateway

Book Demo

Tabla de contenido

Enlace de texto

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

Boyu Wang

TrueFoundry y Cerebras anuncian una asociación estratégica

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Cerebras: redefiniendo la inferencia de la IA a escala

TrueFoundry AI Gateway: gobernanza, flexibilidad y confiabilidad

Qué desbloquea la asociación

Por qué es importante

La forma más rápida de crear, gobernar y escalar su IA

One Layer of Control for All AI

Controle, implemente y rastree la IA en su propia infraestructura

La forma más rápida de crear, gobernar y escalar su IA

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

Las mejores herramientas de observación de LLM

Herramientas de gestión rápida para sistemas de IA de producción

Blogs recientes

Decoding the Gartner® Hype Cycle™ for Platform Engineering 2026

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

What Is Multi-Agent Orchestration? A Practical Guide for Enterprise Teams

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Agent Platforms in 2026: Compared for Enterprise and Developer Teams

PII Redaction at the Gateway vs. the Application Layer: A Performance and Correctness Analysis

Context Engineering at the Gateway Layer: How Session Management Enables Long-Running Agents

Separating Agent Logic from Runtime: The Case for a Managed Agent Layer

Converting an OpenAPI Spec to an MCP Server: Architecture and Edge Cases

How to Test AI-Powered Systems and LLM Workflows in Production-Like Environments

Implementing SCIM at TrueFoundry: Automating User & Team Management with Okta

Real-Time LLM Cost Attribution: From Token Counts to Team Budgets

OpenTelemetry for LLMs: How we instrument a multi-provider AI gateway

Introducing Agent Gateway: A Unified Control Plane for Enterprise AI Agents

Provider-Agnostic Prompt Caching: How an LLM Gateway Normalizes Anthropic, OpenAI, and Bedrock

Blog

TrueFoundry y Cerebras anuncian una asociación estratégica

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Cerebras: redefiniendo la inferencia de la IA a escala

TrueFoundry AI Gateway: gobernanza, flexibilidad y confiabilidad

Qué desbloquea la asociación

Por qué es importante

La forma más rápida de crear, gobernar y escalar su IA

One Layer of Control for All AI

Controle, implemente y rastree la IA en su propia infraestructura

La forma más rápida de crear, gobernar y escalar su IA

Descubra más

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

Las mejores herramientas de observación de LLM

Herramientas de gestión rápida para sistemas de IA de producción

Blogs recientes

Decoding the Gartner® Hype Cycle™ for Platform Engineering 2026

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

What Is Multi-Agent Orchestration? A Practical Guide for Enterprise Teams

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Agent Platforms in 2026: Compared for Enterprise and Developer Teams

PII Redaction at the Gateway vs. the Application Layer: A Performance and Correctness Analysis

Context Engineering at the Gateway Layer: How Session Management Enables Long-Running Agents

Separating Agent Logic from Runtime: The Case for a Managed Agent Layer

Converting an OpenAPI Spec to an MCP Server: Architecture and Edge Cases

How to Test AI-Powered Systems and LLM Workflows in Production-Like Environments

Implementing SCIM at TrueFoundry: Automating User & Team Management with Okta

Real-Time LLM Cost Attribution: From Token Counts to Team Budgets

OpenTelemetry for LLMs: How we instrument a multi-provider AI gateway

Introducing Agent Gateway: A Unified Control Plane for Enterprise AI Agents

Provider-Agnostic Prompt Caching: How an LLM Gateway Normalizes Anthropic, OpenAI, and Bedrock

Blog

Suscríbase a nuestro boletín