TrueFoundry y Cerebras anuncian una asociación estratégica

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
Las empresas se apresuran a poner en práctica la IA, pero el proceso desde la prueba de concepto hasta la producción a menudo se queda atrapado entre dos extremos: rendimiento bruto y disciplina operativa. Por un lado, se necesita una infraestructura que pueda gestionar las demandas de escala y latencia de las aplicaciones de IA modernas. Por otro lado, se necesitan controles de gobernanza, seguridad y costes para que sea viable en la empresa.
La nueva asociación entre Sistemas Cerebras y True Foundry cierra esta brecha. Juntos, ofrecen una plataforma en la que las organizaciones pueden ejecutar los modelos más avanzados del mundo a una velocidad sin precedentes y, al mismo tiempo, garantizar la observabilidad, la gobernanza y la flexibilidad.
Cerebras: redefiniendo la inferencia de la IA a escala
Cerebras se ha hecho conocido por superar los límites del hardware y la inferencia de inteligencia artificial. Con su tecnología a escala de oblea y Inferencia cerebral servicio, las empresas obtienen:
- Velocidad vertiginosa: Inferencia a miles de tokens por segundo, lo que permite agentes en tiempo real, copilotos de código y experiencias de IA interactivas.
- Amplitud de modelos: Soporte para los principales LLM de la actualidad, incluidos Llama 3.1/3.3, Mistral, Qwen e incluso modelos de razonamiento como el GPT-OSS-120B.
- Escalabilidad: Una hoja de ruta para gestionar 40 millones de tokens por segundo antes de finales de 2025 a través de clústeres CS-3 distribuidos en todo el mundo.
- Eficiencia: Menor costo por consulta en comparación con la infraestructura vinculada a la GPU, lo que hace que la implementación a gran escala sea económicamente factible.
Para las empresas, esto significa la capacidad de cumplir finalmente productos de IA de baja latencia—desde agentes conversacionales hasta resúmenes en tiempo real— sin que el hardware los obstruya.
TrueFoundry AI Gateway: gobernanza, flexibilidad y confiabilidad
Mientras Cerebras resuelve el rendimiento problema, TrueFoundry resuelve el operacional uno. Es Puerta de enlace de IA actúa como el plano de control para el uso de la IA empresarial:
- Acceso unificado: Una única API compatible con OpenAI para conectarse con miles de modelos, ya sea alojados por Cerebras, otro proveedor o de forma local.
- Gobernanza y seguridad: Autenticación centralizada, RBAC, registros de auditoría y control de acceso detallado.
- Observabilidad: Análisis detallados sobre la latencia, el uso de los tokens, los errores y el gasto, que permiten una optimización basada en datos.
- Fiabilidad: Enrutamiento inteligente, políticas de respaldo y equilibrio de carga para garantizar el tiempo de actividad y el rendimiento incluso si un proveedor se degrada.
- Flexibilidad de implementación: SaaS, VPC o local, incluidos entornos aislados para industrias altamente reguladas.
En resumen, TrueFoundry garantiza que las empresas puedan escalar el uso de la IA de forma segura, visible y predecible.

Qué desbloquea la asociación
La unión de Cerebras y TrueFoundry crea un solución integral para el despliegue de IA empresarial:
- Alto rendimiento y alto control
Las empresas ya no necesitan elegir entre una inferencia rápida y una gobernanza estricta. Tienen ambas opciones: Cerebras por su velocidad y TrueFoundry por su control. - Adopción perfecta por parte de desarrolladores
Con las API de estilo OpenAI de TrueFoundry, los desarrolladores pueden integrar la inferencia de Cerebras con cambios mínimos en el código e incluso cambiar de proveedor si es necesario. - Flexibilidad preparada para el futuro
TrueFoundry reduce la dependencia de un solo proveedor. Las empresas pueden redirigir las cargas de trabajo entre Cerebras, modelos de código abierto u otros proveedores, en función del costo, la latencia o las necesidades de cumplimiento. - Implementaciones listas para el cumplimiento
Las industrias reguladas pueden adoptar el rendimiento de vanguardia de Cerebras en configuraciones de VPC o locales, sin sacrificar la soberanía de los datos. - Tiempo de generación de valor acelerado
Con la infraestructura y la gobernanza resueltas, los equipos pueden centrarse en creación de productos impulsados por IA—chatbots para clientes, motores de personalización, asistentes de salud— en lugar de construir tuberías.
Por qué es importante
Esta asociación marca un cambio en la forma en que las empresas abordan la IA. Ya no basta con realizar pruebas comparativas en laboratorios o pruebas piloto en equipos aislados. Las empresas necesitan:
- Velocidad para admitir aplicaciones de IA interactivas y en tiempo real.
- Seguridad para cumplir con las restricciones de cumplimiento y costos.
- Flexibilidad para adaptarse a medida que evolucionan los modelos, los proveedores y las necesidades empresariales.
Cerebras × TrueFoundry cumple con los tres.
La asociación entre Cerebras y TrueFoundry representa más que una simple integración: es un modelo para la siguiente fase de la adopción de la IA empresarial. Combinando Rendimiento de inferencia sin precedentes de Cerebras con La puerta de enlace de IA de TrueFoundry para la gobernanza y el control, las empresas pueden por fin ejecutar cargas de trabajo de IA que no solo son potentes, sino que también están listas para la producción.
Para las empresas que desean sacar la IA de los prototipos y llevarla a los flujos de trabajo de misión crítica, esta colaboración desbloquea la pieza que faltaba: una plataforma rápida, gobernada y preparada para el futuro.true
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA















.png)


.webp)




.webp)







