Escalado automático de clústeres para Big 3 Clouds ☁️

Published: April 22, 2026

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

No estaría mal decir que todas las empresas necesitan gestionar más tráfico, procesar más datos y dar soporte a más clientes a medida que crecen. Con frecuencia, necesitan escalar su infraestructura para mantenerse al día con las crecientes demandas. Esto también es cierto si su empresa es estacional. Imagina un sitio web de comercio electrónico que recibe mucho tráfico durante las fiestas, como el Black Friday o el Cyber Monday. El tráfico del sitio web puede crecer drásticamente durante estos tiempos de mayor actividad. El sitio web puede haber retrasado los problemas de carga de la página e irritar a los usuarios si no puede gestionar el aumento de la demanda. Como resultado, la empresa puede experimentar una pérdida de ventas y un deterioro de su reputación.

Una forma de abordar este problema es aumentar manualmente la cantidad de servidores en la infraestructura para gestionar el aumento del tráfico. Sin embargo, la ampliación y reducción manual puede llevar mucho tiempo, ser propensa a errores y ser difícil de administrar. Aquí es donde entra en juego el escalado automático de clústeres. El escalado automático del clúster ajusta automáticamente la cantidad de servidores de la infraestructura en función de determinadas condiciones, como el uso de la CPU, el uso de la memoria o las solicitudes entrantes. Esto significa que la infraestructura puede ampliarse o reducirse en función de la demanda actual sin intervención manual.

En esta entrada del blog se analizará qué es el escalado automático de clústeres, por qué es necesario y cómo se puede implementar en diferentes proveedores de nube.

L; SECAR

Para que nuestro clúster funcione correctamente en todos los principales proveedores de nube, tenemos que adaptar la forma en que escalamos los nodos del clúster.

💡

En AWS, utilizamos Karpenter, que, con una configuración mínima, puede elegir el nodo más económico y eficiente para las solicitudes de pods entrantes.

💡

En GCP, confiamos en el piloto automático de GKE, que nos proporciona un clúster administrado que puede ampliarse y reducirse según las solicitudes.

💡

No hay soluciones ad hoc en Azure y utilizamos el escalador automático de clústeres de Kubernetes, que está menos optimizado que Karpenter y requiere más configuración que el piloto automático.

Autoscaler para AWS: Karpenter

Karpenter observa las solicitudes de recursos agregadas de los pods no programados y toma decisiones para lanzar y terminar los nodos para minimizar las latencias de programación y los costos de infraestructura.

Karpenter administra cada instancia directamente y no depende de mecanismos de orquestación adicionales, como los grupos de nodos.
Karpenter se centra en la carga de trabajo y lanza instancias adecuadas para la situación actual en función de las solicitudes de recursos de los pods entrantes y las restricciones de programación. Este enfoque de selección de instancias basado en la intención permite un escalado más eficiente y rentable.

Pero, lamentablemente, Karpenter solo funciona en AWS.

Escalador automático para GCP: GKE Autopilot

El piloto automático es un servicio gestionado que utiliza algoritmos de aprendizaje automático para determinar la cantidad óptima de nodos para el clúster en función de la carga de trabajo actual. También proporciona funciones como actualizaciones y parches automáticos, lo que facilita mantener el clúster actualizado y seguro.

Además del escalado automático, el piloto automático de clústeres también ofrece otros beneficios, como una mejor utilización de los recursos y ahorros de costos al evitar el aprovisionamiento excesivo de recursos. También proporciona un enfoque más participativo para la administración de clústeres, ya que el servicio se encarga de todas las operaciones de escalado automático.

Escalador automático para Microsoft Azure: escalador automático de clústeres de Kubernetes

No hay ninguna oferta gestionada en GKE Autopilot, similar a la nube de Azure, ni un enfoque personalizado para el escalado automático como Karpenter; por lo tanto, confiamos en el escalador automático de clústeres.

Kubernetes Cluster Autoscaler es una herramienta de código abierto que permite el escalado automático de los clústeres de Kubernetes. Se ejecuta como un pod dentro del clúster y monitorea la utilización de los recursos del clúster, ajustando la cantidad de nodos necesarios para satisfacer las necesidades de las aplicaciones que se ejecutan en él. Esto ayuda a optimizar la utilización de los recursos y reducir los costos al evitar el aprovisionamiento excesivo de recursos cuando la demanda es baja. El escalador automático de clústeres requiere la configuración manual de los grupos y tipos de nodos.

Esto el blog cubre detalles sobre el escalado automático de Kubernetes.

True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra. A través de nuestra plataforma, permitimos a los equipos de aprendizaje automático implementar y supervisar modela en 15 minutos con un 100% de confiabilidad, escalabilidad y la capacidad de revertirse en segundos, lo que les permite ahorrar costos y lanzar los modelos a la producción más rápido, lo que permite obtener un verdadero valor empresarial.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora