Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

Equilibrio de carga en AI Gateway: optimización del rendimiento

Por Abhishek Choudhary

Actualizado: June 2, 2025

Resumir con

El equilibrio de carga entre varios modelos lingüísticos de gran tamaño en una puerta de enlace de IA significa enrutar las solicitudes de inferencia entrantes a través de un conjunto de puntos finales del modelo (ya sean de diferentes proveedores o de diferentes versiones del mismo modelo) para que ningún modelo se convierta en un cuello de botella o un punto único de falla. La pasarela monitoriza de forma continua el estado de cada terminal mediante el seguimiento de métricas como las solicitudes por minuto, los tokens por minuto y las tasas de error. Cuando un modelo supera los límites de uso configurados, arroja errores o experimenta un retraso en el tiempo de respuesta, se marca como no saludable y se excluye del enrutamiento. Puedes elegir un enrutamiento basado en la ponderación para asignar proporciones de tráfico fijas a cada modelo o un enrutamiento basado en la latencia para preferir de forma dinámica el modelo más rápido según los datos de rendimiento recientes. Todos los comportamientos se definen de forma declarativa en una configuración de YAML que especifica los límites de uso globales, las tolerancias de fallos y las reglas de enrutamiento. Este enfoque garantiza una alta disponibilidad, un rendimiento uniforme y una conmutación por error perfecta sin ningún cambio en el código de la aplicación.

Este blog explica qué implica el equilibrio de carga y por qué es esencial, muestra cómo Puerta de enlace de IA TrueFoundry lo implementa de manera automática, explica los pasos de configuración de YAML, revisa los patrones de configuración comunes y concluye con las mejores prácticas para las implementaciones de producción.

¿Por qué necesitamos un equilibrio de carga en la puerta de enlace de IA?

Las empresas confían en el acceso ininterrumpido a los modelos lingüísticos para los flujos de trabajo críticos. Sin embargo, los proveedores individuales pueden sufrir interrupciones del servicio o períodos de mantenimiento planificados que dejan las aplicaciones fuera de línea. Esta es la razón Equilibrio de carga LLM es una capacidad básica de la mejor puerta de enlace de IA utilizada en los sistemas de producción.

Al configurar el equilibrio de carga en varios modelos de terminales, TrueFoundry garantiza que, cuando el servicio de un proveedor deje de estar disponible, el tráfico se desplace automáticamente a alternativas saludables. Esta conmutación por error perfecta evita el tiempo de inactividad de los usuarios finales y mantiene una disponibilidad constante de las aplicaciones.

Las fluctuaciones de latencia representan otro desafío. Los tiempos de respuesta varían según la arquitectura del modelo, la región geográfica y la capacidad del proveedor. Una configuración de enrutamiento estático corre el riesgo de enviar tráfico a un punto final más lento, lo que degrada la experiencia del usuario. El enrutamiento basado en la latencia de TrueFoundry mide continuamente los tiempos de respuesta por token en las solicitudes recientes y dirige de forma dinámica cada llamada de inferencia al modelo más rápido disponible. Esto garantiza una latencia baja y constante, incluso cuando cambian las condiciones de la red o la carga del proveedor.

API límites de tarifas imponer límites estrictos a las solicitudes o al rendimiento de los tokens por minuto. Si se agota la cuota de un solo proveedor, las llamadas subsiguientes fallan y provocan errores en la aplicación. Con el enrutamiento basado en el peso de TrueFoundry, puede distribuir el tráfico de acuerdo con proporciones definidas para que ningún punto final supere sus límites. En combinación con los límites de uso globales de la sección model_configs, la puerta de enlace mantiene automáticamente a cada modelo dentro de su cuota y redirige las llamadas cuando se alcanzan los umbrales, lo que evita errores inesperados.

Las pruebas canarias de nuevas versiones de modelos en producción conllevan riesgos inherentes. Una actualización defectuosa podría introducir errores o degradar el rendimiento. TrueFoundry facilita las implementaciones en Canary al permitir asignar un pequeño porcentaje de peso a un modelo nuevo mediante una regla basada en el peso. El tráfico se redirige de forma incremental, quizás un diez por ciento hacia el modelo canario y un noventa por ciento hacia el modelo estable, por lo que puede supervisar las tasas de error y las métricas de latencia antes de transferir la carga completa. Si surge algún problema, la puerta de enlace simplemente mantiene la combinación de tráfico original, lo que protege la experiencia del usuario.

En conjunto, estas capacidades, la conmutación por error automática, la optimización dinámica de la latencia, la administración de límites de velocidad y los despliegues canarios controlados hacen que el equilibrio de carga sea una práctica esencial para las implementaciones de LLM sólidas y de alto rendimiento en TrueFoundry AI Gateway.

Key Metrics for Evaluating Gateway

Criteria What should you evaluate ? Priority TrueFoundry
Latency Adds <10ms p95 overhead for time-to-first-token? Must Have Supported
Data Residency Keeps logs within your region (EU/US)? Depends on use case Supported
Latency-Based Routing Automatically reroutes based on real-time latency/failures? Must Have Supported
Key Rotation & Revocation Rotate or revoke keys without downtime? Must Have Supported
Key Rotation & Revocation Rotate or revoke keys without downtime? Must Have Supported
Key Rotation & Revocation Rotate or revoke keys without downtime? Must Have Supported
Key Rotation & Revocation Rotate or revoke keys without downtime? Must Have Supported
Key Rotation & Revocation Rotate or revoke keys without downtime? Must Have Supported
Evaluating an AI Gateway?
A practical guide used by platform & infra teams

Cómo funciona el equilibrio de carga en TrueFoundry AI Gateway

AI Gateway de TrueFoundry organiza la distribución del tráfico al monitorear continuamente tres métricas principales para cada punto final del modelo configurado: solicitudes por minuto, tokens procesados por minuto y fallas por minuto. Estas métricas se incorporan al motor de evaluación del estado y determinan qué modelos están «en buen estado» en un momento dado.

  1. Evaluación de salud
    • Límites de uso: Si un modelo supera los límites configurados de procesamiento de solicitudes o tokens (definidos en model_configs), se marca como en mal estado.
    • Tolerancia a fallos: Los modelos que acumulan más errores de los permitidos, basados en allowed_failures_per_minute y delimitados por códigos de estado HTTP específicos, también se dejan de lado durante su período de recuperación.
  2. Evaluación de reglas
    La puerta de enlace evalúa las reglas de enrutamiento en el orden en que aparecen en la configuración de YAML. Cuando se bloquea cada regla, filtra las solicitudes entrantes por nombre de modelo, usuario o tema del equipo, o por metadatos personalizados. Solo se aplica la primera regla coincidente, lo que garantiza un comportamiento de enrutamiento determinista.
  3. Enrutamiento basado en el peso
    Según una regla basada en la ponderación, se especifica una lista de modelos objetivo junto con los pesos enteros que suman 100. Por ejemplo, puede dirigir el 90 por ciento del tráfico a azure/gpt-4o y el 10 por ciento a openai/gpt-4o. La puerta de enlace distribuye de forma aleatoria cada solicitud en proporción a estas ponderaciones entre los objetivos actualmente en buen estado. También puedes incluir override_params para modificar ajustes como la temperatura o los valores máximos según el modelo.
  4. Enrutamiento basado en la latencia
    Cuando se utilizan reglas basadas en la latencia, no se necesitan ponderaciones manuales. La pasarela calcula la latencia media por token de cada modelo en comparación con el tráfico reciente, teniendo en cuenta los últimos veinte minutos de solicitudes o las cien llamadas más recientes, lo que sea menor. Los modelos con menos de tres puntos de datos se consideran «rápidos» para recopilar más estadísticas. Todos los terminales cuya latencia sea 1,2 veces superior a la del modelo más rápido se consideran igualmente aptos, lo que evita el cambio rápido debido a pequeñas fluctuaciones en el rendimiento. A continuación, las solicitudes entrantes se dirigen al modelo que funcione más rápido.

Todas las decisiones de enrutamiento se toman en tiempo real dentro de la puerta de enlace. Los modelos que no funcionan correctamente se excluyen automáticamente y el tráfico fluye sin problemas hacia los mejores puntos finales disponibles, sin necesidad de cambiar el código de la aplicación.

TrueFoundry Load Balancing: The Best AI Gateway Solution

Tired of single-model bottlenecks and unpredictable downtime? TrueFoundry’s load balancing lets you distribute traffic across multiple LLMs, ensuring low latency, high availability, and seamless scaling.

Experience rock-solid performance with these capabilities:

  • Intelligent request distribution: Evenly route queries across multiple models to optimize throughput and prevent overload.
  • Health-aware routing: Automatically detects unhealthy endpoints and reroutes traffic to available models, avoiding downtime.
  • Weighted and latency-based strategies: Assign weights or route to the lowest-latency models for cost-effective performance.
  • Declarative YAML configuration: Manage all load-balancing rules in a simple gateway-load-balancing-config file—no code changes needed.
  • Near-zero overhead and auto-scaling: Add only ~3 ms latency at 250 RPS, and scale to tens of thousands of requests per second with more CPU or replicas.

¿Cómo configurar el equilibrio de carga en True Foundry?

AI Gateway de TrueFoundry admite dos métodos principales para aplicar configuraciones de equilibrio de carga a través de YAML: directamente a través de la interfaz de usuario de Gateway o mediante programación con GitOps y la CLI tfy.

Para actualizar el equilibrio de carga en la interfaz de usuario de Gateway, navega hasta el AI Gateway de tu proyecto y selecciona la pestaña Configuración en «Equilibrio de carga». El editor YAML muestra tu manifiesto actual de gateway-load-balancing-config, que incluye campos de nivel superior como el nombre y el tipo, model_configs opcionales para los límites de velocidad y la matriz de reglas principales para las estrategias de enrutamiento.

Solo tienes que editar el YAML en línea, modificar los identificadores del modelo, ajustar los límites de uso o la tolerancia de fallos y redefinir load_balance_targets con estrategias de ponderación o latencia, y hacer clic en Guardar para validarlo e implementarlo inmediatamente sin tiempo de inactividad. En primer plano, TrueFoundry valida la sintaxis, aplica las nuevas reglas en orden y dirige el tráfico de forma instantánea de acuerdo con la política actualizada.

Como alternativa, para los equipos que practican GitOps, almacena tu manifiesto de equilibrio de carga (por ejemplo, loadbalancer-config.yaml) en un repositorio con control de versiones junto con tu código de infraestructura. Después de confirmar e introducir los cambios, ejecuta la CLI de TrueFoundry:

  • pip instala truefoundry y prueba login --host https://app.truefoundry.com para autenticarse
  • intente aplicar -f loadbalancer-config.yaml para introducir el YAML en la puerta de enlace

Este flujo de trabajo exige revisiones de solicitudes de extracción, validaciones de CI/CD y una auditabilidad total antes de que cualquier cambio de política llegue a la fase de producción. Tanto si prefieres la edición directa de la interfaz de usuario para iteraciones rápidas como si prefieres usar GitOps para una gobernanza sólida, el enfoque declarativo de YAML de TrueFoundry garantiza que tus políticas de equilibrio de carga sean transparentes, estén versionadas y se apliquen de forma coherente sin tocar el código de la aplicación.

Comprensión de la configuración de equilibrio de carga de True Foundry

La configuración de equilibrio de carga de TrueFoundry se define completamente en un manifiesto declarativo de YAML que consta de dos secciones principales: model_configs y rules. En el nivel superior, se especifica el nombre (un identificador legible por humanos que se utiliza para el registro) y el tipo, que debe ser gateway-load-balancing-config para que la plataforma reconozca este archivo como una especificación de equilibrio de carga.

El bloque model_configs opcional le permite aplicar restricciones globales en cada punto final del modelo. Para cada entrada, incluyes:

  • modelo: el identificador de la puerta de enlace (por ejemplo, azure/gpt4)
  • límites_de uso: limita tokens_per_minute y requests_per_minute para evitar que cualquier modelo supere el rendimiento asignado
  • tolerancia al fracaso: parámetros que determinan cuándo se considera que un modelo no está en buen estado, incluidos allowed_failures_per_minute, cooldown_period_minutes y una lista de códigos de estado HTTP que se consideran errores

Cuando un modelo supera cualquier umbral de uso o error, la puerta de enlace lo marca como no saludable durante el período de enfriamiento especificado y lo excluye del enrutamiento hasta que se recupere.

El núcleo de la configuración es la matriz de reglas. Cada regla debe declarar:

  • identificación: un nombre único utilizado para las métricas y los registros
  • tipo: enrutamiento basado en el peso o enrutamiento basado en la latencia
  • cuando: condiciones que aplican la regla a solicitudes específicas por modelos y, opcionalmente, por temas o metadatos

Las reglas se evalúan en el orden en que aparecen y solo entra en vigor la primera regla coincidente. Esto garantiza un enrutamiento de tráfico predecible y determinista.

En load_balance_targets, enumere uno o más modelos de destino. Para el enrutamiento basado en el peso, cada objetivo necesita un peso entero entre 0 y 100, y todos los pesos suman 100. Para el enrutamiento basado en la latencia, no se necesitan ponderaciones; la puerta de enlace mide la latencia reciente por token y dirige cada solicitud al modelo que funcione más rápido. Ambas estrategias admiten la opción override_params por objetivo, lo que permite personalizar los parámetros de tiempo de ejecución, como la temperatura o los max_tokens.

Al centralizar las políticas de distribución del tráfico en un único archivo YAML, TrueFoundry permite el control de versiones, las revisiones de solicitudes de extracción y la iteración rápida de las estrategias de equilibrio de carga sin ningún cambio en el código de la aplicación.

Configuraciones de equilibrio de carga de uso común

Las empresas suelen adoptar distintos patrones de equilibrio de carga para cumplir diferentes objetivos operativos. A continuación se muestran cuatro configuraciones ampliamente utilizadas en el TrueFoundry AI Gateway, cada una adaptada a un caso de uso específico.

1. Despliegue en Canarias

Los despliegues graduales permiten a los equipos introducir nuevas versiones de modelos de forma segura. Usted asigna un pequeño porcentaje del tráfico al modelo canario y el resto a la versión estable. Al monitorear las tasas de error y la latencia en el sistema canario, se garantiza que cualquier regresión se detecte antes de la transición total.

nombre: loadbalancing-config
tipo: gateway-load-balancing-config
reglas:
- identificador: «gpt4-canary»
tipo: «enrutamiento basado en el peso»
cuando:
modelos:
- «gpt-4»
objetivos de equilibrio de carga:
- objetivo: «azure/gpt4-v1"
peso: 90
- objetivo: «azure/gpt4-v2"
peso: 10

2. Enrutamiento basado en el peso que tenga en cuenta la salud

Los usuarios premium o los flujos de trabajo de alta prioridad pueden orientarse hacia los modelos con mejor rendimiento. Al definir las tolerancias de error en model_configs, cualquier modelo que supere los umbrales de error se elimina automáticamente hasta que se recupere. Luego, las proporciones de tráfico continúan entre los puntos finales en buen estado restantes.

nombre: loadbalancing-config
tipo: gateway-load-balancing-config
configuraciones de modelo:
- modelo: «azure/gpt4"
tolerancia al fracaso:
errores permitidos por minuto: 3
minutos de período de enfriamiento: 5
códigos de estado de error: [429, 500, 502, 503, 504]
- modelo: «openai/gpt4"
tolerancia al fracaso:
errores permitidos por minuto: 5
minutos de período de enfriamiento: 10
códigos de estado de error: [429, 500, 502, 503, 504]
reglas:
- id: «usuarios premium»
tipo: «enrutamiento basado en el peso»
cuando:
asignaturas:
- «cuenta virtual: premium»
modelos:
- «gpt-4»
objetivos de equilibrio de carga:
- objetivo: «azure/gpt4"
peso: 80
override_params:
temperatura: 0.7
- objetivo: «openai/gpt4"
peso: 20

3. Enrutamiento basado en la latencia con reconocimiento de tokens

Para equilibrar el costo y el rendimiento, puedes limitar el uso de los tokens en un modelo y, al mismo tiempo, permitir que un punto final alternativo gestione el desbordamiento. De este modo, el enrutamiento basado en la latencia garantiza que cada solicitud vaya al modelo más rápido de entre los que aún estén dentro de la cuota.

nombre: loadbalancing-config
tipo: gateway-load-balancing-config
configuraciones de modelo:
- modelo: «azure/gpt4"
límites_de uso:
tokens_por minuto: 50000
solicitudes_por_minuto: 100
reglas:
- id: «rentable»
tipo: «enrutamiento basado en la latencia»
cuando:
modelos:
- «gpt-4»
objetivos de equilibrio de carga:
- objetivo: «azure/gpt4"
override_params:
número máximo de tokens: 500
- objetivo: «openai/gpt4"
override_params:
número máximo de tokens: 1000

4. Enrutamiento basado en el entorno

Los diferentes entornos, como el desarrollo, la puesta en escena o la producción, a menudo requieren políticas de enrutamiento distintas. Los metadatos del entorno le permiten aplicar reglas basadas en la ponderación o en la latencia en función del contexto de la solicitud.

nombre: loadbalancing-config
tipo: gateway-load-balancing-config
reglas:
- id: «entorno de desarrollo»
tipo: «enrutamiento basado en el peso»
cuando:
modelos:
- «gpt-4»
metadatos:
medio ambiente: «desarrollo»
objetivos de equilibrio de carga:
- objetivo: «openai/gpt4"
peso: 100
override_params:
temperatura: 0.8
- identificador: «entorno de producción»
tipo: «enrutamiento basado en la latencia»
cuando:
modelos:
- «gpt-4»
metadatos:
medio ambiente: «producción»
objetivos de equilibrio de carga:
- objetivo: «azure/gpt4"
- objetivo: «openai/gpt4"

Cada una de estas configuraciones ilustra cómo el YAML declarativo de TrueFoundry permite a los equipos implementar rápidamente una lógica de enrutamiento sofisticada, ya sea para despliegues graduales, una división del tráfico teniendo en cuenta el estado del estado, una optimización del rendimiento sensible a los costos o políticas impulsadas por el entorno, todo ello sin tocar el código de la aplicación.

Conclusión

Transformaciones de equilibrio de carga Puerta de enlace de IA desde simples enrutadores hasta administradores de tráfico inteligentes, lo que garantiza una alta disponibilidad, un rendimiento uniforme y una conmutación por error perfecta en varios puntos finales de LLM. Al definir los límites de uso globales y las tolerancias ante fallos, se evita que los modelos sobrecargados o propensos a errores interrumpan el servicio. El enrutamiento basado en el peso le permite controlar las proporciones del tráfico con precisión, lo que resulta ideal para los flujos de trabajo de alta gama o lanzamientos canarios, mientras que el enrutamiento basado en la latencia dirige de forma dinámica las solicitudes a los modelos más rápidos y en buen estado. La configuración declarativa de YAML hace que estas políticas sean transparentes, controlen las versiones y sean fáciles de revisar. Con las funciones de equilibrio de carga de TrueFoundry, los equipos pueden implementar los LLM con confianza, sabiendo que la distribución del tráfico se adapta automáticamente a las condiciones en tiempo real sin ningún cambio en el código de la aplicación.

Preguntas frecuentes

¿Qué es el equilibrio de carga en una puerta de enlace de IA?

El equilibrio de carga en los sistemas de puerta de enlace de IA implica distribuir las solicitudes de inferencia entre varios modelos de puntos finales para evitar cuellos de botella. Garantiza que ningún proveedor o instancia modelo se vea abrumado, lo que mantiene la disponibilidad del sistema. Al monitorear las métricas de estado, como el recuento de solicitudes y las tasas de error, la pasarela garantiza una experiencia de usuario fluida y confiable.

¿Cómo equilibra la carga una puerta de enlace de IA entre varios proveedores de LLM?

La puerta de enlace utiliza algoritmos especializados para enrutar el tráfico en función del rendimiento del proveedor en tiempo real. Técnicas como el enrutamiento basado en la ponderación permiten dividir el tráfico de forma fija, mientras que las estrategias basadas en la latencia seleccionan de forma dinámica el punto final más rápido y en buen estado. Si un proveedor alcanza un límite de velocidad o falla, la puerta de enlace redirige automáticamente el tráfico a una alternativa funcional.

¿En qué se diferencia el equilibrio de carga en las pasarelas de IA en comparación con las pasarelas de API?

Si bien las pasarelas de API se centran en las métricas a nivel de red, como la carga de la CPU, el equilibrio de carga en las arquitecturas de puertas de enlace de IA tiene en cuenta la semántica. Realiza un seguimiento de los datos específicos de la IA, como los tokens por minuto y los códigos de error específicos del modelo. Esto permite una gestión del tráfico más precisa que respeta los límites de rendimiento y los comportamientos de procesamiento únicos de los diferentes LLM.

¿Es necesario el equilibrio de carga para las implementaciones de IA multimodelo?

Sí, es vital para mantener una alta disponibilidad y escalar las aplicaciones de IA de producción de manera efectiva. Sin él, su sistema sigue siendo vulnerable a las interrupciones o retrasos en el rendimiento de los proveedores individuales. La distribución de las solicitudes en varios modelos proporciona la redundancia necesaria para gestionar el tráfico a gran escala y, al mismo tiempo, garantiza tiempos de respuesta uniformes para todos los usuarios finales.

¿Cómo ayuda TrueFoundry a equilibrar la carga en las pasarelas de IA?

TrueFoundry simplifica el equilibrio de carga en la administración de pasarelas de IA mediante una configuración declarativa basada en YAML. Proporciona comprobaciones de estado automatizadas, enrutamiento basado en la latencia y conmutaciones por error sin interrupciones para garantizar la confiabilidad de misión crítica. Al alojar esta infraestructura en su propia VPC, la plataforma le permite optimizar el rendimiento y los costos sin sacrificar la seguridad de los datos.

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro

Descubra más

May 8, 2024
|
5 minutos de lectura

Explorando las alternativas de Vertex AI para 2026

March 25, 2025
|
5 minutos de lectura

Las 6 mejores alternativas de AWS SageMaker en 2026

April 17, 2025
|
5 minutos de lectura

Las 5 mejores alternativas de Azure ML de 2025

April 22, 2026
|
5 minutos de lectura

Mercados de agentes de IA: el futuro de la automatización de nivel empresarial

No se ha encontrado ningún artículo.
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 minutos de lectura

¿Qué es AI Gateway? Conceptos básicos y guía

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Aprovechar la puerta de enlace de IA de TrueFoundry para el cumplimiento de FIPS

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Integración de GraySwan con TrueFoundry

No se ha encontrado ningún artículo.
No se ha encontrado ningún artículo.

Blogs recientes

Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto