Para una de las empresas sanitarias más grandes de EE. UU., la participación digital es fundamental. Al gestionar más de 500 millones de llamadas al año en farmacias, tiendas minoristas y líneas de seguros, la organización se enfrentó a un enorme obstáculo de ingeniería. Necesitaban modernizar sus sistemas de voz, pasando de menús sencillos a agentes inteligentes capaces de gestionar las complejas intenciones de los pacientes. Si bien crearon con éxito un sistema IVR para agencias, la complejidad operativa que implicaba ampliarlo puso de manifiesto la existencia de una brecha entre la innovación y la infraestructura. Al asociarse con TrueFoundry para crear una plataforma de IA interna unificada, la empresa automatizó su infraestructura, arbitró con éxito las cargas de trabajo entre la nube y las instalaciones y aceleró su hoja de ruta de IA de meses a semanas.
Esta empresa de atención médica de la lista Fortune 50 opera en la intersección de la farmacia minorista, los seguros de salud y los servicios médicos. Su visión digital se centra en la accesibilidad. Garantizar que cada interacción con los pacientes se gestione con precisión y empatía, ya sea en una de sus 9.000 tiendas o a través de un canal digital.
El viaje de la organización comenzó con un desafío de ingeniería distinto: modernizar su sistema de respuesta de voz interactiva (IVR). Tenían que dejar atrás los rígidos menús de «pulsar 1 para ir a la farmacia» y adoptar un sistema totalmente institucional capaz de entender el lenguaje natural.
Para gestionar la tensión entre la latencia, el costo y la precisión a esta escala, el equipo de ingeniería diseñó una sofisticada arquitectura de enrutamiento de 3 etapas.
[Marcador de posición: diagrama de arquitectura IVR] Representación visual del flujo de trabajo: Voice Stream > STT > Guardarraíles > Enrutamiento en 3 etapas (reglas/clasificador/agente) > AI Gateway > Ejecución de LLM.
La ejecución de este sistema para millones de usuarios requirió una optimización profunda más allá de la inferencia del modelo estándar:
Reducción de latencia
El equipo implementó la instanciación global de los gráficos de los agentes. En lugar de volver a crear el contexto del agente para cada llamada, el servicio mantiene los gráficos de los agentes activos que se pueden reutilizar en todas las sesiones. Además, las solicitudes se almacenan en caché durante 30 minutos para minimizar la latencia cuando se obtienen del servicio de administración.
Flujo de decisión en 3 etapas
Para preservar la costosa computación de la GPU para un razonamiento complejo, el sistema utiliza un enfoque por niveles:
La seguridad es lo primero
Las barandillas no son solo una idea de último momento. Se aplican mediante instrucciones a nivel de puerta de enlace, lo que garantiza que todos los agentes dispongan de un mecanismo alternativo para tratar temas relacionados con la toxicidad o fuera del alcance antes de ejecutar cualquier lógica.
Si bien la arquitectura del IVR era sólida, la carga operativa que implicaba ejecutarla era inmensa. El equipo se enfrentó a la realidad del «segundo día»: gestionar la confiabilidad activa-pasiva en clústeres aislados geográficamente, configurar los recursos de la GPU y gestionar la disparidad entre el desarrollo en la nube y la producción local.
Al darse cuenta de que la administración manual de la infraestructura paralizaría su hoja de ruta, utilizaron TrueFoundry para crear una plataforma de IA interna unificada que sirviera no solo para IVR, sino también para todos los casos de uso futuros.
1. De «dar prioridad a la nube» a «la mejor infraestructura»
El punto de fricción principal era la divergencia entre los entornos. Los desarrolladores preferían la agilidad de la nube, pero los requisitos económicos requerían una gran cantidad de inferencias para ejecutarse en las instalaciones. TrueFoundry proporcionó la capa de abstracción que colmó esta brecha.
2. La puerta de enlace de la IA: el plano de control central
Dado que el sistema procesaba más de 9 millones de solicitudes de LLM al mes, el equipo necesitaba un controlador de tráfico sólido. El portal de inteligencia artificial de TrueFoundry se convirtió en el sistema nervioso central de su pila de inferencias.
3. Eficiencia económica mediante piloto automático
Para gestionar la enorme escala de procesamiento requerida, la plataforma aprovecha las capacidades de piloto automático de TrueFoundry. En lugar de aprovisionar las GPU de forma estática para los picos de llamadas, Autopilot escala automáticamente los recursos en función de la demanda de tráfico en tiempo real y organiza el uso de instancias puntuales para cargas de trabajo no críticas. Esta gestión dinámica de los recursos convirtió un posible centro de costes en un activo optimizado.
La transición de un proyecto de IVR independiente a una estrategia de plataforma integral ha preparado la hoja de ruta de IA de la organización para el futuro.
Al codificar las lecciones de su despliegue masivo de IVR en una plataforma unificada basada en TrueFoundry, esta empresa del sector sanitario que figura en la lista Fortune 50 ha resuelto el problema más complejo de la IA empresarial. Operaciones del día 2. Han democratizado el acceso a una infraestructura de última generación para sus desarrolladores y, al mismo tiempo, han mantenido el riguroso control requerido en la atención médica. El resultado es un sistema que no solo es lo suficientemente potente como para entender las voces de 500 millones de pacientes, sino que también es lo suficientemente eficiente como para hacerlo de manera sostenible.

Con la confianza de más de 10 empresas de la lista Fortune 500