500 millones de llamadas IVR: estudio de caso de una plataforma de inteligencia artificial para el cuidado de la salud

Resumen ejecutivo

Para una de las empresas sanitarias más grandes de EE. UU., la participación digital es fundamental. Al gestionar más de 500 millones de llamadas al año en farmacias, tiendas minoristas y líneas de seguros, la organización se enfrentó a un enorme obstáculo de ingeniería. Necesitaban modernizar sus sistemas de voz, pasando de menús sencillos a agentes inteligentes capaces de gestionar las complejas intenciones de los pacientes. Si bien crearon con éxito un sistema IVR para agencias, la complejidad operativa que implicaba ampliarlo puso de manifiesto la existencia de una brecha entre la innovación y la infraestructura. Al asociarse con TrueFoundry para crear una plataforma de IA interna unificada, la empresa automatizó su infraestructura, arbitró con éxito las cargas de trabajo entre la nube y las instalaciones y aceleró su hoja de ruta de IA de meses a semanas.

El cliente: un pilar de la atención médica moderna

Esta empresa de atención médica de la lista Fortune 50 opera en la intersección de la farmacia minorista, los seguros de salud y los servicios médicos. Su visión digital se centra en la accesibilidad. Garantizar que cada interacción con los pacientes se gestione con precisión y empatía, ya sea en una de sus 9.000 tiendas o a través de un canal digital.

El catalizador: diseñar el IVR de «500 millones de llamadas»

El viaje de la organización comenzó con un desafío de ingeniería distinto: modernizar su sistema de respuesta de voz interactiva (IVR). Tenían que dejar atrás los rígidos menús de «pulsar 1 para ir a la farmacia» y adoptar un sistema totalmente institucional capaz de entender el lenguaje natural.

Para gestionar la tensión entre la latencia, el costo y la precisión a esta escala, el equipo de ingeniería diseñó una sofisticada arquitectura de enrutamiento de 3 etapas.

Matiz técnico: optimización a escala

La ejecución de este sistema para millones de usuarios requirió una optimización profunda más allá de la inferencia del modelo estándar:

Diagram illustrating AI agent routing and intent classification with voice stream processing and toxicity identification.

Reducción de latencia

El equipo implementó la instanciación global de los gráficos de los agentes. En lugar de volver a crear el contexto del agente para cada llamada, el servicio mantiene los gráficos de los agentes activos que se pueden reutilizar en todas las sesiones. Además, las solicitudes se almacenan en caché durante 30 minutos para minimizar la latencia cuando se obtienen del servicio de administración.

Flujo de decisión en 3 etapas

Para preservar la costosa computación de la GPU para un razonamiento complejo, el sistema utiliza un enfoque por niveles:

La clasificación basada en reglas gestiona las consultas estáticas (como el horario de la tienda) de forma instantánea mediante la coincidencia de patrones
Los modelos ligeros de Scope Classifiers determinan la intención del dominio (por ejemplo, «¿Es una farmacia o un seguro?») para evitar errores de enrutamiento.
El agente principal se invoca solo para consultas complejas y comprendidas. Esto reduce las llamadas de LLM innecesarias entre un 10 y un 20%.

La seguridad es lo primero

Las barandillas no son solo una idea de último momento. Se aplican mediante instrucciones a nivel de puerta de enlace, lo que garantiza que todos los agentes dispongan de un mecanismo alternativo para tratar temas relacionados con la toxicidad o fuera del alcance antes de ejecutar cualquier lógica.

Flowchart illustrating rule-based system and agent classification process for escalation and response handling.

El eje estratégico: la creación de plataformas para el éxito

Si bien la arquitectura del IVR era sólida, la carga operativa que implicaba ejecutarla era inmensa. El equipo se enfrentó a la realidad del «segundo día»: gestionar la confiabilidad activa-pasiva en clústeres aislados geográficamente, configurar los recursos de la GPU y gestionar la disparidad entre el desarrollo en la nube y la producción local.

Al darse cuenta de que la administración manual de la infraestructura paralizaría su hoja de ruta, utilizaron TrueFoundry para crear una plataforma de IA interna unificada que sirviera no solo para IVR, sino también para todos los casos de uso futuros.

1. De «dar prioridad a la nube» a «la mejor infraestructura»

El punto de fricción principal era la divergencia entre los entornos. Los desarrolladores preferían la agilidad de la nube, pero los requisitos económicos requerían una gran cantidad de inferencias para ejecutarse en las instalaciones. TrueFoundry proporcionó la capa de abstracción que colmó esta brecha.

Arbitraje de infraestructura: La plataforma permite al equipo utilizar las NIM de NVIDIA en las instalaciones para obtener bases de referencia estables y, al mismo tiempo, pasar a la nube en caso de picos de carga.
Despliegue unificado: Los desarrolladores implementan modelos en clústeres locales seguros e independientes con la misma facilidad con la que los implementan en la nube.
Zero Ops: Al centralizar la administración de Kubernetes en la plataforma, los equipos de ciencia de datos ya no administran las configuraciones de YAML, lo que les permite centrarse exclusivamente en la lógica del modelo.

2. La puerta de enlace de la IA: el plano de control central

Dado que el sistema procesaba más de 9 millones de solicitudes de LLM al mes, el equipo necesitaba un controlador de tráfico sólido. El portal de inteligencia artificial de TrueFoundry se convirtió en el sistema nervioso central de su pila de inferencias.

Fiabilidad activa-pasiva: la plataforma administra el tráfico en clústeres aislados geográficamente (regiones este/oeste). Si una región experimenta latencia, el Gateway redirige sin problemas el tráfico para garantizar un servicio ininterrumpido a los pacientes.
Independencia del modelo: la plataforma desacopla la lógica de la aplicación de proveedores de modelos específicos. Esto evita la dependencia de un solo proveedor y permite al equipo intercambiar modelos al instante a medida que mejoran los puntos de referencia.

3. Eficiencia económica mediante piloto automático

Para gestionar la enorme escala de procesamiento requerida, la plataforma aprovecha las capacidades de piloto automático de TrueFoundry. En lugar de aprovisionar las GPU de forma estática para los picos de llamadas, Autopilot escala automáticamente los recursos en función de la demanda de tráfico en tiempo real y organiza el uso de instancias puntuales para cargas de trabajo no críticas. Esta gestión dinámica de los recursos convirtió un posible centro de costes en un activo optimizado.

Impacto: velocidad, economía y gobernanza

La transición de un proyecto de IVR independiente a una estrategia de plataforma integral ha preparado la hoja de ruta de IA de la organización para el futuro.

Velocidad de producción: La estandarización ha reducido el tiempo de despliegue de los nuevos agentes de meses a semanas. Los equipos ahora pueden reutilizar los «gráficos de agentes globales» y las configuraciones de protección en diferentes líneas de negocio, como la automatización del fax y el chat.
Eficiencia económica: Al aprovechar la plataforma para mover las cargas de trabajo de los terminales gestionados en la nube a las GPU locales autohospedadas, la organización logró una reducción masiva de costos. La capacidad de dimensionar correctamente la infraestructura contribuyó a una reducción multimillonaria del gasto previsto en la nube, lo que aumentó la eficiencia de los gastos de capital de la GPU en más de un 12%.
Gobernanza total: El liderazgo ha pasado de una visibilidad fragmentada a un «panel de cristal único». Ahora pueden rastrear cada transacción, auditar los costos por departamento y garantizar que cada interacción cumpla con los estrictos estándares de cumplimiento de la atención médica.

Conclusión

Al codificar las lecciones de su despliegue masivo de IVR en una plataforma unificada basada en TrueFoundry, esta empresa del sector sanitario que figura en la lista Fortune 50 ha resuelto el problema más complejo de la IA empresarial. Operaciones del día 2. Han democratizado el acceso a una infraestructura de última generación para sus desarrolladores y, al mismo tiempo, han mantenido el riguroso control requerido en la atención médica. El resultado es un sistema que no solo es lo suficientemente potente como para entender las voces de 500 millones de pacientes, sino que también es lo suficientemente eficiente como para hacerlo de manera sostenible.

Purple gradient background with thin wavy lines on gray, forming a dynamic abstract design pattern.

GenAI infra: simple, más rápido y más barato

Con la confianza de más de 10 empresas de la lista Fortune 500

Pruébalo ahora

Hable con expertos

Agente a gestionar 500 millones de llamadas IVR, Una plataforma de IA

Resumen ejecutivo

El cliente: un pilar de la atención médica moderna

El catalizador: diseñar el IVR de «500 millones de llamadas»

Matiz técnico: optimización a escala

El eje estratégico: la creación de plataformas para el éxito

Impacto: velocidad, economía y gobernanza

Conclusión

GenAI infra: simple, más rápido y más barato

Blog

Agente a gestionar 500 millones de llamadas IVR, Una plataforma de IA

Resumen ejecutivo

El cliente: un pilar de la atención médica moderna

El catalizador: diseñar el IVR de «500 millones de llamadas»

Matiz técnico: optimización a escala

El eje estratégico: la creación de plataformas para el éxito

Impacto: velocidad, economía y gobernanza

Conclusión

GenAI infra: simple, más rápido y más barato

Blog

Suscríbase a nuestro boletín