500 millions d'appels IVR : étude de cas sur une plateforme d'IA pour le secteur de la santé

Résumé

Pour l'une des plus grandes entreprises de santé des États-Unis, l'engagement numérique est essentiel. Gérant plus de 500 millions d'appels par an dans les secteurs de la pharmacie, de la vente au détail et de l'assurance, l'organisation a dû faire face à un énorme obstacle technique. Ils avaient besoin de moderniser leurs systèmes vocaux, en passant de simples menus à des agents intelligents capables de gérer les intentions complexes des patients. Bien qu'ils aient construit avec succès un système IVR agentique, la complexité opérationnelle liée à sa mise à l'échelle a révélé un écart entre l'innovation et l'infrastructure. En s'associant à TrueFoundry pour créer une plateforme d'IA interne unifiée, l'entreprise a automatisé son infrastructure, arbitré avec succès les charges de travail entre le cloud et sur site, et accéléré sa feuille de route en matière d'IA de plusieurs mois à plusieurs semaines.

Le client : un pilier des soins de santé modernes

Cette entreprise de santé du Fortune 50 opère à l'intersection de la pharmacie de détail, de l'assurance maladie et des services médicaux. Leur vision numérique est centrée sur l'accessibilité. Veiller à ce que chaque interaction avec les patients soit traitée avec précision et empathie, que ce soit dans l'un de leurs 9 000 magasins ou via un canal numérique.

Le catalyseur : conception de l'IVR « 500 millions d'appels »

Le parcours de l'organisation a débuté par un défi d'ingénierie distinct : la modernisation de son système de réponse vocale interactive (IVR). Ils devaient passer des menus rigides « appuyez sur 1 pour la pharmacie » à un système entièrement agentique capable de comprendre le langage naturel.

Pour gérer la tension entre latence, coût et précision à cette échelle, l'équipe d'ingénieurs a conçu une architecture de routage sophistiquée en 3 étapes.

Nuance technique : optimisation à grande échelle

L'exploitation de ce système pour des millions d'utilisateurs a nécessité une optimisation approfondie allant au-delà de l'inférence de modèles standard :

Diagram illustrating AI agent routing and intent classification with voice stream processing and toxicity identification.

Réduction de la latence

L'équipe a mis en œuvre l'instanciation globale des graphes d'agents. Au lieu de recréer le contexte de l'agent pour chaque appel, le service conserve des graphiques d'agents actifs qui peuvent être réutilisés d'une session à l'autre. En outre, les invites sont mises en cache pendant 30 minutes afin de minimiser la latence lors de la récupération depuis le service de gestion.

Flux de décision en 3 étapes

Afin de préserver les coûts de calcul GPU nécessaires à des raisonnements complexes, le système utilise une approche hiérarchisée :

Triage basé sur des règles Gère les requêtes statiques (comme les heures d'ouverture des magasins) instantanément grâce à la correspondance des modèles
Classificateurs de portée Les modèles légers déterminent l'intention du domaine (par exemple, « S'agit-il d'une pharmacie ou d'une assurance ? ») pour éviter les erreurs de routage.
Agent principal invoqué uniquement pour les requêtes complexes et spécifiques. Cela réduit les appels LLM inutiles de 10 à 20 %.

La sécurité d'abord

Les garde-corps ne sont pas une question secondaire. Elles sont appliquées via des instructions au niveau de la passerelle, garantissant que chaque agent dispose d'un mécanisme de repli en cas de toxicité ou de sujets hors du champ d'application avant l'exécution de toute logique.

Flowchart illustrating rule-based system and agent classification process for escalation and response handling.

Le pivot stratégique : la mise en place d'une plateforme pour réussir

Bien que l'architecture IVR soit solide, la charge opérationnelle liée à son fonctionnement était immense. L'équipe a été confrontée à une réalité du « jour 2 » : gérer la fiabilité active-passive sur des clusters géographiquement isolés, configurer les ressources GPU et gérer la disparité entre le développement dans le cloud et la production sur site.

Réalisant que la gestion manuelle de l'infrastructure bloquerait leur feuille de route, ils ont utilisé TrueFoundry pour créer une plateforme d'IA interne unifiée, destinée non seulement à répondre aux besoins de l'IVR, mais également à tous les futurs cas d'utilisation.

1. De la « priorité au cloud » à la « meilleure infrastructure »

Le principal point de friction était la divergence entre les environnements. Les développeurs ont préféré l'agilité du cloud, mais les impératifs économiques exigeaient une forte inférence pour fonctionner sur site. TrueFoundry a fourni la couche d'abstraction qui a permis de combler cette lacune.

Arbitrage des infrastructures : La plateforme permet à l'équipe d'utiliser les cartes NVIDIA NIM sur site pour des bases de référence stables, tout en passant au cloud pour les pics de charge.
Déploiement unifié : Les développeurs déploient des modèles pour des clusters sur site sécurisés et isolés avec la même facilité qu'un déploiement dans le cloud.
Zéro opération : En centralisant la gestion de Kubernetes au sein de la plateforme, les équipes de science des données ne gèrent plus les configurations YAML, ce qui leur permet de se concentrer uniquement sur la logique des modèles.

2. La passerelle IA : le plan de contrôle central

Le système traitant plus de 9 millions de demandes LLM par mois, l'équipe avait besoin d'un contrôleur de trafic robuste. La passerelle IA de TrueFoundry est devenue le système nerveux central de leur pile d'inférence.

Fiabilité active-passive : la plateforme gère le trafic sur des clusters géographiquement isolés (régions Est/Ouest). Si une région connaît une latence, la passerelle redirige le trafic de manière fluide pour garantir un service ininterrompu aux patients.
Indépendance du modèle : la plateforme dissocie la logique de l'application des fournisseurs de modèles spécifiques. Cela évite la dépendance vis-à-vis des fournisseurs et permet à l'équipe de changer de modèle instantanément à mesure que les benchmarks s'améliorent.

3. Efficacité économique grâce au pilote automatique

Pour gérer l'ampleur du calcul requis, la plateforme exploite les capacités de pilote automatique de TrueFoundry. Au lieu de provisionner statiquement des GPU pour les pics d'appels, Autopilot adapte automatiquement les ressources en fonction de la demande de trafic en temps réel et orchestre l'utilisation d'instances ponctuelles pour les charges de travail non critiques. Cette gestion dynamique des ressources a transformé un centre de coûts potentiel en un actif optimisé.

Impact : rapidité, économie et gouvernance

La transition d'un projet IVR autonome à une stratégie de plateforme complète a permis de pérenniser la feuille de route de l'organisation en matière d'IA.

Vitesse de production : La standardisation a réduit le temps de déploiement des nouveaux agents de plusieurs mois à plusieurs semaines. Les équipes peuvent désormais réutiliser des « graphiques d'agents globaux » et des configurations de garde-corps dans différents secteurs d'activité, tels que l'automatisation des télécopies et le chat.
Efficacité économique : En tirant parti de la plateforme pour déplacer les charges de travail des terminaux cloud gérés vers des GPU sur site auto-hébergés, l'entreprise a réalisé des économies considérables. La capacité à ajuster la taille de l'infrastructure a contribué à une réduction de plusieurs millions de dollars des dépenses prévues dans le cloud, augmentant ainsi l'efficacité des dépenses d'investissement des GPU de plus de 12 %.
Gouvernance totale : Le leadership est passé d'une visibilité fragmentée à une « vitre unique ». Ils peuvent désormais suivre chaque transaction, auditer les coûts par service et s'assurer que chaque interaction est conforme aux normes de conformité strictes en matière de santé.

Conclusion

En codifiant les leçons tirées de son déploiement massif d'IVR dans une plateforme unifiée basée sur TrueFoundry, cette entreprise du secteur de la santé du Fortune 50 a résolu le problème le plus complexe de l'IA d'entreprise. Opérations du jour 2. Ils ont démocratisé l'accès à une infrastructure de pointe pour leurs développeurs tout en maintenant le contrôle rigoureux requis dans le secteur de la santé. Le résultat est un système qui est non seulement suffisamment puissant pour comprendre les voix d'un demi-milliard de patients, mais aussi suffisamment efficace pour le faire de manière durable.

Purple gradient background with thin wavy lines on gray, forming a dynamic abstract design pattern.

GenAI infra- simple, plus rapide et moins cher

Plus de 10 entreprises du Fortune 500 nous font confiance

Essayez-le dès maintenant

Parlez à des experts

Agent à gérer 500 millions d'appels IVR, Une plateforme d'IA

Résumé

Le client : un pilier des soins de santé modernes

Le catalyseur : conception de l'IVR « 500 millions d'appels »

Nuance technique : optimisation à grande échelle

Le pivot stratégique : la mise en place d'une plateforme pour réussir

Impact : rapidité, économie et gouvernance

Conclusion

GenAI infra- simple, plus rapide et moins cher

Resources

Why TrueFoundry?

Agent à gérer 500 millions d'appels IVR, Une plateforme d'IA

Résumé

Le client : un pilier des soins de santé modernes

Le catalyseur : conception de l'IVR « 500 millions d'appels »

Nuance technique : optimisation à grande échelle

Le pivot stratégique : la mise en place d'une plateforme pour réussir

Impact : rapidité, économie et gouvernance

Conclusion

GenAI infra- simple, plus rapide et moins cher

Resources

Why TrueFoundry?

Abonnez-vous à notre newsletter