Pour l'une des plus grandes entreprises de santé des États-Unis, l'engagement numérique est essentiel. Gérant plus de 500 millions d'appels par an dans les secteurs de la pharmacie, de la vente au détail et de l'assurance, l'organisation a dû faire face à un énorme obstacle technique. Ils avaient besoin de moderniser leurs systèmes vocaux, en passant de simples menus à des agents intelligents capables de gérer les intentions complexes des patients. Bien qu'ils aient construit avec succès un système IVR agentique, la complexité opérationnelle liée à sa mise à l'échelle a révélé un écart entre l'innovation et l'infrastructure. En s'associant à TrueFoundry pour créer une plateforme d'IA interne unifiée, l'entreprise a automatisé son infrastructure, arbitré avec succès les charges de travail entre le cloud et sur site, et accéléré sa feuille de route en matière d'IA de plusieurs mois à plusieurs semaines.
Cette entreprise de santé du Fortune 50 opère à l'intersection de la pharmacie de détail, de l'assurance maladie et des services médicaux. Leur vision numérique est centrée sur l'accessibilité. Veiller à ce que chaque interaction avec les patients soit traitée avec précision et empathie, que ce soit dans l'un de leurs 9 000 magasins ou via un canal numérique.
Le parcours de l'organisation a débuté par un défi d'ingénierie distinct : la modernisation de son système de réponse vocale interactive (IVR). Ils devaient passer des menus rigides « appuyez sur 1 pour la pharmacie » à un système entièrement agentique capable de comprendre le langage naturel.
Pour gérer la tension entre latence, coût et précision à cette échelle, l'équipe d'ingénieurs a conçu une architecture de routage sophistiquée en 3 étapes.
[Placeholder : schéma d'architecture IVR] Représentation visuelle du flux de travail : Voice Stream > STT > Guardrails > Routage en 3 étapes (règles/classificateur/agent) > AI Gateway > Exécution LLM.
L'exploitation de ce système pour des millions d'utilisateurs a nécessité une optimisation approfondie allant au-delà de l'inférence de modèles standard :
Réduction de la latence
L'équipe a mis en œuvre l'instanciation globale des graphes d'agents. Au lieu de recréer le contexte de l'agent pour chaque appel, le service conserve des graphiques d'agents actifs qui peuvent être réutilisés d'une session à l'autre. En outre, les invites sont mises en cache pendant 30 minutes afin de minimiser la latence lors de la récupération depuis le service de gestion.
Flux de décision en 3 étapes
Afin de préserver les coûts de calcul GPU nécessaires à des raisonnements complexes, le système utilise une approche hiérarchisée :
La sécurité d'abord
Les garde-corps ne sont pas une question secondaire. Elles sont appliquées via des instructions au niveau de la passerelle, garantissant que chaque agent dispose d'un mécanisme de repli en cas de toxicité ou de sujets hors du champ d'application avant l'exécution de toute logique.
Bien que l'architecture IVR soit solide, la charge opérationnelle liée à son fonctionnement était immense. L'équipe a été confrontée à une réalité du « jour 2 » : gérer la fiabilité active-passive sur des clusters géographiquement isolés, configurer les ressources GPU et gérer la disparité entre le développement dans le cloud et la production sur site.
Réalisant que la gestion manuelle de l'infrastructure bloquerait leur feuille de route, ils ont utilisé TrueFoundry pour créer une plateforme d'IA interne unifiée, destinée non seulement à répondre aux besoins de l'IVR, mais également à tous les futurs cas d'utilisation.
1. De la « priorité au cloud » à la « meilleure infrastructure »
Le principal point de friction était la divergence entre les environnements. Les développeurs ont préféré l'agilité du cloud, mais les impératifs économiques exigeaient une forte inférence pour fonctionner sur site. TrueFoundry a fourni la couche d'abstraction qui a permis de combler cette lacune.
2. La passerelle IA : le plan de contrôle central
Le système traitant plus de 9 millions de demandes LLM par mois, l'équipe avait besoin d'un contrôleur de trafic robuste. La passerelle IA de TrueFoundry est devenue le système nerveux central de leur pile d'inférence.
3. Efficacité économique grâce au pilote automatique
Pour gérer l'ampleur du calcul requis, la plateforme exploite les capacités de pilote automatique de TrueFoundry. Au lieu de provisionner statiquement des GPU pour les pics d'appels, Autopilot adapte automatiquement les ressources en fonction de la demande de trafic en temps réel et orchestre l'utilisation d'instances ponctuelles pour les charges de travail non critiques. Cette gestion dynamique des ressources a transformé un centre de coûts potentiel en un actif optimisé.
La transition d'un projet IVR autonome à une stratégie de plateforme complète a permis de pérenniser la feuille de route de l'organisation en matière d'IA.
En codifiant les leçons tirées de son déploiement massif d'IVR dans une plateforme unifiée basée sur TrueFoundry, cette entreprise du secteur de la santé du Fortune 50 a résolu le problème le plus complexe de l'IA d'entreprise. Opérations du jour 2. Ils ont démocratisé l'accès à une infrastructure de pointe pour leurs développeurs tout en maintenant le contrôle rigoureux requis dans le secteur de la santé. Le résultat est un système qui est non seulement suffisamment puissant pour comprendre les voix d'un demi-milliard de patients, mais aussi suffisamment efficace pour le faire de manière durable.

Plus de 10 entreprises du Fortune 500 nous font confiance