Comment Innovaccer a centralisé GenAI et accéléré le déploiement de l'apprentissage profond avec Truefoundry

Résumé

Innovaccer est un cloud d'intelligence médicale opérant dans des environnements hautement réglementés concernant les informations de santé protégées (PHI). Innovaccer utilise l'IA pour améliorer l'efficacité clinique, la gestion des soins et la prise de décisions opérationnelles sur sa plateforme de soins de santé. L'IA alimente des cas d'utilisation tels que le résumé clinique, l'identification des lacunes en matière de soins, la stratification des risques, la prise en charge de la qualité et du codage, ainsi que des informations en langage naturel sur les données de santé, tout en opérant dans des environnements réglementés à forte intensité de PHI.

Dans le cadre de cette transition vers l'adoption de GenAI dans les applications cliniques et opérationnelles, Innovaccer avait besoin d'un moyen centralisé pour régir, observer et faire évoluer l'utilisation, sans fragmenter l'accès ni compromettre la conformité. Cela a fait apparaître des défis liés à l'observabilité, à l'auditabilité, au contrôle d'accès aux modèles et à la gouvernance des coûts dans plusieurs LLM et modèles d'intégration en toute sécurité des informations personnelles.

En s'associant à TrueFoundry, Innovaccer a standardisé l'ensemble du trafic GenAI via la passerelle IA de TrueFoundry, établissant ainsi un plan de contrôle unifié pour une gouvernance à grande échelle au niveau du secteur de la santé. Aujourd'hui, Innovaccer achemine environ 17 millions de demandes d'inférence par mois, traitant environ 34 milliards de jetons d'entrée et 3,4 milliards de jetons de sortie sur plus de 40 modèles, dont OpenAI, AWS Bedrock, Gemini et des déploiements auto-hébergés, alimentant plus de 25 applications de santé. Avec la journalisation centralisée, la rédaction des informations personnelles, le contrôle des coûts et l'application des politiques intégrés par défaut, Innovaccer a profondément intégré GenAI dans les flux de production tout en maintenant une observabilité, une conformité et une gouvernance de niveau entreprise sur tous les principaux hyperscalers LLM.

Un engagement ciblé a comparé TrueFoundry à d'autres modèles de plateformes d'hébergement et a montré que le temps de mise à l'échelle automatique avait été réduit d'environ 8 minutes à environ 5 minutes (soit une baisse de 37,5 %), en plus d'une configuration plus rapide de l'infrastructure, d'une meilleure observabilité et de meilleures caractéristiques de coûts.

À propos d'Innovaccer

Innovaccer active le flux de données de santé, permettant aux prestataires, aux payeurs et aux organisations gouvernementales de proposer des expériences intelligentes et connectées qui améliorent les résultats en matière de santé. Le Healthcare Intelligence Cloud permet à toutes les parties prenantes du parcours du patient de transformer des données fragmentées en actions proactives et coordonnées qui améliorent la qualité des soins et stimulent les performances opérationnelles. Des organisations de santé de premier plan comme Orlando Health, Adventist Healthcare et Banner Health font confiance à Innovaccer pour intégrer un système d'intelligence à leur infrastructure existante, élargissant ainsi le contact humain dans le secteur de la santé. Innovaccer gère les données de millions de patients avec des milliards de points de données interconnectés.

Contexte

« Stimuler l'innovation en matière d'IA et de machine learning d'Innovaccer » n'est pas simplement un slogan, il reflète la manière dont Innovaccer étend l'IA aux organisations de santé, avec TrueFoundry comme partenaire d'infrastructure habilitant. Innovaccer automatise le travail de connaissances dans les domaines de la RCM, de l'accès des patients, des copilotes avec les prestataires, du codage clinique et de la cartographie des données. Pour y parvenir à grande échelle, Innovaccer suit une stratégie multimodèle couvrant Azure, AWS Bedrock, OpenAI et des modèles auto-hébergés, TrueFoundry fournissant l'épine dorsale de gouvernance, d'orchestration et de déploiement qui la sous-tend.

Pour soutenir cette croissance, Innovaccer avait besoin de :

UNE point d'entrée IA unique pour l'expérimentation et la production.
Observabilité serrée sur l'utilisation, les performances et les coûts des jetons.
Modèle d'hébergement en libre-service avec une mise à l'échelle automatique puissante et aucun goulot d'étranglement DevOps.
Un chemin vers régir les charges de travail sensibles au PHI/PII et les futurs cas d'utilisation des agences.

Le défi

Avant la centralisation sur TrueFoundry, l'infrastructure d'IA générative d'Innovaccer utilisait directement,
connexions point à point entre les applications de production et divers fournisseurs tels qu'OpenAI, Azure,
et Bedrock.

Bien que fonctionnelle, cette approche fragmentée ne disposait pas de la passerelle unifiée nécessaire à la traçabilité de haut niveau et à la supervision fiscale essentielles dans un environnement de santé. La consolidation de ces flux de travail était une décision stratégique visant à garantir la fiabilité requise pour les entreprises
opérations cliniques.

L'évolution de la GenAI destinée aux soins de santé

En centralisant son infrastructure GenAI via TrueFoundry, Innovaccer est passée d'un modèle fragmenté à un dorsale IA unifiée conçu pour répondre à la complexité des soins de santé.

Fiabilité et flux de travail centrés sur le patient : En mettant en œuvre des mécanismes de repli centralisés et un contrôle du trafic, nous veillons à ce que les flux de travail administratifs critiques, dont dépendent les prestataires et les patients, restent résilients et performants même en cas de panne des prestataires.
Traçabilité et conformité clinique : Une couche centralisée fournit les pistes d'audit rigoureuses et la traçabilité essentielles à la gouvernance des données de santé. Innovaccer peut désormais surveiller la façon dont les modèles interagissent avec les données sensibles, en veillant à ce que chaque résultat soit responsable.
Gestion de l'échelle et des coûts : La gestion des coûts de service est vitale pour l'efficacité des soins de santé. Ce cadre centralisé permet à Innovaccer de mesurer et d'optimiser les coûts sur l'ensemble de la plateforme, en veillant à ce que la mise à l'échelle de l'IA n'entraîne pas de frais administratifs imprévisibles.
Vitesse du développeur grâce à la configuration : À l'aide de la couche d'orchestration de TrueFoundry, Innovaccer a découplé la logique des applications du modèle sous-jacent et a accéléré la création de valeur. Les équipes de développement peuvent désormais tester différents modèles de base et passer de l'un à l'autre uniquement par le biais de la configuration, sans aucune modification de code. Cette architecture « enfichable » nous permet d'adopter les derniers LLM cliniques dès qu'ils sont disponibles.

Pour les équipes soignantes, les médecins et les patients qui comptent sur ces applications pour obtenir des informations et une aide à la décision en temps opportun, cela présentait des risques potentiels liés à la cohérence de l'expérience, à la disponibilité des services aux moments cliniques de pointe et à la confiance dans la manière dont les données de santé sensibles étaient traitées.

En outre, TrueFoundry a comparé son expérience de déploiement et de mise à l'échelle automatique avec d'autres modèles de plateformes d'hébergement proposées par des fournisseurs de cloud populaires. Ils ont dû configurer manuellement le nombre d'appels, se sont appuyés sur un suivi basé sur des journaux via CloudWatch pour comprendre le calendrier de mise à l'échelle automatique et ont ajouté une majoration d'environ 25 % à la tarification des instances. La visibilité des événements au niveau du pod et du comportement de mise à l'échelle automatique était limitée, ce qui rendait le réglage plus lent et moins transparent. 

Solution : TrueFoundry comme plateforme centrale d'orchestration de l'IA

TrueFoundry a été adopté comme couche DevX et d'orchestration pour les deux Trafic LLM (AI Gateway) et Plateforme de déploiement d'IA.

1. AI Gateway : un plan de contrôle unique pour les LLM

En moyenne, en un mois, l'AI Gateway dessert :

~17 millions de demandes d'inférence.
~34 milliards de jetons d'entrée et 3,4 milliards de jetons de sortie.
Plus de 25 applications de santé intégrées.
~40 modèles différents, couvrant OpenAI, AWS Bedrock, Azure, Gemini et Llama auto-hébergé.

Le Gateway fournit :

Routage centralisé quels que soient les fournisseurs et les modèles.
Métriques unifiées tels que le délai jusqu'au premier jeton et la latence entre les jetons.
Suivi des jetons et des coûts ventilé par équipes, utilisateurs, environnements et modèles.
Des métriques compatibles avec OpenTelemetry qui sont directement intégrées à la solution existante d'Innovaccer Pile Grafana pour les tableaux de bord et les alertes.

Cette passerelle IA centralisée a transformé l'utilisation du LLM par Innovaccer, passant d'intégrations fragmentées par application à une plan de contrôle unique et observable.

2. Fiabilité : protection des flux de travail cliniques et de prestation de soins grâce à des solutions de secours centralisées

Innovaccer utilise GenAI pour la gestion des soins, l'intelligence clinique et les flux de travail opérationnels qui soutiennent les médecins, les responsables de soins et les équipes de santé de la population. Ces applications présentent des résumés des patients, des informations sur les risques, les lacunes en matière de soins et les meilleures mesures à prendre au moment de la prise de décision

Le 10 juin, lorsqu'OpenAI a connu des taux d'erreur élevés, AI Gateway d'Innovaccer a automatiquement redirigé le trafic vers Azure en fonction de règles de repli préconfigurées. Cela a permis aux équipes soignantes de continuer à recevoir des informations en temps opportun et sans interruption, même si les prestataires du modèle sous-jacent étaient instables.

En configurant le basculement de manière centralisée sur l'AI Gateway plutôt que dans les applications individuelles, Innovaccer a garanti une fiabilité constante sur l'ensemble de sa plateforme de soins de santé. Cette approche a réduit la variabilité de l'expérience des cliniciens et des équipes soignantes, tout en permettant aux équipes produit de se concentrer sur l'amélioration des flux de soins au lieu de gérer des scénarios de défaillance spécifiques aux prestataires.

3. Accès rapide à des fonctionnalités avancées d'IA

TrueFoundry a également accéléré l'accès aux nouvelles API OpenAI via la passerelle :

API de réponses : activation de flux de travail liés à l'utilisation d'outils tels que la recherche sur Internet.
Intégration au Codex : débloquer les capacités de génération de code.
Lot OpenAI : prise en charge des flux de travail d'inférence asynchrones à volume élevé.

Au lieu que chaque équipe Innovaccer mette en œuvre ces fonctionnalités séparément, elles sont exposées de manière centralisée via l'AI Gateway, ce qui permet une gouvernance et un suivi cohérents.

4. Flux de travail de renseignement clinique plus rapides grâce à un routage tenant compte de la latence

Le GenAI d'Innovaccer est utilisé dans les flux de travail de gestion des soins et d'intelligence clinique où le temps de réponse influe directement sur la facilité d'utilisation pour les médecins et les équipes soignantes. Pour y parvenir, TrueFoundry a mis en œuvre un routage tenant compte de la latence sur AI Gateway, dirigeant dynamiquement le trafic en direct vers le point de terminaison du modèle le plus rapide disponible sans nécessiter de modifications d'application.
En outre, la gestion centralisée des demandes a permis aux équipes d'Innovaccer de modifier et de déployer en toute sécurité des mises à jour rapides dans toutes les applications, garantissant ainsi un comportement cohérent et fiable de l'IA dans les flux de travail cliniques et opérationnels.

5. Souveraineté des données et déploiements réglementés (GovCloud)

Pour les cas d'utilisation des soins de santé sensibles à la conformité, Innovaccer avait besoin d'une infrastructure GenAI capable de fonctionner entièrement dans des environnements régulés et souverains. TrueFoundry a été déployé dans AWS GovCloud (États-Unis), permettant à Innovaccer d'exécuter des charges de travail GenAI dans des régions conçues pour répondre à des exigences strictes en matière de résidence des données, de contrôle d'accès et d'audit.

Cela permet à Innovaccer d'utiliser la même passerelle IA et la même couche d'orchestration pour les charges de travail conformes à la loi HIPAA et riches en PHI, tout en garantissant que les données de santé sensibles restent dans les limites souveraines et les cadres de conformité approuvés.

Impact sur la réponse de l'infrastructure et l'orchestration de la mise à l'échelle

1. Préparation du service accélérée et réduction de la latence

La mise en œuvre de TrueFoundry (TF) a introduit un cycle de vie plus déterministe pour le déploiement des modèles. Dans le cadre de l'analyse comparative des performances, le délai entre le déclenchement et l'exploitation a été réduit à un Fenêtre d'environ 5 minutes, représentant un 37,5 % d'optimisation par rapport aux niveaux de référence précédents en matière d'infrastructure.

Vitesse d'approvisionnement : L'intervalle entre la nomination du pod et l'initialisation du conteneur a été stabilisé à environ 2 minutes.
Télémétrie intégrée : Contrairement aux systèmes existants où les événements de dimensionnement doivent être déduits à partir de flux de journaux externes, TF fournit une visibilité native au niveau de la plate-forme sur l'état du déploiement. Cela élimine le « fossé d'observabilité » pendant les fenêtres de dimensionnement critiques.

2. Élasticité centrée sur la demande (mise à l'échelle basée sur RPS)

La mise à l'échelle standard basée sur les ressources (CPU/RAM) est souvent à la traîne par rapport à la nature intense du trafic GenAI. Innovaccer a adopté Requête par secondemise à l'échelle basée sur TrueFoundry comme principale métrique de mise à l'échelle pour mieux gérer le trafic GenAI en rafale

Gestion dynamique de la charge : En s'adaptant au RPS, l'infrastructure s'adapte de manière préventive aux pics de trafic avant que la saturation des calculs ne se produise, garantissant ainsi des temps de réponse d'API cohérents pour les copilotes orientés vers les fournisseurs.
Logique de mise à l'échelle hybride : Le système de mise à l'échelle de TrueFoundry intègre des déclencheurs basés sur RPS avec heuristique basée sur le temps. Cela permet de prévoir des périodes de « préchauffage » pendant les heures de pointe des cliniques, garantissant ainsi une haute disponibilité sans le gaspillage fiscal dû à un surapprovisionnement 24 heures sur 24, 7 jours sur 7.

3. Plan de gouvernance et de contrôle unifiés

En consolidant le trafic GenAI sur la passerelle centralisée de TrueFoundry, Innovaccer a établi « l'équilibre » technique requis pour les opérations de santé des entreprises :

Traçabilité programmatique : Les mesures de comportement et de performance en matière d'évolutivité sont accessibles via une API et une interface utilisateur unifiées, permettant un audit automatique de l'état du système.
Supervision fiscale : La gestion centralisée permet un suivi granulaire des coûts entre différents fournisseurs de modèles, garantissant ainsi que les flux de travail administratifs et cliniques restent dans les limites budgétaires sans intervention manuelle.

4. Valeur de plateforme observée

Le partenariat a mis en évidence plusieurs avantages de la plateforme basée sur Kubernetes de TrueFoundry :

Configuration rapide de l'infrastructure : La configuration du plan de contrôle et de calcul Azure a été achevée en une journée.
Expérience des développeurs : Le data scientist chargé de la mission a rapidement pris connaissance de la plateforme et a exécuté des flux de travail de manière indépendante, tels que le déploiement et la mise à l'échelle automatique. Des fonctionnalités telles que la gestion des versions des systèmes de fichiers, la mise en cache des modèles, les visualisations d'exécution pendant les builds et la mise à l'échelle automatique basée sur RPS ont été qualifiées de remarquables.
Meilleure observabilité : TrueFoundry expose directement les journaux, les métriques et les événements Kubernetes, offrant ainsi une meilleure capacité de débogage par rapport à l'expérience gérée plus opaque des plateformes d'hébergement sur d'autres modèles.
GPU fractionnaires et instances ponctuelles : La plateforme prend en charge l'allocation fractionnée de GPU et les instances ponctuelles dans les flux de travail, ajoutant ainsi de nouveaux leviers pour l'optimisation des coûts.
Modèle de coût : Alors que SageMaker ajoute une majoration d'environ 25 % à la tarification des instances, TrueFoundry utilise Kubernetes en plus des instances brutes, ce qui lui permet de répercuter les économies d'infrastructure sur les utilisateurs. Le document note que les clients ont réalisé des économies d'au moins 30 % par rapport à SageMaker, caractérisant l'avantage financier potentiel de la plateforme.

Résultats obtenus jusqu'à présent

Grâce aux initiatives combinées AI Gateway et DLoPS, Innovaccer a obtenu :

GenAI à l'échelle de la production sur l'ensemble de la plateforme de soins de santé : ~17 millions de demandes d'inférence mensuelles et plus de 37 milliards de jetons (~34 milliards d'entrées, 3,4 milliards de sorties) acheminés via une passerelle IA unique couvrant plus de 40 modèles et plus de 25 applications de santé. Cette échelle reflète l'intégration de GenAI dans les flux de travail de base tels que le résumé clinique, l'identification des lacunes en matière de soins, la stratification des risques, le support au codage et l'intelligence opérationnelle, et non des pilotes isolés. 
Observabilité et gouvernance des coûts dans le secteur de la santé : Tout le trafic LLM passe désormais par un plan de contrôle unifié avec des mesures d'utilisation des jetons, de latence (délai jusqu'au premier jeton, latence entre jetons) et de coûts intégrées directement dans la pile Grafana d'Innovaccer. Cela permet une supervision centralisée des équipes, des environnements et des fournisseurs de modèles dans des environnements réglementés à forte intensité de PHI. 
Résilience en cas d'instabilité des prestataires : Lorsque les taux d'erreur OpenAI étaient élevés, le trafic était automatiquement redirigé vers Azure via des règles de repli préconfigurées, préservant ainsi la continuité des applications de santé pour personnes dépendantes sans nécessiter de modifications au niveau de la couche applicative. 
Mise à l'échelle automatique plus rapide et plus transparente pour les charges de travail de machine learning : Une analyse comparative par rapport à d'autres modèles de plateformes d'hébergement a révélé que le temps de déclenchement et de fonctionnement de la mise à l'échelle automatique avait été réduit d'environ 8 minutes à environ 5 minutes (37,5 % plus rapide), avec une meilleure visibilité au niveau de la plate-forme sur les événements de dimensionnement et les états de déploiement. 
Préparation au déploiement régulé : TrueFoundry déployée dans AWS GovCloud permet à Innovaccer d'exploiter des charges de travail GenAI dans des environnements souverains et sensibles à la conformité, tout en utilisant le même cadre de gouvernance et d'orchestration.

Comment

Innovaccer a centralisé GenAI et accéléré le déploiement du deep learning avec

Résumé

À propos d'Innovaccer

Contexte

Le défi

L'évolution de la GenAI destinée aux soins de santé

Solution : TrueFoundry comme plateforme centrale d'orchestration de l'IA

1. AI Gateway : un plan de contrôle unique pour les LLM

2. Fiabilité : protection des flux de travail cliniques et de prestation de soins grâce à des solutions de secours centralisées

3. Accès rapide à des fonctionnalités avancées d'IA

4. Flux de travail de renseignement clinique plus rapides grâce à un routage tenant compte de la latence

5. Souveraineté des données et déploiements réglementés (GovCloud)

Impact sur la réponse de l'infrastructure et l'orchestration de la mise à l'échelle

1. Préparation du service accélérée et réduction de la latence

2. Élasticité centrée sur la demande (mise à l'échelle basée sur RPS)

3. Plan de gouvernance et de contrôle unifiés

4. Valeur de plateforme observée

Résultats obtenus jusqu'à présent

Resources

Why TrueFoundry?

Comment

Innovaccer a centralisé GenAI et accéléré le déploiement du deep learning avec

Résumé

À propos d'Innovaccer

Contexte

Le défi

L'évolution de la GenAI destinée aux soins de santé

Solution : TrueFoundry comme plateforme centrale d'orchestration de l'IA

1. AI Gateway : un plan de contrôle unique pour les LLM

2. Fiabilité : protection des flux de travail cliniques et de prestation de soins grâce à des solutions de secours centralisées

3. Accès rapide à des fonctionnalités avancées d'IA

4. Flux de travail de renseignement clinique plus rapides grâce à un routage tenant compte de la latence

5. Souveraineté des données et déploiements réglementés (GovCloud)

Impact sur la réponse de l'infrastructure et l'orchestration de la mise à l'échelle

1. Préparation du service accélérée et réduction de la latence

2. Élasticité centrée sur la demande (mise à l'échelle basée sur RPS)

3. Plan de gouvernance et de contrôle unifiés

4. Valeur de plateforme observée

Résultats obtenus jusqu'à présent

Resources

Why TrueFoundry?

Abonnez-vous à notre newsletter