Prochain webinaire : La sécurité d'entreprise pour Claude Code | 21 avril · 11 h PST. Inscrivez-vous ici →

Permettre à une entreprise de santé du Fortune 100 de proposer plus de 30 cas d'utilisation de LLM en moins d'un an

Le client de l'étude est une société de santé du Fortune 100 basée aux États-Unis. Elle investit massivement dans la recherche sur les soins de santé et tire parti des technologies de pointe. Compte tenu de sa taille (plus de 50 000 employés), l'entreprise exerce des fonctions allant de la fabrication, de la recherche et de la gestion de la chaîne d'approvisionnement à des cas d'utilisation internes tels que les ressources humaines, les opérations, l'expérience client, etc.

Étant donné la tendance de l'entreprise à adopter très tôt les nouvelles technologies, lorsque les LLM ont été publiés, l'équipe est allée à la table à dessin et a identifié un ensemble de plus de 30 cas d'utilisation avec un potentiel d'impact de plus de 500 millions de dollars par an. Avec cet objectif ambitieux en tête, l'équipe a commencé à étudier ces cas d'utilisation et à développer son infrastructure de base pour l'IA générative afin de :

  • Proposez rapidement des cas d'utilisation de LLM à fort impact : Pour augmenter le chiffre d'affaires et réduire les coûts dans des fonctions telles que la recherche, l'expérience client, la recherche de documents, etc.
  • Permettre aux équipes de réutiliser le travail des autres : En mettant progressivement à disposition à chaque nouveau projet tous les actifs (analyseurs de données, modèles, caractéristiques des données, etc.) développés par d'autres équipes. Cela permettrait de garantir que chaque nouveau cas d'utilisation en cours de création prenne moins de temps que le précédent.

En plus d'apporter une touche de pointe à ses cas d'utilisation, l'équipe souhaitait démocratiser l'IA pour favoriser son adoption. Il souhaitait permettre :

  • Déploiement en un clic des règles métier et des modèles existants : Ainsi, tout utilisateur peut directement commencer à utiliser les modèles/règles qui sont mis en œuvre une seule fois sans avoir besoin d'un Data Scientist.
  • Un panneau de vue unique pour gérer tous les modèles déployés : Les réglementations relatives à la circulation des données ont obligé l'entreprise à déployer des modèles séparément dans chaque région de présence. Cela a créé un véritable cauchemar en matière de gestion pour le déploiement et le suivi des performances de ces modèles. L'équipe souhaitait simplifier ce processus pour les équipes ML et DevOps.

Grâce à la collaboration entre l'équipe du client et TrueFoundry, nous avons pu :

  • Réduisez de 60 à 80 % le TTV des cas d'utilisation du LLM : Avec accès aux modèles de cas d'utilisation et possibilité de déployer chaque élément du cas d'utilisation (modèle/UI/DB/modèle d'intégration/analyseurs/séparateurs de données). En un seul clic, l'équipe pouvait expédier le cas d'utilisation en 1 semaine.
  • Démocratiser l'utilisation de l'IA : L'équipe a pu créer une place de marché détectable regroupant toutes les règles et modèles commerciaux internes que tout utilisateur n'utilisant pas le machine learning pouvait également déduire directement à partir de l'interface utilisateur et obtenir des résultats par e-mail.
  • Simplifiez la gestion des modèles : L'équipe pourrait s'assurer que le retour sur investissement de l'entreprise est obtenu à partir de ses modèles déployés en étant en mesure de les surveiller tous via un seul et même écran. Nous avons également pu simplifier considérablement le processus de publication et de mise à jour de ces modèles.

À propos du client

Le client est une société majeure du secteur de la santé du Fortune 100 avec une histoire de plus de 100 ans. Ils sont présents dans plus de 120 pays et ont un impact positif significatif sur la santé publique dans ces pays. Ils ont un ADN de recherche intense et restent déterminés à être à la pointe de la technologie. Sa division de recherche et développement emploie plus de 7 000 employés et dépense plus de 10 milliards de dollars.

Le client disposait déjà de plusieurs équipes internes qui développaient des cas d'utilisation pour différents secteurs d'activité. Avec la publication des grands modèles linguistiques, la plupart des secteurs verticaux ont repensé leurs processus. La fourniture de ces cas d'utilisation a été déléguée à l'équipe Data Science.

L'équipe Data Science était chargée de créer différents cas d'utilisation et également des outils pour rendre les équipes de science des données individuelles de la BU plus efficaces. Il s'agit d'une combinaison unique de charte verticale et horizontale dans ce groupe qui présente des défis et des opportunités intéressants.

Exploiter le potentiel commercial des LLM

Après avoir étudié plus de 30 cas d'utilisation du LLM par l'équipe, les dirigeants ont réalisé que sans développer de capacités d'IA génératives supplémentaires, il leur faudrait des années et des dizaines de millions de dollars avant de pouvoir exécuter tous ces cas d'utilisation.

Ces cas d'utilisation étaient répartis dans plusieurs domaines :

  1. Recherche : Aider les équipes de recherche en résumant les articles et les articles, en les aidant à se tenir au courant des derniers développements et à un niveau avancé, même en les aidant à concevoir de nouvelles idées d'expériences et à proposer des tests.
  2. Bien-être de la clientèle : Développer des applications qui ont contribué à améliorer l'expérience de leurs clients et celles destinées aux populations des pays dans lesquels ils opèrent, contribuant ainsi à améliorer la santé générale de ces pays. Cela comprenait des applications telles que le bot QnA pour dissiper les doutes des patients, générer du contenu éducatif sur les médicaments et l'administration des vaccins, etc.
  3. Ressources humaines et opérations internes : Aider à rationaliser et à automatiser des processus tels que l'appariement des CV, le profilage des candidats, l'acquisition de talents, etc., qui étaient généralement un processus manuel extrêmement chronophage.

Réduction du délai de rentabilisation de l'intelligence artificielle

La direction de l'entreprise a constaté qu'étant donné qu'il y avait plusieurs secteurs d'activité et plusieurs équipes de science des données opérant au sein de l'entreprise, une équipe était souvent aveugle quant au travail effectué par une autre équipe.

Le transfert de connaissances entre les équipes était limité. Lorsque cela s'est produit, l'équipe qui a essayé de tirer parti du travail d'une autre équipe a dû faire face à un énorme retard avant de pouvoir rendre l'actif (modèle/UI/logique métier, etc.) utile pour son équipe. Cela a été causé par :

  • Découvrabilité limitée du travail effectué par les équipes : Les équipes ont un transfert de connaissances limité entre elles et les actifs générés par chaque projet sont limités.
  • La simple documentation ne suffit pas : Souvent, la documentation devient redondante, incomplète et sa lecture et sa mise en œuvre prennent du temps. Cela crée des frictions lorsque les équipes souhaitent réutiliser le travail des autres.
  • Dépendance à l'égard de l'équipe d'ingénierie pour la réutilisation : Réutiliser le travail de quelqu'un impliquait également l'implication de l'équipe d'ingénierie dans le déploiement des modèles.
  • Réduction du temps de maintenance des modèles : Étant donné que la plupart des modèles avaient été déployés séparément dans chaque région dans laquelle l'entreprise opère, il s'agissait de les maintenir (mises à jour et modifications) ou simplement de vérifier s'ils étaient
Explaining how data scientists had to query the model performance across each region manually
Il est difficile de gérer les modèles déployés dans différentes régions

L'équipe avait entamé le développement sur les deux fronts.

Lorsque TrueFoundry a commencé à explorer un partenariat avec l'équipe, l'entreprise avait commencé à développer ses deux objectifs. Cependant, après 3 à 4 mois de développement, ils ont commencé à faire face à certains défis :

Quelques cas d'utilisation du LLM ont été confiés à des sociétés de conseil.

L'entreprise travaillait déjà avec certaines des meilleures sociétés de conseil et de mise en œuvre. Ils ont décidé d'attribuer certains cas d'utilisation à ces entreprises et de valider l'idée lancée avec un cas d'utilisation. Certains des problèmes auxquels ils ont été confrontés ici étaient les suivants :

  • Chaque cas d'utilisation coûte entre 500 et 1 million de dollars pour la V1 : L'équipe a compris que l'extension de ces cas d'utilisation, leur amélioration et leur maintenance par cette voie n'atteindraient pas le niveau d'impact qu'elle avait envisagé.
  • Processus lent : Le délai de valorisation pour chacun des cas d'utilisation était de 3 à 4 mois. Pour 30 cas d'utilisation, l'équipe aurait dû soit attendre 2 à 3 ans, soit dépenser beaucoup plus.
  • Le renforcement des capacités était limité : Comme le terrain est mis à jour tous les jours, l'équipe s'est rendu compte que sans renforcer les capacités de sa propre équipe, il serait impossible de maintenir le cap sur le long terme.

L'équipe interne de ML avait également commencé à créer un autre cas d'utilisation.

L'équipe interne de ML a elle-même commencé à développer l'un des cas d'utilisation. Cependant, ils avaient du mal à suivre le rythme auquel les développements se produisaient dans ce domaine. Certains de leurs principaux défis étaient les suivants :

  1. Accès limité aux API et outils tiers : Tout ce qui nécessitait l'envoi de données était hors de portée de l'équipe. Ils ne disposaient pas non plus de support pour certains outils simplifiant la mise au point des modèles, les tests, etc. et ils devaient donc déterminer eux-mêmes ces composants.
  2. Dépendance à l'égard de DevOps : Étant donné que le paradigme LLM/GenAI de l'apprentissage automatique nécessitait l'orchestration de l'infrastructure à une échelle inconnue auparavant, l'équipe a dû faire face à de nombreux retards pour créer un support adapté à toutes les nouveautés disponibles sur le marché.
  3. L'expérimentation était limitée : par les modèles qui pouvaient être pris en charge par l'équipe infra et l'équipe ne savait donc pas s'ils étaient de la meilleure qualité possible. De plus, ils étaient confrontés à des retards lorsqu'ils essayaient d'effectuer des tâches plus complexes telles que le réglage de LoRa, etc. 

Le marché de l'IA générative a été réduit à la seule découvrabilité et non au déploiement de ressources

L'équipe a conçu la création d'une sorte d'entité de marché de l'IA générative où toutes les équipes de ML peuvent publier leurs travaux (modèles, caractéristiques des données, analyseurs, prétraitement, etc.). La place de marché devait héberger :

  1. Modèles de machine learning développés en interne : Pour faciliter la formation et le déploiement progressifs
  2. Actifs LLM : Aider à développer des applications LLM de bout en bout avec des modèles, des bases de données, une interface utilisateur, etc.
  3. Modèles de base : Y compris les LLM, la régression, les modèles de séries chronologiques, etc.
  4. Utilitaires de code : Chargeurs de données, analyseurs, etc.
  5. Applis : Applications internes entièrement fonctionnelles pour différents cas d'utilisation
Generative AI marketplace with: Internally Developed ML models: For easy incremental training and deploymentLLM Assets: To help develop end to end LLM applications with models, DBs, UI etc.Base Models: Including LLMs, Regression, Time series models etc.Code Utilities: Data loaders, parsers etc.Apps: Fully functional internal applications for different use cases
La vision de l'équipe pour le marché de l'IA générative

Cependant, lorsque l'équipe a commencé à développer le projet, elle s'est rendu compte qu'il lui faudrait beaucoup de temps pour créer la couche d'orchestration sous-jacente qui pourrait réaliser sa vision :

  1. Le déploiement de modèles a été difficile : À moins que les modèles ne soient déployés au fur et à mesure de leur développement, il était très difficile de garantir les mêmes niveaux de performance.
  2. Les modèles/services n'étaient pas dockerisés : Il n'était pas courant de dockeriser les modèles et les data scientists étaient réticents à effectuer des étapes supplémentaires.
  3. L'orchestration de l'infrastructure était complexe : Il fallait prendre en charge la mise à l'échelle du GPU, la mise à l'échelle automatique, la garantie de la fiabilité

L'équipe a donc décidé de conserver la place de marché uniquement pour permettre aux équipes de découvrir le travail des autres. Ils ont décidé de supprimer l'exécutabilité, qui était l'une des fonctionnalités principales, de la version initiale de la place de marché

L'équipe souhaitait proposer des règles métier sous forme de bibliothèque Python

Cependant, ils se sont rendu compte que cette approche ne fonctionnerait pas pour les raisons suivantes :

  1. Cela compromettrait la découvrabilité : Sans lui créer une façade,
  2. Le contrôle de version de ces règles serait impossible : Étant donné que ces règles seraient exécutées sur les machines locales des utilisateurs, il serait impossible de s'assurer que tous les utilisateurs disposent de la même version de bibliothèque, en particulier si une correction/une modification est apportée, différents utilisateurs utiliseraient différentes versions de celle-ci.

L'entreprise a décidé de co-construire sa pile d'IA avec TrueFoundry

Deux cas d'utilisation de LLM de grande valeur ont été fournis en moins de 3 mois

L'équipe du client a décidé de développer 2 cas d'utilisation à forte valeur ajoutée en utilisant le module LLM de la plateforme TrueFoundry. Ces cas d'utilisation étaient les suivants :

Résumé du rapport de marché

Une équipe interne analysait différents rapports d'information sur le marché et générait un rapport de synthèse. Cette activité hebdomadaire signifiait :

  1. Des centaines d'heures passées chaque mois
  2. Couverture limitée des informations disponibles

L'équipe souhaitait créer une solution basée sur le LLM qui pourrait résumer ces rapports et fournir une interface QnA avec eux :

Solution proposée pour résumer les rapports de marché

Chatbot d'intelligence vaccinale

Grâce à ce cas d'utilisation, l'entreprise souhaitait être en mesure de mieux faire connaître les vaccins en développant un chatbot QnA capable de rechercher dans les documents disponibles concernant l'administration des vaccins et de clarifier les doutes qu'un patient pourrait avoir.

Hausse des taux de vaccination : À travers ce cas d'utilisation, la société essayait de clarifier les inhibitions qu'un vacciné pourrait avoir en raison de fausses nouvelles souvent associées aux vaccins et qui les stigmatisent.

TrueFoundry a permis de réduire le délai de livraison à un cinquième de l'estimation initiale

La création du cas d'utilisation nécessite la mise en place de plusieurs composants. Nous avons fourni à l'équipe un modèle pour assembler les éléments du pipeline RAG (Retrieval Augmented Generation). Cela comprenait des composants tels que :

  1. Déploiement de LLM Open Source: Déployez des modèles tels que LLama 2, Bloom, etc. ainsi que différentes versions quantifiées des modèles
  2. Réglage fin du modèle : Nous avons aidé l'équipe à simplement connecter ses sources de données et à lancer des opérations de réglage fin sur des configurations d'infrastructure optimisées.
  3. Microservice de chargement, de division et de découpage des données : Pour diviser les données en segments logiques avant l'intégration
  4. Service de backend : Pour accepter la requête de l'utilisateur et renvoyer une réponse
  5. Modèle d'intégration : Pour convertir les morceaux de textes en vecteurs représentatifs
  6. Base de données vectorielles : Pour stocker les blocs de données vectorisés
  7. Déploiement du modèle final : Déployez le modèle final de manière évolutive
Workflow for developing a RAG system
Flux de travail des cas d'utilisation RAG

TrueFoundry a propulsé le marché de l'IA de l'entreprise

TrueFoundry a fait office de rail d'alimentation utilisé pour alimenter le marché intérieur. Pour ce faire, nous avons aidé l'équipe à :

  1. A lancé les composants de la place de marché : avec des ressources prêtes à l'emploi fournies par TrueFoundry
  2. Implémentez une architecture d'inférence asynchrone : Cela a permis de garantir qu'aucune demande n'est supprimée et que le même point de terminaison d'API peut traiter des demandes dont le temps de réponse varie (>10 à 15 minutes si l'ensemble de données est volumineux)
  3. Configurez des pipelines de cas d'utilisation tels que le pipeline RAG : Avec tous les composants tels que les analyseurs de données, la logique de découpage, les modèles, etc., à la disposition des équipes, l'équipe pouvait facilement reproduire ce qu'elle a fait avec Vaccine Intelligence et la synthèse des rapports pour tout nouveau cas d'utilisation en moins d'un mois
  4. Découvrabilité accrue via l'interface utilisateur : Nous avons fourni à l'équipe des API basées sur des déploiements et des tâches TrueFoundry, qu'elle a intégrées à une interface utilisateur pour faire des inférences à partir de n'importe quel modèle ou déployer n'importe quel composant en un clic pour les équipes sans avoir à lire la documentation.

“TrueFoundry has acted as partners in enabling us to unlock LLMOps capabilities at scale. The team did extra work to support any new model we needed. Today, we can proudly say we are a leader in our space in using LLMs. TrueFoundry team offered us a novel model of “product team as a service,” bringing hard-to-find skills augmented by the platform. In ever-changing technology areas like Gen AI, the TrueFoundry offered enterprises a low-risk-high-reward engagement mechanism.”

- Global Head of Data Science

Les utilisateurs professionnels peuvent facilement déduire des règles métier

Toutes les logiques métier ont été intégrées dans une API exécutée sur le serveur cloud à l'aide de TrueFoundry. Nous avons veillé à ce que cette API soit structurée de la même manière qu'une bibliothèque Python pour en faciliter l'utilisation. Cela a permis qu'il y ait eu :

  1. Aucun problème de gestion des versions
  2. Exécution simple via l'interface utilisateur
  3. Notifications par e-mail lorsque les résultats étaient disponibles

TrueFoundry est le panneau de verre unique pour tous les modèles déployés

All the different region clusters are connected to TrueFoundry. They can view and manage all these models from a single control plane.
TrueFoundry a aidé l'équipe à gérer les modèles déployés dans différents clusters

L'interaction avec TrueFoundry pour surveiller, mettre à jour et publier des modèles dans différentes régions a aidé l'équipe à :

  1. Réduire le temps de déploiement des modèles de 60 à 80 %
  2. Améliorez le retour sur investissement des modèles en surveillant leurs performances

La voie à suivre

Au fur et à mesure que le partenariat entre les deux sociétés progresse, nous en apprenons beaucoup sur les problèmes pratiques que peut rencontrer une équipe de machine learning de cette envergure. Nous sommes en mesure de tester la plateforme tout en développant de nouvelles fonctionnalités plus matures. Ensemble, nous sommes déterminés à développer une technologie de pointe qui permet aux équipes de science des données de se concentrer uniquement sur la création de valeur grâce à des cas d'utilisation du ML sans jamais avoir besoin d'orchestrer l'infrastructure ou de prendre ou de perdre du temps dans les tâches d'ingénierie.

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Exploitez votre pipeline ML dès le premier jour

gazoduc