TrueML Talks #26 - Enterprise GenAI et LLMops avec Labhesh Patel

Mis à jour : January 4, 2024

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Nous sommes de retour avec un autre épisode de True ML Talks. Dans ce cadre, nous approfondissons à nouveau les pipelines MLOps et les applications LLM dans les entreprises alors que nous discutons avec Labhesh Patel.

Labhesh était directeur technique et scientifique en chef chez Jumio Corporation, où il a travaillé sur l'exploitation du ML et de l'IA dans le domaine de la vérification d'identité. Dans le passé, il a occupé de nombreux postes de direction, à la fois en ingénierie et en sciences, au sein d'organisations de premier plan.

📌

Nos conversations avec Labhesh porteront sur les aspects suivants :
- Documents de recherche et brevets intéressants
- Utiliser l'IA pour résoudre les problèmes commerciaux
- Construction du pipeline MLOps
- Supprimer les silos : créer des équipes MLOps soudées pour réussir
- Surmonter les obstacles rencontrés par les fournisseurs de cloud
- L'avenir de l'IA générative

Regardez l'épisode complet ci-dessous :

Documents de recherche et brevets intéressants

Documents de recherche

L'attention est tout ce dont vous avez besoin: Cet article a présenté le réseau de transformateurs, qui a révolutionné le traitement du langage naturel et jeté les bases de nombreux LLM tels que ChatGPT.

‍

Attention Is All You Need

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.arXiv.orgAshish Vaswani

arXiv.org Ashish Vaswani

‍

Réponse visuelle aux questions à l'aide de réseaux d'attention guidée segmentés: Cet article proposait une nouvelle méthode pour répondre à des questions sur les images en utilisant des cartes de segmentation et des mécanismes d'attention. Bien qu'elle soit remplacée par de nouvelles techniques, elle souligne l'importance de se concentrer sur des zones spécifiques d'une image pour obtenir des réponses précises.

‍

Segmentation Guided Attention Networks for Visual Question Answering

Vasu Sharma, Ankita Bishnu, Labhesh Patel. Proceedings of ACL 2017, Student Research Workshop. 2017.

ACL Anthology

‍

Cycle Gen: Cet article explore l'idée de générer des résumés textuels sur la base des avis des utilisateurs et des caractéristiques des produits. Il est antérieur à ChatGPT et démontre le potentiel des LLM pour faciliter les tâches d'écriture.

‍

Cyclegen: Cyclic consistency based product review generator from attributes

Vasu Sharma, Harsh Sharma, Ankita Bishnu, Labhesh Patel. Proceedings of the 11th International Conference on Natural Language Generation. 2018.

ACL Anthology

‍

Brevets

Protocole de mise en mémoire tampon et de négociation de la voix sur IP: Ce brevet est né d'une simple correction de bogue qui améliorait la qualité vocale des appels VoIP. Il met en évidence le potentiel d'innovation de solutions apparemment banales et l'importance d'envisager des stratégies défensives en matière de brevets.

Utiliser l'IA pour résoudre les problèmes commerciaux

La transformation des processus manuels à l'aide de l'IA présente de nombreux défis et opportunités. Voici quelques points clés à retenir :

Commencez par l'entreprise, pas par le buzz

Identifier le problème principal de l'entreprise: Pourquoi automatiser ? Quels sont les avantages quantifiables (évolutivité, réduction des coûts, rapidité) ?
Gérez les attentes: L'IA n'est pas magique. Communiquez ce qui est réalisable et définissez des indicateurs de performance réalistes.
Comprendre le rôle des données: 90 % du travail concerne la gestion, la collecte et l'assurance qualité des données. Des données propres sont essentielles pour la précision des modèles.

Tracer la bonne voie

Une étape à la fois: Concentrez-vous sur un cas d'utilisation unique à fort impact pour prouver le concept et construire votre pipeline.
La conformité d'abord: Assurez-vous du consentement et de l'utilisation appropriés des données avant même de toucher un seul octet.
Les indicateurs sont importants: Suivez les indicateurs pertinents (précision, rappel, taux d'erreur) pour évaluer le succès et orienter les décisions futures.
Le travail d'équipe est essentiel: Constituez une équipe spécialisée dans l'ingénierie du machine learning, la gestion des données et le développement de produits.

Au-delà de la première étape

Répéter et évoluer: évaluez, améliorez et développez en permanence vos solutions d'IA en fonction des données et des commentaires.
Embrassez la courbe d'apprentissage: Soyez prêt à investir dans le talent et la formation afin de créer une culture de compréhension de l'IA au sein de votre organisation.

Points importants à garder à l'esprit

Attention au piège des 99 %: Une précision élevée sur des cas isolés peut masquer des problèmes plus importants. Faites attention aux performances globales et aux taux d'erreur.
Pensez statistiquement: Des indicateurs tels que la précision et le rappel fournissent une image plus nuancée des performances de l'IA que de simples pourcentages de précision.

En hiérarchisant les besoins de l'entreprise, en vous concentrant sur la qualité des données et en constituant une équipe solide, vous pouvez surmonter les complexités et exploiter le véritable potentiel de l'IA pour transformer vos opérations.

Construction du pipeline MLOps

Pour tous ceux qui créent des systèmes de machine learning complexes, il y a certaines choses que vous pouvez garder à l'esprit.

Privilégiez le cloud, mais restez agile

Tirez parti des outils MLOps intégrés de votre fournisseur de cloud, tels qu'AWS SageMaker, pour une configuration initiale rapide.
Évitez les obstacles liés à la gestion des fournisseurs et à la conformité en restant dans l'écosystème cloud.
Allez au-delà des offres natives lorsque des limites se présentent, recherchez des solutions spécialisées telles que des plateformes ou des fournisseurs open source.

Importance de la qualité des données

Sachez que les fournisseurs de cloud négligent souvent la qualité des données, nécessitant des systèmes internes supplémentaires ou des services tiers.
Priorisez le nettoyage et la validation automatisés des données pour garantir la précision et les performances du modèle.

Considérations architecturales

Création de modèles ou production : considérez des équipes distinctes pour le développement et le déploiement des modèles, dotées de compétences et de responsabilités distinctes.
Structure axée sur l'évolutivité et l'agilité : concevez une architecture flexible capable de prendre en charge de nouveaux outils et de nouvelles intégrations au fur et à mesure de l'évolution du pipeline.

Supprimer les silos : créer des équipes MLOps soudées pour réussir

Dans le monde trépidant des MLOps, la collaboration est reine. Mais trop souvent, les équipes sont fragmentées, les data scientists élaborant des modèles de manière isolée et les ingénieurs ayant du mal à les déployer et à les gérer. Le résultat ? Des progrès lents, des opportunités manquées et des parties prenantes frustrées.

Alors, comment briser ces silos et créer des équipes MLOps qui prospèrent ?

Rassembler tout le monde

Imaginez une équipe interfonctionnelle de 8 à 10 personnes, chacune possédant une expertise unique : chefs de produit, ingénieurs des données, DevOps, sécurité, ingénieurs ML, assurance qualité et même support client. Ce groupe diversifié, uni par un objectif commun (par exemple, réduire la fraude), devient une puissante force d'innovation et d'efficacité.

Voici pourquoi cette approche fonctionne :

Propriété partagée: Lorsque chacun se sent responsable de l'ensemble du cycle de vie d'un modèle, il n'y a pas de mentalité « exagérée ». Les problèmes sont résolus de manière collaborative et les solutions sont optimisées pour un déploiement et une maintenance dans le monde réel.
Des décisions éclairées: Les ingénieurs de données comprennent les besoins de machine learning, et les ingénieurs ML apprécient les réalités du déploiement. Cette pollinisation croisée des connaissances permet d'améliorer la sélection des modèles et l'ingénierie des fonctionnalités, évitant ainsi les pièges liés à des modèles « parfaits pour la recherche » qui sont impossibles à déployer.
Itérations plus rapides: Une collaboration étroite favorise la communication et l'agilité. L'équipe peut rapidement expérimenter, affiner et itérer les modèles, maximisant ainsi l'impact de ses efforts.

Combler les lacunes en matière de compétences pour constituer une telle équipe

Il est de la plus haute importance de procéder à un recrutement ciblé. Vous avez besoin d'ingénieurs de données ayant une solide compréhension des pipelines de machine learning et d'ingénieurs ML qui apprécient les principes du génie logiciel. Cette combinaison de compétences diverses constitue la recette secrète d'une équipe MLOps performante.

L'élimination des silos n'est pas seulement une question de structure, c'est aussi une question de culture. Encouragez une communication ouverte, célébrez la diversité des points de vue et créez un environnement dans lequel chacun se sent habilité à apporter sa contribution. Ce faisant, vous constituerez une équipe MLOps soudée capable de transformer vos rêves de ML en réalité.

Surmonter les obstacles rencontrés par les fournisseurs de cloud

Vous pouvez rencontrer de nombreux obstacles potentiels lorsque vous vous fiez fortement à un fournisseur de cloud. Dans de tels scénarios, il est très important de pouvoir changer de cap lorsqu'un tel obstacle se présente.

N'ayez pas peur d'explorer des alternatives: Lorsque les fournisseurs de cloud rencontrent des limites, recherchez des fournisseurs spécialisés ou des solutions open source pour combler les lacunes.
La communication proactive est importante: N'hésitez pas à faire part de vos préoccupations directement aux fournisseurs de cloud. Les commentaires peuvent permettre d'améliorer la collaboration et d'accéder à des solutions exclusives.
L'adaptabilité est essentielle: Soyez prêt à ajuster votre approche en fonction des technologies émergentes et de l'évolution des offres des fournisseurs.

Voici quelques défis courants qui peuvent survenir

Défi 1 : Accès aux données surrégulé

Lorsqu'il s'agit de données sensibles (informations personnelles, dossiers médicaux), des réglementations strictes telles que le RGPD et le CCPA entrent en jeu. Les fournisseurs de cloud, bien que conformes aux normes générales, peuvent ne pas proposer d'outils spécifiques pour un accès sécurisé et des pistes d'audit.

Les solutions possibles à ces problèmes sont les suivantes :

Fournisseurs alternatifs : recherchez des entreprises spécialisées dans les environnements hautement réglementés et proposant des fonctionnalités de contrôle d'accès et d'auditabilité granulaires.
Solutions open source : envisagez des outils open source et personnalisez-les pour répondre à des besoins de conformité spécifiques.

Défi 2 : fonctionnalités propriétaires et accès limité

Parfois, les fournisseurs de cloud retiennent des fonctionnalités spécifiques ou les publient à la date prévue, laissant les clients dans l'attente de fonctionnalités cruciales.

La solution potentielle consiste à communiquer de manière proactive avec votre point de contact pour ce fournisseur de cloud.

Le fait de donner un feedback direct au POC et de communiquer les obstacles auxquels vous êtes confronté peut parfois vous permettre, à vous et à votre équipe, d'accéder en avant-première à des programmes bêta privés, afin de ne pas manquer les solutions futures.

N'oubliez pas que même en cas d'obstacles, un état d'esprit proactif et adaptable peut transformer les défis en opportunités dans le monde en constante évolution des MLOp basées sur le cloud.

L'avenir de l'IA générative

L'IA générative, en particulier les LLM (Large Language Models), fait fureur. Cependant, les LLM sont actuellement dans une « phase de battage médiatique », loués pour leurs capacités magiques à gérer diverses tâches. Les développeurs ont recours à des appels d'API aux LLM, ce qui entraîne des problèmes tels que la limitation du débit et des coûts élevés.

Les défis de l'adoption par les entreprises

Coût et évolutivité: Les grands modèles sont coûteux et exigeants en termes de calcul, ce qui les rend impropres à une utilisation généralisée en entreprise.
Sécurité et biais des modèles: Les environnements d'entreprise nécessitent la sécurité des modèles et le contrôle des biais potentiels, ce qui peut être difficile avec les LLM.
Temps d'inférence: Les LLM sont confrontés à des problèmes de latence, ce qui entraîne des retards qui nuisent à la productivité et à l'expérience utilisateur.

L'avenir : les petits modèles linguistiques à la rescousse ?

Il pourrait y avoir une évolution vers des SLM, formés pour des tâches et des domaines spécifiques au sein des entreprises.

Cette « architecture routée » dirigerait les requêtes vers le SLM approprié pour des réponses plus rapides et plus efficaces.

Les modèles plus petits répondent également aux problèmes de coût et d'évolutivité, en les rendant plus accessibles aux entreprises.

Déclencheurs de transition et considérations

La transition se fera probablement progressivement, en raison des limites pratiques des LLM et de la disponibilité croissante de SLM efficaces.

La réduction des coûts et l'amélioration de la latence joueront un rôle clé dans l'accélération de l'adoption des SLM.

Lisez nos précédents articles de la série True ML Talks :

‍

GenAI and LLMOps for GTM (Go-To-Market) @ Twilio‍

Dive deep into Twilio’s GenAI applications like XGPT, and RFP Genie for revolutionizing GTM (Go-To-Market) Strategies. Deep dive into the Backend for these applications.

TrueFoundry Blog TrueFoundry

‍

Continuez à regarder le TrueML Séries YouTube et en lisant le TrueML série de blogs.

True Foundry est un PaaS de déploiement de machine learning sur Kubernetes destiné à accélérer les flux de travail des développeurs tout en leur offrant une flexibilité totale dans les tests et le déploiement de modèles, tout en garantissant une sécurité et un contrôle complets à l'équipe Infra. Grâce à notre plateforme, nous permettons aux équipes de machine learning de déployer et surveiller des modèles en 15 minutes avec une fiabilité à 100 %, une évolutivité et la possibilité de revenir en arrière en quelques secondes, ce qui leur permet de réduire les coûts et de mettre les modèles en production plus rapidement, ce qui permet de réaliser une véritable valeur commerciale.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant