True ML Talks #11 - LLM, LLMOP et directeur technique de GenAI @ Greenhouse

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Nous sommes de retour avec un autre épisode de True ML Talks. Dans ce cadre, nous approfondissons à nouveau les LLM, les LLMOP et l'IA générative, et nous discutons avec Michel Boufford.
Michael est le directeur technique de Greenhouse. Il a rejoint Greenhouse en tant que premier employé il y a environ 11 ans. Il a donc écrit les premières lignes de code et a réussi à faire de l'entreprise ce qu'elle est aujourd'hui.
📌
Nos conversations avec Mike porteront sur les aspects suivants :
- Structure organisationnelle des équipes ML de Greenhouse
- Comment les LLM et les modèles d'IA générative sont utilisés en serre
- Naviguer dans de grands modèles linguistiques
- Comprendre l'ingénierie rapide
- LLMOP et outillage essentiel pour les LLM
Regardez l'épisode complet ci-dessous :
Structure organisationnelle des équipes de science des données et d'apprentissage automatique de Greenhouse
Les équipes de science des données et d'apprentissage automatique de Greenhouse ont évolué avec la croissance de l'entreprise, passant de fonctions généralistes à des postes spécialisés. Les principaux aspects de leur structure organisationnelle sont les suivants :
- Ingénierie des données et plateforme: Une équipe dédiée gère l'ingénierie des données, l'entreposage des données et le développement de fonctionnalités d'apprentissage automatique. Ils soutiennent les efforts de marketing et gèrent le déploiement et les opérations du code et des modèles.
- Science des données sur les produits: Cette équipe se concentre sur le soutien à la prise de décisions relatives aux produits par le biais de projets innovants, d'analyses de données et d'informations orientant le développement de produits.
- Ingénierie ML: Greenhouse dispose d'une équipe d'ingénieurs ML spécialisée dans la création de modèles évolutifs et fiables prêts à la production pour divers cas d'utilisation de produits.
En outre, un Équipe d'analystes d'affaires répond à des questions liées aux entreprises et fournit des informations.
La gestion de l'infrastructure relève de la responsabilité d'un Équipe chargée de l'infrastructure, en supervisant des composants tels que Kubernetes et AWS. Les magasins de données disposent d'une équipe dédiée à la gestion.
Comment les LLM et les modèles d'IA générative sont utilisés en serre
Voici les différents cas d'utilisation dans lesquels ces modèles ont été utilisés dans le cadre des opérations de Greenhouse.
- Similarité des emplois et traitement des données : Greenhouse utilise des LLM, notamment Bard et GPT-2, pour analyser et traiter divers aspects des données liées à l'emploi. Ces modèles aident à déterminer les similitudes entre les différentes offres d'emploi, ainsi qu'à analyser et à traiter les données brutes des CV. L'accent est mis sur le traitement efficace des données et les efforts d'étiquetage liés aux descriptions de poste.
- Architecture RAG pour des réponses plus rapides : Greenhouse a récemment exploré l'utilisation du GPT-4 pour des cas d'utilisation innovants. L'une d'entre elles consiste à implémenter l'architecture RAG (Retrieval-Augmented Generation) pour fournir des réponses rapides aux requêtes des utilisateurs. En s'appuyant sur des modèles génératifs, Greenhouse vise à permettre aux utilisateurs d'obtenir des réponses à des questions complexes qui nécessitaient auparavant la génération manuelle de rapports. Le modèle génératif agit comme un traducteur, convertissant les requêtes en anglais en un langage de requête qui interagit avec le magasin de données, puis retraduisant la réponse pour la consommation.
- Rapports et intelligence d'affaires (BI) : Ayant accès à de grandes quantités de données textuelles sous forme de descriptions de poste et de CV, Greenhouse est bien placée pour tirer parti des LLM et des modèles génératifs à des fins de reporting et de BI. Greenhouse propose déjà des rapports prédéfinis, un générateur de rapports personnalisé et un produit de lac de données. L'entreprise envisage d'utiliser les LLM pour répondre à un large éventail de questions de reporting liées au recrutement, telles que les performances en matière de sourcing, les processus d'entretien, le statut du recrutement, l'analyse budgétaire, etc.
Naviguer dans de grands modèles linguistiques : résoudre les problèmes et adopter l'auto-hébergement
Problèmes liés aux grands modèles de langage
Bien que ChatGPT, alimenté par des modèles tels que le GPT-4, offre des résultats impressionnants, son utilisation pose encore quelques défis et préoccupations. Voici quelques problèmes qui se posent avec ChatGPT :
- Fiabilité : Le GPT-4 en est encore à ses débuts et n'est peut-être pas totalement fiable pour un déploiement dans une infrastructure de production. Par conséquent, il n'est peut-être pas conseillé de se fier uniquement au GPT-4 pour les systèmes critiques nécessitant des performances et une fiabilité constantes.
- Conditions d'utilisation et confidentialité des données : Comme pour tout modèle d'IA, la manière dont les données sont traitées et leur utilisation à des fins de formation suscitent des inquiétudes. La certitude que les données seront traitées en toute sécurité et qu'elles ne seront pas divulguées ou utilisées à mauvais escient peut être un problème important, en particulier lorsqu'il s'agit de données sensibles telles que des informations personnelles identifiables (PII).
- Modèles auto-hébergés : L'utilisation de modèles plus petits et auto-hébergés peut présenter des avantages en termes de fiabilité, de coût et de performances. En hébergeant les modèles au sein de votre propre infrastructure, vous pouvez mieux contrôler les paramètres d'entrée/sortie, la surveillance et les configurations de sécurité. Cette approche permet d'atténuer les risques liés au recours à des services externes.
- Talent et infrastructure : L'hébergement de modèles linguistiques, même plus petits, nécessite des compétences et une infrastructure spécialisées. Il peut être nécessaire de développer l'expertise et les ressources nécessaires en interne pour gérer et utiliser efficacement ces modèles. Alors que les fournisseurs de cloud tels qu'Azure, Google et Amazon développent leurs propres modèles de langage de grande envergure, ils ne disposent peut-être pas d'une vaste expérience en matière de gestion des entrées non fiables et des défis spécifiques qui y sont associés.
- Sécurité des données : La protection des données sensibles est cruciale, en particulier lors du traitement des informations personnelles. L'une des approches consiste à entraîner des modèles sans exposer directement les données brutes. Par exemple, l'utilisation de hachages de valeurs sans perte au lieu des données réelles peut contribuer à préserver la confidentialité tout en capturant des relations significatives. Il sera essentiel d'expérimenter différentes approches et de garantir la sécurité des données.
Avantages des modèles auto-hébergés
- Meilleures performances du modèle : Les modèles plus petits peuvent améliorer les performances en matière de réponse aux questions.
- Réduction des coûts : Les coûts de calcul sont moindres lorsque vous utilisez des modèles plus petits, sans les frais supplémentaires de la part d'un tiers.
- Contrôle et responsabilité : Les modèles d'auto-hébergement permettent plus de contrôle et de responsabilité, car ils s'exécutent au sein de votre propre infrastructure.
- Sécurité et confidentialité des données : L'auto-hébergement réduit le risque d'évasion de données et garantit un meilleur contrôle des paramètres d'entrée et de sortie.
- Surveillance et sécurité : Les modèles auto-hébergés permettent une meilleure surveillance et la possibilité de configurer des configurations de sécurité en fonction de vos besoins.
- Préféré pour les applications SaaS d'entreprise : Pour les fonctionnalités qui peuvent être proposées par des modèles auto-hébergés et qui répondent aux normes de performance requises, il est préférable de choisir l'auto-hébergement.
- Viabilité du GPT-4 : Les aspects de fiabilité, de sécurité et de confidentialité des données du GPT-4 sont toujours en cours d'évaluation et nécessitent une évaluation plus approfondie avant de l'envisager pour les systèmes de production.
Évaluation et prise de décisions
Lorsqu'ils envisagent d'investir dans des modèles auto-hébergés ou de s'appuyer sur de grands modèles de langage commercial, les dirigeants doivent évaluer attentivement les facteurs suivants :
- Cas d'utilisation : Déterminez si le problème en question peut être résolu efficacement par des modèles plus petits en termes de rentabilité et d'efficacité informatique.
- Implications financières à long terme : Tenez compte des économies potentielles liées à l'hébergement de votre propre modèle par rapport à l'accès à de très grands modèles, qui peuvent générer des rendements décroissants.
- Contrôle et autonomie : Évaluez les avantages d'un contrôle et d'une autonomie accrus sur l'infrastructure et la direction du modèle, ainsi que de la possibilité de personnaliser et de spécialiser le modèle en fonction de cas d'utilisation spécifiques.
- Opportunités d'investissement et d'apprentissage : Reconnaissez que la création et la formation de modèles plus petits peuvent nécessiter un investissement initial en termes de ressources d'équipe, d'expérimentation et de mise au point. Cependant, cet investissement peut conduire à des modèles optimisés adaptés à des cas d'utilisation spécifiques et à améliorer les connaissances et la compréhension de l'équipe.
Comprendre l'ingénierie rapide
L'ingénierie rapide est devenue un sujet de débat dans le domaine des grands modèles de langage (LLM). Cela implique de créer des invites efficaces pour obtenir les réponses souhaitées à partir du modèle. Voici quelques points clés pour comprendre le concept et ses implications :
- L'ingénierie rapide en tant que rôle distinct : L'ingénierie rapide peut devenir un titre de poste reconnu ou un rôle spécialisé dans le domaine, car les experts optimisent les instructions et manipulent efficacement les réseaux de neurones.
- Approche technique des invites : L'ingénierie rapide consiste à appliquer la méthode scientifique pour générer des résultats prévisibles en ajustant et en affinant les instructions pour obtenir les résultats souhaités.
- Distinction par rapport à une utilisation occasionnelle rapide : Le simple fait de copier-coller des instructions sans les comprendre ou les modifier plus en profondeur n'est pas considéré comme de l'ingénierie rapide.
- Nature multidimensionnelle de l'ingénierie rapide : L'ingénierie rapide nécessite une compréhension globale de la manière dont les invites influencent les réseaux neuronaux et les informations spécifiques qu'ils capturent, allant au-delà des compétences linguistiques.
- Absence de programmation déterministe : Les LLM introduisent de la complexité en raison des variations des modèles, des données de formation et de l'évolution des comportements, ce qui complique l'ingénierie rapide.
- Améliorations potentielles de l'efficacité et de la prévisibilité : Une meilleure compréhension des LLM peut conduire à une activation plus efficace des parties du réseau neuronal, ce qui se traduirait par des résultats plus prévisibles et cohérents.
- Visualisation de l'encodage en couches : Les architectures de transformateurs des LLM codent les informations sur différentes couches, de la même manière que les CNN traitent les images. Les ingénieurs rapides peuvent explorer l'activation de couches spécifiques pour influencer les sorties générées.
- Tooling Landscape et LLmops : L'attention se porte désormais sur le paysage d'outillage entourant les LLM, appelé LLMOP, qui comprend les pratiques de développement, de déploiement et de gestion. Le terme est toujours en évolution.
LLMOP et outillage essentiel pour les LLM
Les LLMops et le paysage d'outils autour des grands modèles de langage (LLM) attirent de plus en plus l'attention.
En matière de gestion rapide, de traitement rapide des données, de retour d'information sur l'étiquetage et d'autres tâches essentielles, certains outils devraient jouer un rôle essentiel à mesure que l'utilisation du LLM se développe. Voici quelques-unes des principales considérations à prendre en compte :
- Bases de données de facteurs : Les bases de données consultables telles que Minecon seront cruciales pour récupérer le contexte pertinent à renvoyer au réseau neuronal. L'accès à des informations pertinentes permet une ingénierie et une optimisation rapides.
- Cadres de projet : Des projets tels que LangChain fournissent des cadres de codage qui facilitent la mise en œuvre d'un large éventail de fonctionnalités, contribuant ainsi à une utilisation efficace du LLM.
- Intégration et infrastructure : Les LLM font généralement partie de programmes plus larges, nécessitant une intégration et une gestion efficaces de divers composants. Le câblage de différentes pièces pour obtenir les résultats souhaités est vital et peut nécessiter une expertise en matière de gestion de l'infrastructure et de la mémoire.
- Surveillance et maintenance : Les pratiques traditionnelles d'apprentissage automatique, telles que la surveillance des régressions, l'évaluation des performances et l'évaluation des capacités des infrastructures, restent pertinentes dans le contexte des LLM. Il est essentiel de garantir une infrastructure et un soutien des capacités appropriés pour des performances optimales.
- Stockage rapide : L'enregistrement des instructions pour une utilisation future nécessite une réflexion approfondie. Bien que diverses options, telles que les bases de données, la mise en cache ou le stockage de fichiers, puissent être utilisées pour stocker du texte et même du texte paramétrable, la conception de méthodes pertinentes pour stocker les invites constitue un domaine d'exploration permanent.
- Optimisation de la mémoire : Faire face aux besoins en mémoire des grands modèles peut s'avérer difficile. La gestion de l'utilisation de la RAM du GPU devient cruciale, en particulier lorsqu'il s'agit de peaufiner des modèles qui augmentent considérablement les besoins en mémoire. L'optimisation des modèles pour des types de GPU spécifiques ou des exigences de latence nécessite une expertise et une assistance en matière d'outillage.
- Outils de gestion de l'infrastructure : Alors que les organisations gèrent des LLM sur leurs propres infrastructures cloud, de nouveaux défis se présentent en termes de gestion de l'infrastructure. La prise en charge de l'outillage est nécessaire pour des tâches telles que la mise à l'échelle automatique des GPU, la garantie de la disponibilité, l'optimisation des coûts et la création de systèmes évolutifs adaptés aux exigences spécifiques de l'entreprise.
- Workflows pour les développeurs : Il est essentiel de disposer d'outils qui améliorent les flux de travail des développeurs lorsqu'ils travaillent avec des LLM. La simplification des processus complexes et la fourniture d'interfaces intuitives peuvent contribuer à accélérer l'adoption et à rendre les LLM plus accessibles à un plus large éventail d'utilisateurs.
- Éduquer la communauté : Le domaine du LLM étant encore en phase exploratoire, des entreprises comme True Foundry ont l'occasion d'éduquer et de guider la communauté sur les outils disponibles, les meilleures pratiques et les solutions aux défis courants.
📌
Évaluation de modèles de domaines étendus
Dans le contexte de l'implication humaine dans l'évaluation, l'approche « l'humain au courant » est couramment utilisée dans les cas d'utilisation sérieux des LLM. La validation humaine est cruciale pour évaluer les performances du modèle et valider ses résultats. Même pendant le processus de mise au point des modèles GPT, l'implication humaine a joué un rôle essentiel.
Pour les cas d'utilisation moins critiques où une certaine marge d'erreur est possible, une approche rentable consiste à utiliser des modèles plus grands pour évaluer les réponses de modèles plus petits. Les réponses multiples générées par les modèles plus petits peuvent être comparées et notées par un modèle plus grand, ce qui permet d'établir des mesures pour mesurer les performances. Bien que cette approche entraîne certains coûts, elle est généralement plus économique que de s'appuyer uniquement sur des efforts humains.
Restez à jour dans un monde en constante évolution
Il peut être difficile de rester à jour dans le monde en constante évolution des LLM et de l'apprentissage automatique. Voici quelques approches efficaces pour rester informé et acquérir des connaissances :
- Vidéos expliquées par l'IA : Le visionnage de vidéos expliquées par l'IA sur des plateformes telles que YouTube constitue un moyen pratique de saisir les principales conclusions et résultats d'articles universitaires sans avoir à les lire en profondeur. Ces vidéos résument des concepts complexes, ce qui permet d'économiser du temps et des efforts.
- Communautés en ligne : L'engagement avec des communautés en ligne, telles que Hacker News et les subreddits d'apprentissage automatique, offre des informations, des discussions et des mises à jour sur les tendances et technologies émergentes dans le domaine.
- Expérience pratique : Il est essentiel de participer activement aux applications pratiques des LLM pour mieux comprendre leur potentiel et leurs limites. En expérimentant et en explorant les capacités, on peut améliorer leurs connaissances.
- Accessibilité des API : Contrairement à ce qui se passait dans le passé, où l'apprentissage automatique nécessitait de revoir des concepts mathématiques complexes, le paysage actuel est davantage axé sur les API. Les API et bibliothèques prédéfinies permettent aux développeurs de commencer à expérimenter et à créer des applications sans avoir à réapprendre les mathématiques avancées.
- Compétences en programmation : L'apprentissage de méthodes de bibliothèque spécifiques et la résolution de problèmes d'environnement sont des compétences précieuses pour mettre en œuvre efficacement les LLM.
Lisez nos précédents articles de la série True ML Talks :
Continuez à regarder le TrueML série youtube et en lisant le TrueML série de blogs.
True Foundry est un PaaS de déploiement de machine learning sur Kubernetes destiné à accélérer les flux de travail des développeurs tout en leur offrant une flexibilité totale dans les tests et le déploiement de modèles, tout en garantissant une sécurité et un contrôle complets à l'équipe Infra. Grâce à notre plateforme, nous permettons aux équipes de machine learning de déployer et surveiller des modèles en 15 minutes avec une fiabilité à 100 %, une évolutivité et la possibilité de revenir en arrière en quelques secondes, ce qui leur permet de réduire les coûts et de mettre les modèles en production plus rapidement, ce qui permet de réaliser une véritable valeur commerciale.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA













.webp)



.png)


.webp)




.webp)







