True ML Talks #14 - Cofondateur de LLMs et d'apprentissage par renforcement @ CX Score

Mis à jour : June 22, 2023

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Nous sommes de retour avec un autre épisode de True ML Talks. Dans ce cadre, nous approfondissons à nouveau les LLM, l'apprentissage par renforcement et le CX Score et nous discutons avec Ashwin Rao.

Ashwin Rao est un professionnel distingué qui possède une expérience diversifiée dans le monde universitaire, le leadership industriel et l'entrepreneuriat. Il est actuellement cofondateur de CX Score, une start-up d'IA en phase de démarrage qui vise à donner aux entreprises les moyens d'améliorer l'expérience client sur les applications Web et mobiles.

📌

Nos conversations avec Ashwin porteront sur les aspects suivants :
- Score CX.
- Défis et applications du LLM dans le commerce de détail.
- Apprentissage par renforcement.
- Applications de RL dans le domaine de la finance
- Utiliser l'apprentissage par renforcement pour améliorer les LLM
- Garantir des réponses sûres, impartiales et de haute qualité dans les LLM

Regardez l'épisode complet ci-dessous :

Entretien TrueML avec Ashwin Rao

Score CX

Présentation de CX Ops et de CX Score

CX Ops étend les principes DevOps pour améliorer l'expérience client numérique. Cela implique une approche collaborative pour améliorer en permanence les sites Web, les applications Web et les applications mobiles.

Le CX Score évalue l'expérience client à l'aide des informations fournies par un utilisateur synthétique, un robot intelligent qui se comporte comme un humain. Il identifie les problèmes tels que les dysfonctionnements, les incohérences de conception, les problèmes de sécurité, etc., générant des tickets pour les développeurs et les concepteurs.

Les équipes interfonctionnelles traitent les problèmes signalés et s'efforcent d'apporter des améliorations continues. L'utilisateur synthétique effectue de nouveaux tests une fois le problème résolu, ce qui contribue à l'amélioration du CX Score au fil du temps.

L'intégration de CX Ops à DevOps garantit que l'expérience client est au cœur du processus de développement. Cela permet de créer des plateformes numériques fluides et attrayantes pour les clients.

Comment le CX Score imite les interactions humaines

Le CX Score utilise une approche d'apprentissage pour imiter les interactions humaines et comprendre ce qui rend une expérience numérique intuitive et conviviale. En observant et en analysant le comportement humain sur les sites Web et les applications, l'utilisateur synthétique, ou robot IA, peut tirer des leçons des signaux et des modèles présentés par les utilisateurs réels.

Les données de supervision sont collectées pour mieux comprendre la façon dont les utilisateurs naviguent sur les plateformes numériques. Ces données incluent des indicateurs tels que le temps passé sur les différentes pages, la séquence des actions entreprises et les cas d'abandon. Ces signaux fournissent des informations précieuses sur la confusion, les frustrations des utilisateurs et les domaines dans lesquels l'expérience n'est pas satisfaisante.

Par exemple, si les utilisateurs rencontrent fréquemment des difficultés pour atteindre un objectif spécifique, tel que le déploiement d'un modèle d'apprentissage automatique, l'utilisateur synthétique peut être entraîné à reconnaître qu'il s'agit d'une expérience utilisateur sous-optimale. En comparant le comportement de vrais utilisateurs qui rencontrent des difficultés avec le processus à celui de ceux qui le terminent sans effort, le bot peut comprendre la différence et découvrir ce qui rend l'expérience plus intuitive.

Le processus d'apprentissage du bot IA repose sur la collecte d'une quantité importante de données et de commentaires de la part de vrais utilisateurs. En analysant et en cartographiant les parcours des utilisateurs, il devient possible d'identifier les points faibles, les goulots d'étranglement et les domaines à améliorer. Cette approche axée sur les données permet au bot de faire la distinction entre les interactions conviviales et celles qui peuvent être source de frustration ou de confusion.

En tirant continuellement des enseignements du comportement humain, le CX Score vise à optimiser l'expérience client numérique, en la rendant plus intuitive, rationalisée et alignée sur les attentes des utilisateurs. L'objectif est de faire en sorte que l'utilisateur synthétique puisse imiter avec précision les interactions humaines et fournir des informations précieuses sur les domaines dans lesquels l'expérience peut être améliorée.

Défis et applications du LLM dans le secteur de la vente au détail

Le secteur de la vente au détail a connu des avancées significatives dans l'application de l'IA, du ML et du LLM (grands modèles linguistiques) pour résoudre divers défis et améliorer l'expérience client. Nous explorons ici les défis auxquels est confronté le secteur de la vente au détail et les applications émergentes des LLM pour résoudre ces problèmes.

Les défis du secteur de la vente au détail

Opérations et chaîne d'approvisionnement : Les détaillants sont confrontés à des difficultés lorsqu'il s'agit de gérer efficacement les stocks, la logistique et les opérations de la chaîne d'approvisionnement. L'optimisation de ces processus pour garantir un mouvement fluide des produits et des livraisons dans les délais est cruciale.
Expérience client : Offrir des expériences clients personnalisées et engageantes est une priorité absolue pour les détaillants. Cela inclut des résultats de recherche précis, des recommandations personnalisées, un marketing ciblé et la création de mises en page adaptées aux préférences individuelles.

Applications du LLM dans le commerce de détail

Optimisation des opérations : Les LLM peuvent analyser de grandes quantités de données afin d'optimiser la gestion des stocks, la prévision de la demande et les opérations de la chaîne d'approvisionnement. En tirant parti des LLM, les détaillants peuvent améliorer leurs processus de prise de décision, améliorer leur efficacité opérationnelle et réduire leurs coûts.
Recommandations personnalisées : Les LLM excellent dans la compréhension des préférences des clients et des similitudes entre les produits. En utilisant l'intégration des clients et des produits, les LLM peuvent générer des recommandations hautement personnalisées, permettant aux détaillants de proposer des suggestions de produits ciblées et d'améliorer leurs ventes.
Capacités de recherche améliorées : Les LLM peuvent transformer l'expérience de recherche dans le commerce de détail. Au lieu de s'appuyer uniquement sur des recherches par mots clés, les chatbots conversationnels alimentés par des LLM peuvent engager des dialogues en langage naturel, comprendre le contexte et l'intention afin de fournir des résultats de recherche plus précis et pertinents.
Service client intelligent : Les LLM ont le potentiel de révolutionner le service client dans le secteur de la vente au détail. À mesure que la technologie LLM progresse, les chatbots intelligents seront en mesure d'engager des dialogues constructifs, d'aider les clients à trouver les bons produits, de fournir des conseils sur les prix, de proposer une assistance d'achat personnalisée et de traiter efficacement les demandes de retour.
Possibilités futures : Grâce à de nouvelles avancées, les LLM ont le potentiel de devenir des assistants d'achat hautement intelligents, capables de comprendre les préférences individuelles, l'historique des achats et de suggérer des produits pertinents en fonction des besoins personnalisés. Cela peut créer une expérience d'achat plus fluide et intuitive pour les clients

L'apprentissage par renforcement

L'apprentissage par renforcement (RL) est un domaine avancé de l'apprentissage automatique dans lequel les agents apprennent par essais et erreurs.

Dans RL, un agent interagit avec un environnement, tel qu'une voiture autonome parcourant des routes pleines d'obstacles et de circulation. L'agent observe l'état actuel de l'environnement et sélectionne des actions pour maximiser les récompenses cumulées au fil du temps.

Les récompenses sont des valeurs numériques qui reflètent la qualité des décisions prises par un agent, en tenant compte de facteurs tels que l'efficacité et la sécurité. En accumulant des récompenses, les agents RL apprennent à naviguer efficacement.

Le RL intègre la stochasticité pour gérer les incertitudes de l'environnement, permettant ainsi aux agents de prendre des décisions optimales malgré des circonstances imprévisibles.

RL trouve des applications dans les domaines de la finance, de la vente au détail, de la robotique et des véhicules autonomes. Il a également contribué à améliorer les modèles de langage tels que ChatGPT, à améliorer leurs performances et à générer des réponses plus précises. Comprendre les fondamentaux de RL nous permet d'apprécier son potentiel pour résoudre des problèmes de prise de décision complexes et faire progresser les capacités de l'IA

Vous recevez des récompenses et des punitions pour vos actions en fonction des récompenses que vous obtenez. C'est ainsi que les humains apprennent, c'est pourquoi j'ai trouvé ce domaine très intéressant.
- Ashwin

📌

importance de la récompense négative dans RL :
Les récompenses négatives dans le cadre de l'apprentissage par renforcement (RL) sont cruciales pour façonner le comportement des agents et promouvoir les résultats souhaitables. Au lieu de se fier à des jugements humains, la meilleure approche consiste à concevoir des systèmes où les récompenses sont organiques et basées sur des résultats réels. Par exemple, dans le contexte de la conduite, des récompenses négatives peuvent être associées à des accidents ou à une décélération importante. En se concentrant sur des mesures objectives telles que le gain de temps et le confort, les agents RL peuvent apprendre à prendre des décisions optimales sans avoir besoin d'un étiquetage humain subjectif. Cette approche garantit un apprentissage solide et efficace sans les complexités liées à la diversité des opinions et des jugements.

Applications de l'apprentissage par renforcement dans le domaine de la finance

Gestion de portefeuille : L'apprentissage par renforcement peut être utilisé pour allouer les investissements de manière dynamique en fonction de l'évolution des conditions du marché, optimiser la répartition des fonds entre différents actifs et ajuster les niveaux de risque.
Tarification des produits dérivés : Les techniques d'apprentissage par renforcement peuvent être utilisées pour évaluer et couvrir avec précision les dérivés complexes, tels que les options, contribuant ainsi à une meilleure gestion des risques sur les marchés financiers.
Trading algorithmique : L'apprentissage par renforcement peut faciliter les décisions de trading en temps réel, y compris les stratégies d'exécution optimales pour les transactions en blocs importants et le contrôle de l'écart entre les offres et les demandes pour les teneurs de marché, améliorant ainsi l'efficacité et la rentabilité des transactions.

Ces applications ne représentent qu'un sous-ensemble des cas d'utilisation potentiels de l'apprentissage par renforcement dans le domaine de la finance. À mesure que le domaine continue d'évoluer, de nouvelles opportunités de tirer parti de la RL devraient apparaître, ce qui entraînera une adoption accrue et des avancées dans les processus de prise de décision financière.

Comment RL peut gérer les différents délais d'investissement.

Lorsque l'on considère différents délais pour les investissements dans la finance, le concept de valeur temporelle de l'argent devient crucial. La valeur temporelle de l'argent reconnaît que la valeur de l'argent reçu dans le futur est inférieure à la même somme d'argent reçue dans le présent. Les cadres d'apprentissage par renforcement (RL) en tiennent compte en incorporant un facteur d'actualisation, qui permet d'évaluer les récompenses futures dans le présent.

En finance, le facteur d'actualisation est déterminé sur la base du taux de rendement sans risque. Par exemple, si le taux sans risque est de 4 %, une récompense de 1$ reçue en un an vaudrait environ 0,96$ en valeur actualisée. Ce mécanisme d'actualisation au sein de RL permet de saisir la valeur temporelle de l'argent et l'importance des différents horizons temporels pour les investissements.

Un autre facteur à prendre en compte lors de la maximisation des rendements financiers est le compromis entre le risque et la récompense. Bien que l'optimisation des rendements attendus soit un objectif commun, il expose les investisseurs à différents niveaux d'incertitude et de risque. Chaque individu a sa propre propension au risque et ses préférences en matière d'équilibre entre les avantages potentiels et les risques. Ce compromis entre le rendement et le risque est un aspect clé de la théorie de l'utilité, qui aborde la façon dont les individus évaluent les différents résultats en fonction de leurs préférences en matière de risque.

En finance, la fonction de récompense va au-delà des simples montants en dollars et inclut des rendements ajustés au risque. La définition d'un objectif intégrant des rendements ajustés au risque permet aux investisseurs d'aligner leurs stratégies de placement sur leur tolérance au risque et sur le compromis souhaité entre risque et rendement. La théorie de l'utilité fournit un cadre permettant de comprendre et de quantifier ce compromis, aidant ainsi les investisseurs à prendre des décisions éclairées.

L'exploration de la relation complexe entre les délais, les rendements ajustés au risque et les préférences des investisseurs nécessite une compréhension plus approfondie de la théorie de la finance et de l'utilité, qui peut être approfondie dans des ressources complètes telles que le livre d'Ashwin Rao sur l'apprentissage par renforcement pour la finance.

Utiliser l'apprentissage par renforcement pour améliorer les LLM

L'apprentissage par renforcement (RL) a joué un rôle important dans l'amélioration des modèles linguistiques (LLM) tels que Chat GPT. Bien que le RL ne soit peut-être pas largement reconnu dans le grand public, il s'agit d'une technique cruciale à l'origine des progrès des LLM.

Le voyage vers le développement de Chat GPT a commencé il y a quelques années avec des versions antérieures telles que GPT-2 et GPT-3. Cependant, ces modèles produisaient souvent des réponses absurdes ou non pertinentes, ce qui limitait leur utilisabilité. Mais sur une période relativement courte, des améliorations remarquables ont été observées dans la qualité des réponses générées par des modèles tels que Chat GPT.

La principale avancée a été l'intégration de la RL comme moyen de contrôler les réponses du modèle. Imaginez que vous utilisiez le Chat GPT-4 au quotidien, où après chaque réponse générée, vous auriez la possibilité de fournir des commentaires. Vous pouvez indiquer si la réponse était excellente, utile ou si elle semblait absurde ou non pertinente. Ce feedback agit comme une récompense ou une punition pour le modèle, façonnant ses réponses futures.

Dans le contexte d'une conversation, cette boucle de feedback crée un framework RL. Le modèle reçoit la récompense ou la punition en fonction de la façon dont les utilisateurs réagissent à ses réponses. Cette interaction continue permet au modèle d'apprendre et de s'améliorer au fil du temps. Le cadre RL capture la nature séquentielle des conversations, les transitions d'état se produisant au fur et à mesure que le dialogue progresse.

Grâce à ce framework RL, Chat GPT apprend à comprendre ce qui constitue une réponse sensée par rapport à une réponse absurde. Cela permet également de résoudre le problème des hallucinations, où le modèle génère des résultats qui peuvent être incorrects ou fabriqués. En recevant des commentaires sur ces cas d'hallucination, le modèle peut apprendre à les contrôler et à les minimiser.

La RL pour les LLM peut donc être considérée comme une méthode de contrôle des hallucinations, garantissant un équilibre entre la génération de réponses créatives et cohérentes sans aller trop loin dans le domaine des résultats absurdes. En tirant parti des techniques RL, les LLM comme Chat GPT peuvent améliorer continuellement leurs performances et améliorer l'expérience utilisateur globale.

L'intégration du RL dans les LLM représente une orientation importante pour les développements futurs en matière de traitement et de compréhension du langage. Il permet aux modèles d'adapter et d'affiner leurs réponses en fonction des commentaires des utilisateurs en temps réel, ce qui permet des interactions plus précises, pertinentes et contextuelles.

Garantir des réponses sûres, impartiales et de haute qualité dans les LLM

Approches visant à garantir des réponses sûres, impartiales et de haute qualité dans les LLM :

Intégrer le feedback humain : Les évaluateurs humains peuvent identifier et fournir des informations sur les situations dans lesquelles les réponses LLM peuvent être dangereuses ou nocives. Ce feedback permet d'entraîner le modèle à reconnaître et à éviter de tels cas.
Définition des limites éthiques : Les entreprises technologiques peuvent établir des limites ou des limites prédéfinies pour certains domaines tels que la morale, l'éthique et les comportements prédéfinis. Ces limites sont codées en dur et ne peuvent être modifiées par le biais de la formation RL, garantissant un comportement cohérent conforme aux normes éthiques.
Modélisation formelle et systématique : Pour garantir des réponses sûres, impartiales et de haute qualité, il faut adopter une approche plus formelle pour modéliser et façonner le comportement des LLM. Cela implique des processus systématiques pour remédier aux biais, aux problèmes de sécurité, à l'exactitude et à la qualité des réponses, au-delà de la simple fourniture de récompenses.
Surveillance continue : La surveillance continue du comportement des LLM est cruciale pour détecter et résoudre tout problème potentiel. Des évaluations et des analyses régulières permettent d'identifier les domaines dans lesquels des améliorations peuvent être apportées pour améliorer la sécurité et la qualité des réponses.
Trouver un équilibre : Le processus de formation doit trouver un équilibre entre flexibilité et respect des normes de sécurité et de qualité. Cela implique un examen attentif des compromis et un affinement constant pour optimiser le comportement du modèle.
Recherche et amélioration : La recherche continue et l'amélioration des techniques de formation sont essentielles pour améliorer la robustesse et la fiabilité des LLM. Il s'agit notamment de rester vigilant face à l'exploitation potentielle par de mauvais acteurs et de relever de manière proactive les défis émergents.

Lisez nos précédents articles de la série True ML Talks :

‍

True ML Talks #13 - Machine Learning Platform @ Cookpad

In this blog, we dive deep into Cookpad’s Machine Learning Platform, and Nvidia Triton. Understand Cookpad’s ML architecture, how ML is used at Cookpad.

TrueFoundry Blog TrueFoundry

Continuez à regarder le TrueML série youtube et en lisant le TrueML série de blogs.

True Foundry est un PaaS de déploiement de machine learning sur Kubernetes destiné à accélérer les flux de travail des développeurs tout en leur offrant une flexibilité totale dans les tests et le déploiement de modèles, tout en garantissant une sécurité et un contrôle complets à l'équipe Infra. Grâce à notre plateforme, nous permettons aux équipes de machine learning de déployer et surveiller des modèles en 15 minutes avec une fiabilité à 100 %, une évolutivité et la possibilité de revenir en arrière en quelques secondes, ce qui leur permet de réduire les coûts et de mettre les modèles en production plus rapidement, ce qui permet de réaliser une véritable valeur commerciale.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant