TrueML Talks #25 - GenAI et LLMops pour GTM (Go-To-Market) @ Twilio

Mis à jour : December 21, 2023

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Nous sommes de retour avec un autre épisode de True ML Talks. Dans ce cadre, nous approfondissons à nouveau les applications MLOps et LLMS chez GitLab et nous discutons avec Pruthvi Shetty.

Pruthvi est data scientist au sein du personnel de Twilio. Auparavant, il dirigeait également le ML pour SAP ainsi que la start-up ZapLabs, rachetée par Anywhere RE. Dans Twilio, Pruthvi dirige les efforts de génération en matière d'IA pour Twilio, et nous allons nous y intéresser en profondeur aujourd'hui.

📌

Nos conversations avec Pruthvi porteront sur les aspects suivants :
- Applications ML et GenAI et cas d'utilisation autour de GTM
- XGPT : le moteur de Twilio pour les équipes de commercialisation
- Combattre les limites de débit d'OpenAI
- Expérimenter avec Open-Source LLM
- RFP Genie : automatisation des réponses aux appels d'offres
- Flux de travail pour les modèles ML traditionnels

Regardez l'épisode complet ci-dessous :

Tirer parti de l'IA pour les équipes chargées de la commercialisation

Twilio exploite depuis longtemps l'apprentissage automatique (ML) et la science des données pour optimiser ses produits et services. Cependant, les récents progrès de l'IA générative (GenAI) ont ouvert de nouvelles opportunités pour améliorer encore le mode de fonctionnement des équipes GTM.

ML traditionnel pour GTM

Bien que GenAI soit un outil puissant, Twilio n'a pas abandonné ses racines traditionnelles en matière de machine learning. L'entreprise continue d'utiliser le ML pour diverses tâches GTM, telles que :

Modèles de propension : Prédisez la probabilité qu'un client devienne un utilisateur payant.
Modèles de ventes croisées : Recommandez des produits supplémentaires aux clients existants en fonction de leurs données d'utilisation.
Modèles de vente incitative : Recommandez des mises à niveau vers des niveaux de service supérieurs aux clients existants en fonction de leurs données d'utilisation.
Modèles de génération de prospects : Identifiez de nouveaux clients potentiels susceptibles d'être intéressés par les produits Twilio.

GenAI pour GTM

Twilio a reconnu très tôt le potentiel de GenAI et a mis en place une équipe dédiée pour explorer ses applications. Cette équipe a créé une suite d'outils alimentés par GENAI spécifiquement pour les équipes GTM, notamment :

XGPT : Cet outil polyvalent permet aux équipes GTM de générer du contenu de sensibilisation personnalisé, tel que des e-mails, ce qui permet de gagner beaucoup de temps et d'efforts. Elle répond également aux demandes des clients, en traitant un nombre remarquable de 15 000 questions par mois, démontrant ainsi sa capacité à gérer de grands volumes d'interactions.
FlexGPT et SegGPT : Adaptés à des produits spécifiques, ces modèles d'IA génèrent une documentation complète et précise pour Flex et Segment, garantissant ainsi aux utilisateurs des informations facilement accessibles.
RFP Genie : Cet outil transformateur s'attaque à la tâche fastidieuse de répondre aux questions des appels d'offres. En traitant les demandes avec une précision de 90 %, il réduit le temps de traitement de plusieurs semaines à quelques minutes, libérant ainsi de précieuses ressources pour les équipes GTM.

XGPT : le moteur de Twilio pour les équipes de commercialisation

Twilio a reconnu très tôt le potentiel de l'IA générative (GenAI) et a constitué une équipe dédiée pour explorer ses applications. Cette équipe, dirigée par Pruthvi, a créé une suite d'outils alimentés par GENAI spécialement pour les équipes GTM. L'un des outils clés qu'ils ont créés est XGPT.

XGPT a été développé en réponse à deux problèmes liés à l'utilisation de modèles GenAI accessibles au public tels que ChatGPT :

Sécurité et confidentialité : Les modèles publics s'entraînent à partir de données partagées publiquement, ce qui soulève des problèmes de sécurité et de confidentialité pour les informations internes de Twilio.
Personnalisation limitée : Les modèles publics ne peuvent pas intégrer les connaissances internes spécifiques de Twilio, telles que les informations sur la sortie des produits, les ventes et le positionnement des concurrents.

Le XGPT a abordé ces problèmes en :

Exploiter les données de Twilio : Formé sur des informations internes telles que les lancements de produits, les ventes et l'analyse de la concurrence, XGPT fournit des informations pertinentes pour des rôles et des situations spécifiques.
Garantir la confidentialité des données : XGPT utilise l'API privée de Twilio, garantissant ainsi la sécurité des données et leur indisponibilité pour les formations externes.

Nous l'avons depuis environ 4 à 5 mois maintenant. Actuellement, nous répondons à environ 15 000 questions par mois, et nous avons constaté une très bonne augmentation du nombre d'utilisateurs expérimentés de nos applications. C'était XGPT jusqu'à présent.
- Pruthvi

Fonctionnalité et impact de XGPT

XGPT est une plateforme sécurisée et personnalisable qui :

Répond aux questions: Il fournit des réponses aux questions des utilisateurs sur la base d'une vaste base de connaissances des documents internes et externes de Twilio.
Génère du contenu: Il aide les utilisateurs à créer du contenu de sensibilisation et des e-mails personnalisés en fonction des conversations avec les clients.
Améliore l'efficacité du GTM: Il fournit aux équipes de GTM des informations facilement accessibles sur les produits, les concurrents et les stratégies de vente de Twilio, ce qui permet d'augmenter la productivité et d'améliorer l'expérience client.

Architecture technique de XGPT

XGPT n'est pas qu'un modèle, mais une suite de produits, chacun étant adapté à des rôles et à des besoins spécifiques en matière de GTM. Ces produits incluent FlexGPT pour les représentants du service client et SegGPT pour les tâches de segmentation.

Un pipeline personnalisé de flux RAG rassemble toutes les informations pertinentes pour XGPT, y compris les données publiques et privées. Ces informations proviennent de différentes sources, telles que les systèmes de gestion de contenu, les documents internes, les transcriptions des appels, les notes Salesforce et la documentation des produits.

Les intégrations hors ligne sont utilisées pour FlexGPT et d'autres applications, créées à l'aide d'outils tels que L'espace et Chroma. Des ajustements personnalisés garantissent l'évolutivité et le contrôle. Outre le texte, XGPT comprend également les données audio et visuelles grâce à des intégrations multimodales. Murmure transcrit les démonstrations de produits, tandis qu'un modèle de vision extrait des informations à partir de graphiques et de diagrammes. Ces intégrations sont ensuite converties en intégrations faciales, ce qui permet à XGPT de les relier à des sources pertinentes dans ses réponses.

Le traitement principal du LLM est géré par API OpenAI. Dans des cas spécifiques, tels que les appels d'offres, Lama est utilisé pour l'interprétation. Les stratégies de parallélisation et de traitement par lots optimisent le traitement et évitent les limites de débit. Une couche d'interprétation filtre et contextualise les questions avant de les transmettre au LLM. XGPT fournit des liens vers la documentation pertinente pour chaque réponse, ce qui vous permet de poursuivre votre exploration.

Héroku héberge les applications, garantissant stabilité et performances. Docker les conteneurs facilitent le déploiement et l'évolutivité. Les données sont stockées en toute sécurité dans Postgres. Airtable suit les questions et les commentaires, améliorant constamment les fonctionnalités de XGPT. CloudWatch surveille les indicateurs pour des performances optimales.

L'avenir du XGPT et du flux RAG

L'équipe travaille constamment à l'amélioration des flux XGPT et RAG. Leur vision de l'avenir inclut :

Flux RAG amélioré : Cela inclut la simplification du processus de création et de gestion des intégrations pour toute la documentation Twilio.
Détection automatique des lacunes dans la documentation : Le XGPT peut aider à identifier les domaines dans lesquels la documentation fait défaut et à suggérer du contenu supplémentaire pour combler les lacunes.
Atténuation des hallucinations : L'équipe explore de nouvelles techniques pour réduire davantage la fréquence des hallucinations dans les réponses au XGPT.

Combattre les limites de débit d'OpenAI : astuces d'ingénierie pour un XGPT parallèle

Le XGPT de Twilio, un outil puissant pour les équipes de mise sur le marché, s'est heurté à un obstacle de taille : les limites de débit d'OpenAI. Répondant aux questions de manière itérative, la version initiale a rapidement atteint ces limites. La rotation des clés d'API offrait une solution temporaire, mais la limite de débit organisationnel d'OpenAI s'est révélée plus difficile.

Pour résoudre ce défi, la première étape de l'équipe a été d'utiliser les meilleures pratiques d'OpenAI pour éviter les limites de débit et paralléliser les appels. Cela a fourni une base solide, mais une optimisation supplémentaire était nécessaire. Les ingénieurs de Twilio ont également mis au point une solution intelligente : regrouper stratégiquement les appels d'API pour passer inaperçus par OpenAI. Cela impliquait de regrouper soigneusement les questions tout en préservant l'expérience utilisateur de l'application. Pour améliorer encore l'efficacité, les ingénieurs ont attribué des poids stratégiques aux différentes tâches. Cela a permis de donner la priorité aux questions critiques tout en permettant le traitement des demandes moins urgentes.

Expérimenter avec Open-Source LLM

Bien que ChatGPT et Llama soient tous deux de puissants modèles de langage, Twilio a choisi Llama pour son application XGPT pour plusieurs raisons principales :

Rentabilité : Llama fonctionne à un coût nettement inférieur à celui de ChatGPT, ce qui en fait un choix plus économique pour une tâche telle que l'interprétation, qui nécessite un raisonnement et des nuances moins complexes.
Adéquation de la tâche : La première étape de XGPT consiste à interpréter les questions des utilisateurs. C'est une tâche pour laquelle Lama est bien placé, car il excelle dans la compréhension et la traduction du sens d'un texte.
Éviter la dépendance à l'égard des fournisseurs : Twilio souhaite éviter de s'appuyer uniquement sur un seul fournisseur pour ses besoins en matière de LLM. En utilisant Llama aux côtés de ChatGPT, ils disposent d'une option de sauvegarde en cas de panne ou de modification des politiques d'OpenAI.

En choisissant Llama pour la première couche d'interprétation, Twilio a obtenu une solution rentable qui répondait aux exigences des tâches tout en diversifiant son utilisation du LLM et en démontrant son engagement envers la communauté open source.

RFP Genie : automatisation des réponses aux appels d'offres

RFP Genie est un autre outil d'IA générative développé par l'équipe interne de Twilio. Il automatise le processus de réponse aux appels d'offres, ce qui peut être une tâche longue et fastidieuse pour les équipes GTM. RFP Genie peut :

Extraire les informations clés : Extrayez automatiquement les informations clés et les exigences des documents d'appel d'offres.
Générez des réponses : Générez des réponses complètes et précises à chaque question de l'appel d'offres, permettant ainsi aux équipes GTM d'économiser d'innombrables heures de travail.
Maintenir la cohérence : Assurez-vous que toutes les réponses sont conformes à l'image de marque et au message de Twilio.

Flux de travail pour les modèles de machine learning traditionnels

Dans l'introduction, nous avons brièvement abordé les modèles de machine learning traditionnels encore utilisés pour GTM dans Twilio, tels que Modèles de propension et de génération de prospects.

Le flux de travail des modèles ML traditionnels s'appuie sur une puissante combinaison d'outils et de technologies :

Stockage des données : Les données des clients sont stockées dans différentes bases de données, notamment Postgres et Airtable, en fonction du modèle.
Modèle de formation : Les pipelines SageMaker sont utilisés pour entraîner les modèles de machine learning, garantissant ainsi évolutivité et efficacité.
Pipelines de données et gestion des ordinateurs portables : Abacus fournit une plate-forme conviviale pour gérer les pipelines de données et les blocs-notes, simplifiant ainsi le processus de développement des modèles.
Déploiement : Buildkite s'assure que toutes les exigences de conformité réglementaires sont respectées avant que les modèles ne soient déployés en production.

Lisez nos précédents articles de la série True ML Talks :

^‍

MLOps and LLMs Applications at Gitlab

Dive deep into MLOps practices at Gitlab, how ML and how LLMs is solving various usecases at GItlab both internally and for end to end customers.

TrueFoundry Blog TrueFoundry

Continuez à regarder le TrueML série youtube et en lisant la série de blogs TrueML.

True Foundry est un PaaS de déploiement de machine learning sur Kubernetes destiné à accélérer les flux de travail des développeurs tout en leur offrant une flexibilité totale dans les tests et le déploiement de modèles, tout en garantissant une sécurité et un contrôle complets à l'équipe Infra. Grâce à notre plateforme, nous permettons aux équipes de machine learning de déployer et surveiller des modèles en 15 minutes avec une fiabilité à 100 %, une évolutivité et la possibilité de revenir en arrière en quelques secondes, ce qui leur permet de réduire les coûts et de mettre les modèles en production plus rapidement, ce qui permet de réaliser une véritable valeur commerciale.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant