True ML Talks #5 - Plateforme d'apprentissage automatique @ Simpl

Mis à jour : April 13, 2023

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Nous sommes de retour avec un autre épisode de True ML Talks. Dans ce cadre, nous approfondissons Les simples ML Platform, et nous discutons avec Sheekha.

Sheekha est directrice de la science des données chez Simpl. Simpl est en train de créer le premier réseau de paiement par pression en Inde, où l'entreprise fournit aux commerçants un ensemble complet de produits, allant de BNPL pour les aider à payer en plusieurs fois à de nombreux autres services à valeur ajoutée. Ils travaillent avec plus de 26 000 commerçants à travers l'Inde, notamment JIO Platforms, qui est le plus grand réseau de télécommunications ; Zomato, qui est l'un des plus grands services de livraison de nourriture du pays, et bien d'autres encore.

📌

Nos conversations avec Sheekha porteront sur les aspects suivants :
- Cas d'utilisation du ML dans Simpl
- Présentation de l'infrastructure Simple ML
- Gestion des coûts liés à la formation ML
- Gestion séparée des pipelines de formation et d'inférence
- Automatisation des modèles de retraining ML
- Simpl's Incursion dans la construction en interne
- Considérations relatives aux systèmes en temps réel et aux modèles de science des données
- Rendre le déploiement du machine learning aussi simple que le déploiement de logiciels
- Inculquer les principes d'ingénierie à la science des données

Regardez l'épisode complet ci-dessous :

Cas d'utilisation du ML @Simpl

Prévention des fraudes et évaluation des risques : Le système ML de Simpl analyse chaque transaction et utilise des règles simples, des filtres, des modèles d'apprentissage automatique et des systèmes de réseaux neuronaux pour identifier les transactions à haut risque telles que les cas de prise de contrôle de compte, le vol d'identité ou toute autre activité suspecte. Le système peut empêcher les transactions frauduleuses, qui peuvent entraîner des pertes d'argent et l'incapacité de servir de bons clients.
Souscription : Le système ML de Simpl aide l'entreprise à prendre des décisions de souscription en analysant les données d'intégration fournies par les utilisateurs. Le système détermine le montant de crédit auquel un utilisateur peut prétendre et quelle devrait être sa limite de dépenses. Les équipes de Simpl sont impliquées dans le processus de souscription et s'orientent vers des pipelines et des systèmes plus en temps réel.
Assistance à la clientèle : Le système ML de Simpl aide l'entreprise à travailler avec les clients qui ont du mal à payer à temps. Le système peut rappeler aux clients les paiements à venir ou proposer des plans de paiement alternatifs qui conviennent aux deux parties. Les équipes de Simpl travaillent avec les clients pour trouver la meilleure voie à suivre, garantissant ainsi une expérience client positive.

Nous avons trouvé cette couverture d'actualité intéressante sur la façon dont Simpl utilise le ML pour détecter les fraudes :

‍

How Simpl is leveraging AI & ML to enhance fraud detection - Express Computer

With more than 20,000 merchant partners and 25 million users across India, Simpl is focused on ensuring seamless and safe transactions between users and merchants. Sheekha Verma, Director, Data Science, Simpl shares about the company’s robust anti-fraud infrastructure, including building data scienc…

Express Computer Sudipta Dev

‍

L'équipe de science des données chez Simpl

L'équipe de science des données de Simpl est composée de 28 scientifiques des données et de 16 ingénieurs des données. L'équipe est au cœur de Simpl, au même titre que d'autres équipes d'ingénierie, et elle dispose d'une équipe DevOps distincte. L'équipe travaille sur le machine learning, les systèmes de réseaux neuronaux, les règles, les bases de données graphiques et les modèles d'apprentissage automatique graphique afin d'examiner les communautés d'utilisateurs frauduleux.

L'infrastructure technologique et le flux de travail de l'équipe de science des données de Simpl

Du point de vue de la pile technologique actuelle, l'entreprise dispose de tout sur le cloud, sans aucun système sur site.

L'équipe de science des données de Simpl utilise une machine distante avec un bloc-notes Python et des bibliothèques créées par l'équipe d'ingénierie des données pour se connecter à des bases de données et effectuer une analyse exploratoire des données (EDA). Une fois l'analyse des données terminée, l'équipe met en place un pipeline avec l'aide de l'équipe d'ingénierie des données pour déployer le modèle. Pour les modèles par lots, l'équipe utilise Airflow pour la planification.

La surveillance des modèles est effectuée à l'aide des tableaux de bord de Simpl pour suivre les changements de sortie. En termes de MLOps, Simpl investit actuellement dans la région. Pour les systèmes antifraude, la société dispose d'un modèle qui utilise des systèmes par lots pour analyser des adresses e-mail et des numéros de téléphone similaires. L'équipe dispose également de certains outils qui fonctionnent en temps réel pour surveiller les transactions en fonction de la rapidité de la transaction et du montant de la transaction.

Simpl a également déployé un modèle de réseau neuronal pour la surveillance des transactions. Le modèle combine la charge utile actuelle avec les données historiques de l'année dernière et les intègre au modèle de réseau neuronal pour décider d'autoriser ou de refuser la transaction. L'équipe d'ingénierie des données a créé un pipeline Flink pour gérer les pics de trafic et garantir un faible SLA de 70 à 80 millisecondes.

📌

Boutique de fonctionnalités :
Un magasin de fonctionnalités est un référentiel centralisé permettant de stocker et de gérer des fonctionnalités, qui sont des propriétés ou des caractéristiques mesurables individuelles de données utilisées pour entraîner des modèles d'apprentissage automatique.

Simple utilise actuellement DynamoDB en tant que magasin de fonctionnalités pour une disponibilité en temps réel. Cependant, cela coûte cher et des efforts sont déployés pour créer un magasin de fonctionnalités interne afin de réduire les coûts à long terme.

Nous avons trouvé ce blog intéressant sur l'évolution de la science des données chez Simpl :

‍

‍Journey of Data Sciences Lab @ Simpl

When we started in 2015, from our tiny office in Juhu (Mumbai), we pretty much had single person teams. We were seven people strong

Simpl - Under The Hood Raj Vardhan

‍

Gestion des coûts des modèles de machine learning : défis et solutions

La gestion des coûts associés à la mise en œuvre et à la mise à l'échelle des modèles d'apprentissage automatique (ML) constitue un défi majeur. Cela est particulièrement important pour les modèles qui nécessitent d'importantes quantités de données et utilisent des ressources coûteuses telles que les pipelines Flink et les machines virtuelles.

L'équipe ML traite des téraoctets de données, ce qui nécessite l'utilisation de machines virtuelles pour les tâches de formation. Il est essentiel de trouver un équilibre entre les coûts et les avantages des modèles.
Pour réduire les coûts, l'équipe collabore avec les équipes DevOps et d'ingénierie des données pour explorer des options rentables. Ils ont également travaillé à la création d'un magasin de fonctionnalités interne afin de réduire les coûts liés à l'utilisation de DynamoDB. Une autre mesure d'économie qu'ils utilisent est l'utilisation d'instances sur place pour les tâches non critiques.

Cependant, la gestion des coûts est un processus continu qui nécessite une évaluation continue de la rentabilité du modèle. Des facteurs tels que l'équilibre entre précision et rappel et le coût des bons utilisateurs entrent également en ligne de compte lors du choix de la meilleure mesure d'économie.

📌

Interaction entre le ML et l'équipe DevOps :
La collaboration entre les équipes DevOps et de science des données est nécessaire pour fournir des machines virtuelles pour les projets d'apprentissage automatique, et le délai de livraison est généralement d'au moins trois jours. L'équipe DevOps reçoit de multiples demandes, y compris celles de l'équipe de science des données, qui nécessitent une prise en compte des coûts et une collaboration avec l'équipe d'ingénierie des données pour y répondre. En cas de demande urgente, l'équipe DevOps peut accélérer le processus de provisionnement sans tenir compte des implications financières. L'équipe de science des données tient compte du décalage de trois jours dans le plan de déploiement du projet.

Gérer séparément les pipelines de formation et d'inférence : avantages et inconvénients

La gestion séparée des pipelines de formation et d'inférence peut entraîner toute une série de problèmes susceptibles d'affecter l'efficacité globale du système. Cela s'explique principalement par le fait qu'il peut être difficile de suivre l'origine des modèles, de conserver les codes et de reproduire les résultats. Cela peut également entraîner des erreurs humaines et une multiplication des problèmes, en particulier dans les entreprises en démarrage.

D'autre part, la gestion séparée de ces pipelines peut apporter une plus grande flexibilité et un meilleur contrôle du système, ce qui vous permet d'optimiser chaque processus indépendamment. Il peut également vous permettre de faire évoluer le système plus facilement en ajoutant de nouvelles ressources aux pipelines de formation ou d'inférence, selon les besoins.

Cependant, idéalement, vous devriez fusionner ces pipelines et intégrer la reconversion dans le même processus. Vous pouvez ainsi éviter les problèmes liés à la gestion séparée de ces pipelines. Vous serez toujours en mesure de conserver la flexibilité et le contrôle qui accompagnent leur gestion indépendante. Dans l'ensemble, la décision de gérer ces pipelines séparément ou ensemble dépend des besoins spécifiques de votre organisation et des ressources dont vous disposez.

L'importance de l'automatisation dans la reconversion des modèles de machine learning

Le recyclage des modèles de machine learning est un élément crucial pour maintenir leur précision et leur pertinence. Cependant, la reconversion manuelle peut prendre beaucoup de temps et être source d'erreurs. C'est pourquoi l'automatisation joue un rôle essentiel pour garantir l'efficacité, la fiabilité et l'évolutivité du processus.

L'automatisation de la reconversion peut aider les organisations à définir des intervalles spécifiques pour déclencher la reconversion, en veillant à ce que les modèles soient mis à jour régulièrement. Cela peut également permettre d'économiser du temps et des ressources, car l'automatisation élimine la nécessité d'une intervention manuelle.

Cependant, l'automatisation de la reconversion pour les modèles complexes nécessitant du matériel ou des logiciels spécialisés peut présenter des défis. Dans de tels cas, une formation manuelle peut être nécessaire jusqu'à ce qu'une solution automatisée puisse être mise en œuvre.

L'incursion de Simpl dans la construction en interne

Difficultés liées à l'utilisation de SageMaker pour les projets d'apprentissage automatique

L'utilisation de SageMaker a changé la donne pour les équipes de data science lorsqu'il s'agit de gérer de grands ensembles de données pour des projets d'apprentissage automatique. Cependant, la plateforme présente encore certains défis qui peuvent avoir un impact sur la productivité de l'équipe.

Allocation des ressources : Lorsque plusieurs personnes se connectent à SageMaker en même temps, le chargement d'un fichier ou d'un modèle volumineux peut provoquer le blocage du système pour tout le monde. Cela affecte non seulement la personne à l'origine de la demande, mais tous les autres. Cela met en évidence la nécessité de disposer d'un système capable de gérer ces problèmes du côté de l'équipe.
Coût de fonctionnement du GPU : Le coût d'exécution des instances GPU pour les modèles de réseaux neuronaux, qui sont essentiels au traitement de grandes quantités de données, peut être très élevé, et l'équipe doit faire preuve de prudence lorsqu'elle les utilise. Pour réduire les coûts, ils ont mis en place un système qui arrête l'ordinateur portable s'il est inactif pendant un certain temps. Cependant, ils espèrent passer à un système plus automatisé qui évolue vers le haut et vers le bas en fonction de l'utilisation.

Bien que SageMaker ait été une plateforme utile pour l'équipe, il existe encore d'autres options, comme Kubernetes, qu'ils n'ont pas encore essayées. Cependant, la décision d'utiliser SageMaker a été principalement motivée par la nécessité de disposer d'un système plus rapide capable de gérer de grandes quantités de données.

Projets visant à créer une meilleure version de SageMaker

L'entreprise prévoit de créer une version améliorée de SageMaker, sa propre plateforme d'apprentissage automatique. Initialement une expérience de R&D, le projet bénéficie désormais d'une équipe plus importante capable de développer en interne. Bien que leur système virtuel possédait certaines fonctionnalités de SageMaker, il ne disposait pas d'informatique distribuée. L'ajout de l'informatique distribuée à leur machine virtuelle actuelle via l'intégration de la console Py fournira la solution requise.

Pour la gestion du contrôle d'accès des utilisateurs et l'accessibilité des données, l'entreprise a créé différents rôles IAM et attribué un compte enfant à son équipe chargée des données pour la gestion des coûts. Cependant, ils ont encore besoin de travaux supplémentaires, notamment compte tenu des données sensibles qu'ils traitent en tant que société FinTech et des audits réguliers réalisés par la RBI.

Bien qu'elle puisse utiliser une plateforme externe, l'entreprise a choisi de développer sa version de SageMaker en interne. Leur décision est stratégique et ne repose pas sur des contraintes liées à l'accessibilité des données ou au coût. En ayant un meilleur contrôle sur la plateforme, ils peuvent évoluer et se développer plus efficacement. L'entreprise a déjà utilisé l'informatique distribuée dans certains systèmes via DAS.

À mesure que nous évoluons et que l'équipe s'agrandit, si vous pouvez le faire en interne, pourquoi ne pas le faire ?
- Sheekha

Considérations relatives aux systèmes en temps réel et aux modèles de science des données

Pour les systèmes en temps réel, des SLA stricts doivent être respectés et la répartition de la charge peut ne pas être uniforme, avec des heures de pointe spécifiques où la charge de travail peut être élevée.
Lors du déploiement d'un système en temps réel, il est essentiel de prendre en compte la latence et l'équilibrage de charge.
Les modèles de science des données doivent être créés pour avoir un impact réel sur l'entreprise, et non par souci de « fantaisie ».
Les métriques sont utilisées pour mesurer l'impact d'un modèle, par exemple le nombre de fraudes qu'il peut empêcher et le nombre de bons utilisateurs qu'il peut avoir un impact.
L'équipe responsable des risques et le directeur financier décident du point avec lequel ils sont à l'aise en termes de coûts et d'impact commercial.
Les coûts principaux, tels que la quantité d'écritures et de lectures de DynamoDB, doivent être pris en compte et liés aux indicateurs commerciaux du modèle afin de garantir qu'ils correspondent à l'impact souhaité.

Rendre le déploiement du machine learning aussi simple que le logiciel : améliorer la productivité des développeurs

Le développement de modèles de machine learning est devenu plus facile avec des bibliothèques telles que Scikit-learn, mais le temps nécessaire pour démarrer un projet et le mettre en service est encore long, en particulier pour les petites entreprises dépourvues de pipelines et de systèmes MLOps. La configuration des pipelines, le nettoyage des données, la validation des tests et le déploiement de modèles peuvent prendre de deux à trois mois. De plus, il est difficile de trouver des bogues dans un modèle car le processus n'est pas standardisé. Les entreprises ont donc besoin de systèmes qui rendent le développement de modèles aussi fluide que le développement de logiciels pour améliorer la productivité des développeurs. Le système doit permettre une flexibilité, une intégration facile et s'appuyer sur le système existant. Il devrait également être standardisé pour la détection des bogues, la surveillance des données entrantes et sorteuses et les boucles de rétroaction.

L'importance d'intégrer les principes d'ingénierie à la science des données

Dans le domaine de la science des données, l'accent est de plus en plus mis sur la nécessité pour les scientifiques des données de posséder des compétences en ingénierie pour garantir le déploiement réussi et efficace des modèles de machine learning.

Les data scientists doivent posséder des compétences en ingénierie pour garantir un déploiement efficace des modèles de machine learning. Les bonnes pratiques de codage doivent être inculquées aux data scientists afin d'identifier les bogues susceptibles d'affecter le SLA du modèle.
L'engouement des data scientists pour certains outils, tels que Pandas, peut entraîner un ralentissement des performances lorsqu'ils sont déployés en temps réel. Les data scientists doivent connaître les outils les plus efficaces et leur utilisation pour garantir le déploiement efficace des modèles de machine learning.

Vous voudriez que nos data scientists déploient tout, y compris les filtres.
- Sheekha

Réflexions supplémentaires de Sheekha

MLOps : créer ou acheter

Personnalisation : une personnalisation poussée peut nécessiter de créer à partir de zéro au lieu d'adopter une plateforme de machine learning tierce.
Sensibilité des données : une gestion stricte du contrôle d'accès des utilisateurs est cruciale pour les entreprises qui traitent des données sensibles et peut nécessiter un système interne qui peut être personnalisé pour répondre à des exigences de sécurité spécifiques.
Prise en compte des coûts : la création d'un système MLOps interne peut être plus rentable pour les petites entreprises, mais celles-ci pourraient éventuellement investir dans des plateformes tierces pour un meilleur retour sur investissement à mesure que le marché mûrit.

LLMS

Sheekha a exprimé son intérêt pour les grands modèles linguistiques (LLM) et les nouveaux développements qui les entourent, mais pour le moment, ils ne les utilisent pas dans leurs travaux. Elle a toutefois reconnu qu'ils exploraient des cas d'utilisation intéressants pour les LLM, en particulier en ce qui concerne l'intégration de leur chatbot.

Je prévois certainement de nombreux cas d'utilisation intéressants pour les LLM
- Sheekha

Lisez nos précédents articles de la série TrueML

‍

True ML Talks #4 - Machine Learning Platform @ Salesforce

In this blog, we dive deep into Salesforce’s ML Platform. Understand how it solved both Software and ML deployment & understand its architecture

TrueFoundry Blog TrueFoundry

‍

Continuez à regarder le TrueML série youtube et en lisant tout le TrueML série de blogs.

True Foundry est un PaaS de déploiement de machine learning sur Kubernetes destiné à accélérer les flux de travail des développeurs tout en leur offrant une flexibilité totale dans les tests et le déploiement de modèles, tout en garantissant une sécurité et un contrôle complets à l'équipe Infra. Grâce à notre plateforme, nous permettons aux équipes de machine learning de déployer et surveiller des modèles en 15 minutes avec une fiabilité à 100 %, une évolutivité et la possibilité de revenir en arrière en quelques secondes, ce qui leur permet de réduire les coûts et de mettre les modèles en production plus rapidement, ce qui permet de réaliser une véritable valeur commerciale.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant