True ML Talks #8 - Plateforme d'apprentissage automatique @ Intuit

Mis à jour : May 5, 2023

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Nous sommes de retour avec un autre épisode de True ML Talks. Dans ce cadre, nous approfondissons Intuit's ML Platform NumaFlow, et nous discutons avec Vigith Maurice.

Vigith est l'ingénieur principal d'Intuit pour la plateforme d'opérations d'IA. Comme tous ceux qui ont utilisé TurboTax, Credit Karma, Mint, QuickBooks et Mailchimp, Intuit est la plateforme technologique mondiale qui vous aide à retrouver la confiance financière.

📌

Nos conversations avec Vigith porteront sur les aspects suivants :
- Cas d'utilisation du ML dans Intuit
- Approche NUMA pour la détection des anomalies en temps réel
- Informations sur les flux de travail Argo
- Déploiement de modèles ML avec Kubernetes et Numaflow
- Systèmes de reconversion, Numaflow contre Flink
- Mesures de sécurité et de conformité dans l'AIOps chez Intuit
- MLOps contre AIOps
- Bande-annonce de la présentation KubeCon de Vigith

Regardez l'épisode complet ci-dessous :

Cas d'utilisation de ML @ Intuit

Le cas d'utilisation du ML orienté vers les opérations

L'équipe AIOps d'Intuit a un cas d'utilisation différent pour le ML, qui se concentre sur l'aspect opérationnel de l'entreprise. Ce cas d'utilisation vise à détecter et à résoudre rapidement les problèmes de plate-forme, en réduisant le délai moyen de détection et de résolution. Parmi les aspects de ce cas d'utilisation, citons :

Création d'un lac de données opérationnel : L'équipe de Vigith a créé un lac de données opérationnel qui collecte des données en temps réel à partir de chaque couche du système d'exécution, en mettant l'accent sur des mesures purement anonymisées sans PII.
Analyse en temps réel : L'équipe analyse ces données avec une latence inférieure à une minute pour détecter et créer des alertes ou des incidents en fonction de la gravité du problème.
Haut débit et faible latence : L'approche ML utilisée par l'équipe de Vigith est différente de celle du ML traditionnel axé sur le client, car l'entreprise gère une grande échelle de 250 clusters Kubernetes et un milliard d'événements injectés quotidiennement à des fins d'analyse et de traitement.
Prédiction des événements anormaux : Le système de l'équipe suit le principe du maillage de données et schématise l'ensemble du système afin de fournir une approche unifiée pour analyser les données à grande échelle, les aidant à prévoir les événements anormaux liés au CPO des ressources, à la sécurité et à d'autres domaines

Le cas d'utilisation du ML axé sur le client

Chez Intuit, plusieurs cas d'utilisation du machine learning sont axés sur l'amélioration de l'expérience client. Certains de ces cas d'utilisation incluent :

Détection des fraudes : Utilisation d'algorithmes de machine learning pour détecter les activités frauduleuses, telles que le vol d'identité, les fausses factures et les escroqueries par hameçonnage.
Numérisation de documents : Utilisation de modèles de machine learning pour numériser des documents et extraire automatiquement des informations importantes, telles que des reçus, des factures et des formulaires fiscaux.
Prévisions : Utiliser des techniques de machine learning pour prédire les tendances futures, telles que les ventes, la demande et les revenus.
Recherche de documents : Utiliser des algorithmes de machine learning pour améliorer la précision et la pertinence des recherches, permettant ainsi aux clients de trouver plus facilement ce qu'ils recherchent.

‍

‍Intuit’s Radhika Kannan on how the company is leveraging AI to enhance customer experience

As a global technology platform company, Intuit helps customers and communities overcome their most important financial challenges.

Analytics India Magazine Amit Raja Naik

‍

Création d'une plateforme évolutive pour la détection des anomalies en temps réel : une approche NUMA

Les systèmes de détection d'anomalies en temps réel doivent traiter d'énormes quantités de flux de données illimités. Les systèmes d'apprentissage automatique (ML) traditionnels fonctionnent sur un modèle demande-réponse dans lequel la charge utile est traitée pour produire une prédiction. Cependant, un système de détection d'anomalies en temps réel nécessite un pipeline asynchrone basé sur un graphe acyclique dirigé (DAG) capable de gérer différents formats de données et des opérations indépendantes du langage.

Intuit a créé une plateforme évolutive pour la détection des anomalies en temps réel qui utilise une approche NUMA (architecture nouvelle, unique et mature). L'approche NUMA comprend deux parties : Numalogic, un ensemble de modèles qui ont été vérifiés et utilisés quotidiennement, et la plateforme NumaFlow, qui gère les modèles Numalogic.

Le pipeline DAG de la plateforme NumaFlow comprend une source (un flux de données illimité), des sommets (opérations indépendantes de la langue) et un récepteur (sortie du score d'anomalie). Le pipeline comprend une étape de prétraitement pour l'ingénierie des caractéristiques, une étape d'inférence et une étape de post-traitement pour normaliser les scores dans un format lisible par l'homme.

La plate-forme est hautement évolutive et rentable, utilisant des calculs de charge pour déterminer le nombre d'unités de traitement requises. Le système peut augmenter ou diminuer jusqu'à zéro unité de traitement en fonction du volume de données entrantes. La plate-forme est conçue pour gérer les migrations de nœuds et de ports, la mise à l'échelle automatique et les défaillances du système.

Dans l'ensemble, l'approche NUMA et la plateforme NumaFlow fournissent une solution hautement efficiente et efficace pour les systèmes de détection d'anomalies en temps réel.

📌

Architecture permettant de réduire à zéro les systèmes AIOps :
Les systèmes AIOps nécessitent la capacité d'augmenter et de diminuer les ressources en fonction de la quantité de données traitées en temps réel. Pour ce faire, la logique de planification et la logique de traitement des données sont séparées. Cela se fait en déployant un contrôleur Kubernetes personnalisé doté d'un algorithme de dimensionnement automatique intégré. Cet algorithme est capable de comprendre le taux de traitement d'un sommet et le temps nécessaire pour traiter un message et utilise ces informations pour ajuster automatiquement les ressources allouées au système.

L'utilisation d'un contrôleur personnalisé est différente de celle du Kubernetes Horizontal Pod Autoscaler (HPA) natif, qui ne peut pas être réduit à zéro. En utilisant un contrôleur personnalisé, le système AIOps peut être réduit à zéro lorsqu'il ne traite aucune donnée, ce qui permet d'éviter un gaspillage de ressources inutile.

Pour permettre une mise à l'échelle indépendante de chaque sommet, le système utilise un tampon entre deux sommets. Ce tampon permet de garantir que les données sont traitées efficacement et permet de redimensionner chaque sommet indépendamment en fonction de ses besoins spécifiques. Ceci est important car les différents processus d'un système AIOps peuvent avoir des besoins en ressources différents, et leur mise à l'échelle indépendamment permet d'optimiser l'utilisation des ressources.

L'une des fonctionnalités les plus intéressantes est la possibilité de réduire la taille et c'est un must pour nous. - Vigith

Écosystème open source et AIOps : aperçu des flux de travail Argo

Les flux de travail Argo sont devenus un outil populaire pour gérer les flux de travail d'apprentissage automatique, et Intuit a contribué de manière significative à son développement. Le succès d'Argo réside dans sa nature open source, qui permet de recueillir les commentaires et les contributions des utilisateurs du monde entier. En ouvrant le logiciel, les idées et les innovations émanent de la communauté, permettant à Intuit d'améliorer ses solutions en fonction des commentaires des utilisateurs.

Comparé à d'autres orchestrateurs DAG tels qu'Airflow, Argo convient aux tâches de formation mais est axé sur les lots. Les utilisateurs ont demandé un système équivalent capable de gérer les données en streaming. Intuit a répondu en créant Numaflow, un système orienté vers le streaming. Les deux systèmes, Argo et Numaflow, peuvent fusionner pour créer un système d'inférence permanent pour le traitement des données en temps réel. Avec Numaflow, l'entreprise a repensé l'architecture du système Argo afin d'intégrer davantage de fonctionnalités et d'améliorer ses fonctionnalités. L'approche open source s'est révélée bénéfique pour Intuit et l'ensemble de la communauté, car elle permet un effort collaboratif visant à améliorer les flux de travail AIOps.

Vous pouvez en savoir plus sur Argo Workflows ici :

‍

‍Argo Workflows - The workflow engine for Kubernetes

Apache Flink

‍

Déploiement de modèles ML avec Kubernetes et Numaflow

Le déploiement de modèles d'apprentissage automatique (ML) avec Kubernetes et Numaflow peut être une tâche difficile, en particulier si l'on considère la latence et les modèles de trafic qui varient considérablement. Intuit utilise un système de service unique utilisé dans la plateforme opérationnelle d'opérations d'IA. Lorsque des données sont reçues, le processus d'inférence est similaire à celui de toute autre fonction définie par l'utilisateur (UDF), qu'il implique une conversion de protobuf en données ou une inférence. Numaflow fournit un SDK pour différents langages, Python étant le plus complexe à prendre en charge en raison de son comportement à haut débit, qui nécessite un Python multiprocessus et procédural. Pour les autres langues, ce n'est pas un problème.

Pour créer une fonction de gestion, l'utilisateur doit simplement écrire une fonction qui spécifie comment gérer un message fourni par Numaflow. La fonction prend un message et renvoie une carte plate, qui sert respectivement d'entrée et de sortie. La signature de la fonction s'applique à n'importe quel sommet, quelle que soit la tâche.

En ce qui concerne les modèles, ils sont extraits et mis en cache en fonction de l'énoncé du problème. Un message est reçu, traité et renvoyé sous forme d'inférence, qui est poussé au sommet suivant. Selon le cas d'utilisation, le modèle peut être stocké de différentes manières. Pour une architecture fortement décentralisée à haut débit, une clé est utilisée. Pour une architecture centralisée, DynamoDB fait référence à S3. En général, l'objectif est de simplifier le processus pour un ingénieur ML, qui n'a qu'à changer le nom de la classe, le reste étant abstrait.

La plateforme utilise gRPC au lieu de REST et, en fonction de l'énoncé du problème, une combinaison de techniques est utilisée pour gérer le cycle de vie du modèle. MLflow est utilisé pour gérer le cycle de vie lorsque cela est approprié, tandis que d'autres techniques sont utilisées pour une architecture plus décentralisée où MLflow n'est pas une option. La principale chose à retenir pour un ingénieur ML est d'écrire une fonction de gestion qui prend des entrées et des sorties et laisse le système s'occuper du reste.

Vous pouvez en savoir plus sur Numaflow ici :

‍

‍Numaflow - Data/streaming processing platform on Kubernetes

Apache Flink

‍

Systèmes de reconversion, Numaflow contre Flink

Le système de reconversion utilisé par Numaflow varie en fonction du cas d'utilisation. Pour les cas plus complexes avec 20 requêtes par seconde, Numaflow déploie un flux de travail Argo complet comprenant plusieurs étapes pour récupérer les données et mettre à jour le magasin de modèles. Pour les systèmes plus légers, Numaflow utilise une fonction définie par l'utilisateur (UDF) qui exécute une fonction pour obtenir le résultat souhaité.

Différence entre Numaflow et Flink

Vitesse de traitement : Numaflow donne la priorité au découplage de la vitesse de traitement des messages de la latence, tandis que Flink se concentre sur le haut débit avec une faible latence, ce qui le rend mieux adapté au traitement des données à haut débit.
Cette différence de débit est due au fait que Numaflow est conçu pour le calcul intensif des chiffres et les activités intensives en entrée/sortie (E/S), tandis que Flink est mieux adapté au traitement de données à haut débit.
Format de sérialisation des données : Flink utilise son propre format de sérialisation efficace et bien défini, tandis que Numaflow utilise une approche boîte noire qui rend difficile la définition de hashcodes et d'équivalents pour un stockage et une récupération efficaces des messages.

Vous pouvez en savoir plus sur Apache Flink ici :

‍

‍Use Cases

Use Cases # Apache Flink is an excellent choice to develop and run many different types of applications due to its extensive features set. Flink’s features include support for stream and batch processing, sophisticated state management, event-time processing semantics, and exactly-once consistency g…

Apache Flink

‍

Mesures de sécurité et de conformité dans l'AIOps chez Intuit

Intuit a mis en place des mesures de sécurité strictes, notamment des algorithmes de chiffrement au niveau des applications.
Le système AIOps d'Intuit suit une approche de compartimentation étanche, chaque espace de noms étant isolé et chiffré avec TLS pour les données au repos et en transit.
L'équipe AIOps d'Intuit suit les principes de sécurité d'Argo, un projet open source de la CNCF, pour chiffrer les données à toutes les couches, y compris les points de terminaison des métriques.
Le système AIOps pour les données clients d'Intuit est soumis à des contraintes de sécurité encore plus strictes, avec des données bien auditées et bien conservées auxquelles même les utilisateurs ne peuvent pas accéder. Les données opérationnelles sont découplées des données clients pour cette raison, mais les mesures de sécurité sont toujours en place.

MLOps contre AIOps

Les opérations d'apprentissage automatique (MLOps) et les opérations d'intelligence artificielle (IA Ops) sont deux termes souvent utilisés de manière interchangeable, mais ils ont en fait des principes et des processus distincts.
MLOps se concentre principalement sur la gestion du cycle de vie des modèles, tandis que AI Ops est davantage centré sur le domaine opérationnel.

Dans Opérations d'IA, nous utilisons généralement des technologies telles que HyperLogLog et les esquisses basées sur la latence, conçues pour fonctionner avec des données opérationnelles. Ces technologies peuvent présenter des pourcentages d'erreur d'environ 0,89 et permettre des approximations. Nous nous appuyons également sur la signification statistique pour détecter et isoler les problèmes, dans le but de réduire le temps moyen de résolution (MTTR).

En revanche, MLOP exploite différentes technologies telles que ML Flow et d'autres heuristiques pour gérer le cycle de vie d'un modèle. Chez Intuit, ils ont également développé des modèles tels que la gestion future pour optimiser le cycle de vie des modèles. Leur objectif dans MLOps est de gérer l'ensemble du cycle de vie des modèles, de la formation au déploiement, en passant par la surveillance et l'optimisation.

Bande-annonce de la présentation KubeCon de Vigith : opérations d'IA centrées sur le client avec détection des anomalies

La prochaine présentation de Vigith à KubeCon portera sur les opérations d'IA centrées sur le client et la détection des anomalies. L'accent est mis sur les alertes basées sur l'expérience du client plutôt que sur celle du système, ce qui implique de créer des graphiques de dépendance complexes basés sur le traçage des données et l'isolation des anomalies au lieu de simplement les détecter.

La plateforme utilise un ensemble de dimensions et de métriques pour effectuer une détection composite d'anomalies clés sur des données de séries chronologiques, ce qui permet de localiser les anomalies à un niveau très spécifique. L'objectif de ce projet est de fournir une solution généralisée pour la détection des anomalies, en faisant de ce système un système « Do It Yourself Anomaly ».

La présentation de Vigith présentera les capacités de la plateforme et démontrera comment elle a été mise en œuvre avec succès chez Intuit pour les opérations d'IA. Ne manquez pas cette occasion de découvrir les dernières avancées en matière d'opérations d'IA centrées sur le client et de détection des anomalies.

Lisez notre article précédent de la série TrueML

‍

‍True ML Talks #7 - Machine Learning Platform @ Edge

In this blog, we dive deep into Edge’s ML Platform. Understand their ML architecture, how ML is used in the talent acquisition industry.

TrueFoundry Blog TrueFoundry

‍

Continuez à regarder le TrueML série youtube et en lisant le TrueML série de blogs.

True Foundry est un PaaS de déploiement de machine learning sur Kubernetes destiné à accélérer les flux de travail des développeurs tout en leur offrant une flexibilité totale dans les tests et le déploiement de modèles, tout en garantissant une sécurité et un contrôle complets à l'équipe Infra. Grâce à notre plateforme, nous permettons aux équipes de machine learning de déployer et surveiller des modèles en 15 minutes avec une fiabilité à 100 %, une évolutivité et la possibilité de revenir en arrière en quelques secondes, ce qui leur permet de réduire les coûts et de mettre les modèles en production plus rapidement, ce qui permet de réaliser une véritable valeur commerciale.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant