Évaluation de l'état de préparation à la production et de la dette technique des systèmes ML

Mis à jour : March 18, 2023

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

L'apprentissage automatique (ML) révolutionne divers secteurs et applications, allant de la santé et de la finance aux voitures autonomes et à la détection des fraudes. Cependant, le déploiement de systèmes ML dans des environnements de production est difficile en raison de divers facteurs, tels que la dette technique et le manque de préparation à la production. La dette technique est une préoccupation constante pour ML Systems et fait référence au coût cumulé des décisions de conception, de mise en œuvre et de maintenance prises pour fournir des logiciels plus rapidement, avec la promesse de les rembourser ultérieurement. Toute dette technique qui s'accumule peut entraîner des coûts importants en termes de temps, d'argent et de performances. Le concept de dette technique dans le ML a été proposé pour la première fois dans l'article « Machine Learning : The high-interest credit card of technical debt » de Sculley, Holt et al. en 2014. La préparation à la production fait référence à l'ensemble de pratiques, de processus et de technologies qui garantissent que le système ML est fiable, évolutif, maintenable et sécurisé.

« La dette technique, c'est comme une carte de crédit. C'est facile à accumuler, mais difficile à rentabiliser. « - Chris Granger.

L'évaluation de l'état de préparation à la production et de la dette technique d'un système de machine learning est cruciale pour garantir que le système peut fonctionner de manière efficace et efficiente dans les environnements de production. Dans ce blog, nous allons définir une modification Score de robustesse du système ML, une rubrique pour évaluer l'état de préparation à la production et la dette technique des systèmes de machine learning, avec des informations inspirées de l'article : »Le score du test ML : une rubrique pour la préparation à la production du ML et la réduction de la dette technique» par Eric Breck et coll. Nous explorerons les différents paramètres/catégories qui composent le score de robustesse du système ML que nous formulons et les tests que vous pourriez effectuer dans chaque catégorie.

Score de robustesse du système ML

Le score de robustesse des systèmes ML vise à fournir un cadre d'évaluation complet pour les systèmes ML et à identifier les problèmes potentiels de dette technique. Nous répartissons le score en 6 catégories principales avec 22 sous-catégories, que nous aborderons ci-dessous :

Qualité et préparation des données
Entraînement et performance des modèles
Évaluation et interprétabilité des modèles
Déploiement et surveillance des modèles
Infrastructure et opérations
Sécurité et conformité

Qualité et préparation des données

« Nous n'avons pas de meilleurs algorithmes. Nous avons simplement plus de données. »
- Peter Norvig (informaticien américain)

La citation de Peter Norvig résume bien l'importance des données dans les modèles de machine learning. La qualité des données utilisées pour entraîner et tester le modèle ML a un impact direct sur ses performances, et il est essentiel de s'assurer que les données sont pertinentes, précises et représentatives du domaine problématique. Voici les principales sous-catégories d'évaluation :

Qualité et intégrité des données: Les données sont-elles précises, complètes, suffisantes pour entraîner le modèle et cohérentes ?
Confidentialité et sécurité des données: Les données sont-elles protégées contre l'accès et l'utilisation non autorisés ?
Biais dans les données et équité: Les données sont-elles représentatives et exemptes de biais, c'est-à-dire suffisamment diversifiées pour représenter différents scénarios et cas limites ?

Entraînement et performance des modèles

L'importance de la formation et de la performance des modèles pour atteindre les résultats souhaités ne peut être surestimée. L'évolution constante des modèles de machine learning et la taille croissante des ensembles de données ont entraîné une demande croissante de matériel plus puissant pour les entraîner. L'émergence des grands modèles de langage (LLM) a complètement changé la donne dans le domaine du traitement du langage naturel.

Pour garantir que les modèles continuent de fonctionner correctement, il est essentiel de les former régulièrement à l'aide de nouvelles données et de créer des systèmes prenant en charge différents types de matériel. En adoptant cette approche, les développeurs peuvent s'assurer que les modèles de machine learning qu'ils créent sont à jour, efficaces et capables de gérer des ensembles de données de plus en plus complexes et volumineux. L'évaluation des performances du modèle peut être divisée en plusieurs sous-catégories, dont celles répertoriées ci-dessous :

Métriques de performance des modèles: Les indicateurs de performance sont-ils conformes aux exigences de l'entreprise ?
Sélection et réglage du modèle: Les modèles appropriés ont-ils été sélectionnés et affinés ?
Stabilité et reproductibilité du modèle: Le modèle est-il stable et reproductible dans le temps ?

Évaluation et interprétabilité des modèles

L'évaluation des performances d'un modèle de machine learning par rapport à un ensemble de mesures fait partie intégrante de l'évaluation du modèle qui garantit des prévisions précises. D'autre part, l'interprétabilité du modèle est tout aussi importante car elle permet aux développeurs et aux parties prenantes de comprendre le fonctionnement interne du modèle et de prendre des décisions éclairées sur la base de ses résultats. Un manque d'interprétabilité peut faire en sorte que le modèle soit considéré comme une « boîte noire », ce qui rend difficile la confiance en ses résultats.

Pour évaluer avec précision les performances du modèle, l'organisation doit prendre en compte plusieurs sous-catégories, dont celles répertoriées ci-dessous :

Interprétabilité des modèles: Les résultats du modèle peuvent-ils être facilement compris et expliqués ? Le modèle est-il transparent et équitable ?
Importance et contribution de la fonctionnalité: Les caractéristiques du modèle peuvent-elles être classées en fonction de leur importance et de leur contribution ?
Environnement d'évaluation: Les données d'évaluation représentatives des données de production et de l'environnement sont-elles similaires à l'environnement de production ?
Explications contrefactuelles: Le modèle peut-il fournir des explications pour des scénarios contrefactuels ?

Déploiement et surveillance des modèles

Le déploiement et la surveillance efficaces des modèles peuvent aider les entreprises à obtenir des résultats optimaux aux tests de machine learning et à garantir que leurs modèles continuent à apporter de la valeur au fil du temps. Tenez compte des sous-catégories suivantes :

Infrastructure de déploiement: L'infrastructure de déploiement est-elle évolutive et fiable ?
Tests et expérimentations A/B: Le modèle est-il testé et validé lors d'expériences contrôlées ? Le processus de déploiement du modèle est-il fluide pour éviter tout temps d'arrêt ?
Surveillance et alerte: Y a-t-il une infrastructure d'exploitation forestière en place ? Des mécanismes sont-ils en place pour surveiller les performances du modèle et alerter en cas de problème ?
Mise à jour du modèle: Le système met-il automatiquement à jour les modèles à mesure que de nouvelles données et fonctionnalités sont disponibles ?

Infrastructure et opérations

Nous avons parlé d'infrastructure dans la catégorie formation et performance ; l'infrastructure joue un rôle essentiel non seulement pour garantir que les modèles de machine learning sont entraînés de manière efficace et précise, mais également dans les opérations. Vous trouverez ci-dessous les sous-catégories à prendre en compte :

Allocation et optimisation des ressources: Les ressources sont-elles allouées et optimisées pour maximiser l'efficacité et minimiser les coûts ?
Conteneurisation et orchestration: Les conteneurs et les services sont-ils gérés de manière évolutive et efficace ?
Intégration et déploiement continus: Les modifications apportées à la base de code sont-elles automatiquement testées, créées et déployées ?
Mesure du retour sur investissement: Pourriez-vous mesurer l'impact commercial du modèle ML une fois qu'il sera au service de la production ?

Sécurité, gestion des défaillances et conformité

Il s'agit de la dernière et de l'une des plus importantes catégories, divisée en sous-catégories suivantes :

Contrôle d'accès et autorisation: Des contrôles d'accès et des politiques d'autorisation sont-ils en place pour se protéger contre les accès non autorisés ?
Exigences réglementaires et de conformité: Le système est-il conforme aux réglementations et exigences applicables ?
Gestion des erreurs et restauration: Le système ML peut-il se remettre facilement des pannes et gérer les erreurs dues à la dérive des systèmes ?
Protection et cryptage des données: Les données sensibles sont-elles protégées et cryptées en transit et au repos ?

Calcul du score de robustesse de votre système ML

Pour la notation finale, une entreprise peut utiliser un cadre de notation basé sur une échelle de 0 à 4. Le cadre de notation est conforme au tableau ci-dessous.

ML test score — Le niveau de notation de votre système ML et sa signification

Un score inférieur à 25 signifie que le système ML n'est probablement pas prêt et que de nombreux défis doivent être relevés.
Un score compris entre 25 et 40 indiquerait que le système actuel est adéquat, mais qu'il pourrait commencer à créer des points de défaillance au fur et à mesure de l'échelle.
Un score de l'ordre de 40+ reflète une solution robuste qui fonctionnera au fur et à mesure de l'évolution des systèmes.
Au-delà de 60, cela constituerait la meilleure solution de sa catégorie pour votre entreprise.

Les réponses à ces questions et la réalisation des tests peuvent fournir une évaluation complète de l'état de préparation à la production d'un système de machine learning et identifier les problèmes de dette technique potentiels qui peuvent survenir lors du développement et du déploiement du système ML. En identifiant ces problèmes à un stade précoce, des mesures peuvent être prises pour les atténuer ou les éliminer, réduisant ainsi la dette technique globale du système.

Évaluation de la dette technique similaire à celle des systèmes logiciels

Bien que nous utilisions la rubrique des tests ML comme base pour le cadre de notation ci-dessus, il existe d'autres cadres pour évaluer l'état de préparation des systèmes de ML.

Un ancien cadre est l'approche des tests logiciels des applications d'apprentissage automatique définie par C. Murphy en 2007 qui souligne l'importance des tests et de la validation tout au long du développement et du déploiement de systèmes ML similaires aux systèmes logiciels. Cette approche combine des méthodes de test logicielles traditionnelles, telles que les tests unitaires et les tests d'intégration, avec des méthodes de test ML spécialisées, telles que la validation des modèles et la validation des données.
Un autre cadre récent est proposé dans les niveaux de maturité technologique (TRL) pour les systèmes d'apprentissage automatique proposés par A Lavin et Lee en octobre 2022. Les TRL fournissent un moyen systématique et détaillé d'évaluer la maturité et l'état de préparation des systèmes ML, de la phase de conception à la phase opérationnelle.

Conclusion

En conclusion, l'évaluation de l'état de préparation à la production et de la dette technique des systèmes ML est essentielle pour un déploiement et une maintenance réussis. Le ML Test Score fournit une rubrique complète pour évaluer ces facteurs, couvrant des aspects tels que la qualité des données, les performances du modèle, les pratiques d'évaluation, les opérations et le suivi. Les TRL pour les systèmes d'apprentissage automatique et d'autres cadres peuvent également fournir des évaluations complémentaires de la maturité et de l'état de préparation du système. Une surveillance et une maintenance continues, ainsi que des tests et une validation approfondis, sont essentiels pour minimiser la dette technique et garantir que le système ML reste prêt pour la production.

👉

PS : Obtenez un diagnostic gratuit de votre système de machine learning !
Si vous êtes intéressé par un diagnostic de l'ensemble de votre infrastructure de machine learning, écrivez-nous à founders@truefoundry.com, et nous vous enverrons un questionnaire préalable. Prévoyez 30 minutes pour passer en revue certaines questions qui nous aideront à comprendre le système.

Après cela, nous travaillerons avec vous pour fournir un diagnostic et une analyse comparative gratuits de votre système de machine learning dans un délai d'une semaine.

Références

C. Murphy, G. E. Kaiser et M. Arias, « Une approche des tests logiciels des applications d'apprentissage automatique », dans SEKE. Citeseer, 2007
D. Sculley, G. Holt, D. Golovin, E. Davydov, T. Phillips, D. Ebner, V. Chaudhary et M. Young, « L'apprentissage automatique : la carte de crédit à intérêt élevé de la dette technique », dans SE4ML : Software Engineering for Machine Learning (atelier NIPS 2014), 2014
A Lavin, C Lee et al, « Niveaux de maturité technologique pour les systèmes d'apprentissage automatique », en octobre 2022
Eric Breck, Shanqing Cai, Eric Nielsen, Michael Salib, D. Sculley Google, Inc., « Le score du test de machine learning : une rubrique pour la préparation à la production du machine learning et la réduction de la dette technique », 2017

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant