Prochain webinaire : La sécurité d'entreprise pour Claude Code | 21 avril · 11 h PST. Inscrivez-vous ici →

Intégrations d'outils d'apprentissage automatique #3 Label Studio pour tous vos besoins en matière d'étiquetage

Par TrueFoundry

Mis à jour : September 7, 2023

Résumez avec

Dans le blog suivant, nous allons parler de Label Studio et de la manière dont vous pouvez facilement utiliser Label Studio pour l'étiquetage en le déployant sur TrueFoundry

La qualité des données est bien plus importante que la quantité. Il s'agit d'un principe bien établi dans la communauté de l'apprentissage automatique, et il prend de plus en plus d'importance à mesure que la communauté MLOps évolue vers une approche centrée sur les données.

Lors d'une récente conférence, Andrew Ng a cité l'exemple d'un problème de détection de défauts d'acier, où l'approche centrée sur les données a permis d'améliorer la précision du modèle de 16 %, tandis que l'approche centrée sur le modèle n'a pas du tout amélioré la précision.

L'approche centrée sur les données est plus importante que l'approche centrée sur le modèle, en particulier dans les cas où les données sont limitées ou bruyantes - Andrew Ng

Vous pouvez regarder cette conférence d'Andrew Ng concernant l'approche de l'apprentissage automatique centrée sur les données :

MLOps : IA centrée sur les données

En effet, même les meilleurs modèles d'apprentissage automatique sont aussi bons que les données sur lesquelles ils sont entraînés. Si les données sont bruyantes ou incomplètes, le modèle apprendra à faire des erreurs. C'est pourquoi il est si important d'utiliser des données de haute qualité lors de la formation de modèles d'apprentissage automatique.

Même dans le contexte des grands modèles linguistiques (LLM), l'importance de données de haute qualité reste primordiale. L'article intitulé « Formation de grands modèles de langage optimaux pour le calcul » par DeepMind (2022) explore les lois d'échelle pour les LLM, démontrant que la qualité des données l'emporte sur la taille de l'ensemble de données. Les auteurs montrent qu'un modèle entraîné sur seulement 500 lignes de données de haute qualité peut surpasser un modèle entraîné sur un ensemble de données contenant 100 millions de lignes de données de faible qualité.

Vous pouvez lire le document en cliquant sur le lien suivant :

Dans le même ordre d'idées, « WizardLM : un modèle de langage compact, efficace et performant » par Google AI (2022) présente WizardLM, un modèle de langage compact entraîné sur un ensemble de données comprenant seulement 500 000 mots. Remarquablement, WizardLM obtient des résultats de pointe pour diverses tâches de traitement du langage naturel, malgré sa taille nettement inférieure à celle des autres LLM.

Vous pouvez lire le document en cliquant sur le lien suivant :

Qu'est-ce que Label Studio ?

Label Studio est un outil d'étiquetage de données open source basé sur le Web développé par Heartex. Il est conçu pour rationaliser le processus d'annotation des données pour les tâches d'apprentissage automatique. Que vous travailliez sur la classification d'images, la reconnaissance d'entités nommées, l'analyse des sentiments ou toute autre tâche d'étiquetage, Label Studio fournit un environnement flexible et convivial pour étiqueter efficacement vos données.

Principales fonctionnalités de Label Studio

  • Étiquetage multimodal : Label Studio prend en charge les images, le texte, l'audio et la vidéo.
  • Interfaces d'étiquetage personnalisables : Adaptez les interfaces d'étiquetage à votre tâche.
  • Contrôle de la qualité de l'étiquetage : La validation automatique et l'évaluation par les pairs garantissent la qualité des données.
  • Collaboration en équipe : Plusieurs utilisateurs travaillent sur le même projet avec des rôles et des autorisations attribués.
  • Flexibilité d'intégration : Intégrez votre pipeline de données à l'aide d'API et d'options d'exportation.
  • Évolutivité : S'adapte à vos besoins en matière d'étiquetage des données.
  • Source ouverte : Utilisation et modification gratuites.

Le flux de travail d'étiquetage des données de Label Studio

Étape 1 : Importation de données

Le processus d'étiquetage commence par l'importation de vos données brutes et non étiquetées dans Label Studio. Ces données peuvent être des images, du texte, du son, des vidéos ou tout autre format de données en fonction de votre tâche d'étiquetage. Pour notre exemple, considérons une tâche de classification d'images dans laquelle vous souhaitez classer des images d'animaux.

Étape 2 : Création du projet

Une fois vos données importées, vous créez un nouveau projet d'étiquetage dans Label Studio. Dans ce projet, vous définissez la tâche d'étiquetage, sélectionnez la source de données et configurez l'interface d'étiquetage. Vous pouvez personnaliser l'interface en fonction de vos besoins spécifiques, en choisissant parmi différents types d'annotations tels que des cadres de délimitation, des polygones, des points clés, etc.

Pour notre exemple de classification d'images d'animaux, vous devez créer un projet intitulé « Classification des animaux » et le configurer pour afficher des images à des fins d'annotation.

Étape 3 : Annotation

Une fois le projet configuré, vous invitez les annotateurs à commencer à étiqueter les données. Les annotateurs accèdent à la plateforme Label Studio via une interface Web, où des images de votre jeu de données leur sont présentées. Dans notre exemple, les annotateurs verraient des images d'animaux et les classeraient dans des catégories prédéfinies telles que « chien », « chat », « cheval », etc.

Lorsque les annotateurs examinent chaque image, ils utilisent les outils d'étiquetage fournis par Label Studio pour marquer leurs annotations. Pour la classification des images, les annotateurs sélectionnent simplement la catégorie appropriée dans la liste prédéfinie.

Étape 4 : Contrôle de qualité

Pour maintenir la précision et la cohérence de l'étiquetage, Label Studio propose des fonctionnalités de contrôle qualité. Les annotateurs peuvent examiner et valider le travail de chacun, en s'assurant que les étiquettes sont correctes. Vous pouvez également mettre en œuvre des flux de travail de recherche de consensus pour résoudre les désaccords entre les annotateurs.

Étape 5 : Exportation des données

Une fois que les données sont étiquetées comme vous le souhaitez, vous exportez le jeu de données étiqueté depuis Label Studio. La plateforme propose diverses options d'exportation, notamment JSON, CSV ou des formats compatibles avec les bibliothèques d'apprentissage automatique les plus populaires. Cet ensemble de données étiqueté est maintenant prêt à être utilisé pour l'entraînement de modèles d'apprentissage automatique.

Étape 6 : Entraînement des modèles

À l'aide des données étiquetées de haute qualité obtenues auprès de Label Studio, vous pouvez commencer à entraîner votre modèle d'apprentissage automatique pour la classification des animaux. Les données étiquetées servent d'ensemble d'apprentissage, et le modèle apprend à reconnaître différentes catégories d'animaux sur la base des annotations fournies par les annotateurs.

Étape 7 : Évaluation et déploiement du modèle

Après avoir entraîné le modèle, vous évaluez ses performances à l'aide d'un jeu de données de test distinct. Si le modèle répond à vos critères de précision, vous pouvez le déployer pour une utilisation dans le monde réel, par exemple pour catégoriser automatiquement les images d'animaux.

Déployez LabelStudio sur TrueFoundry

Vous avez tout appris sur LabelStudio, et nous sommes ravis de vous annoncer que vous pouvez facilement héberger LabelStudio sur TrueFoundry. Vous trouverez ci-dessous des instructions détaillées sur la façon de déployer LabelStudio sur votre configuration d'apprentissage automatique. Allons-y !

💡

Remarque :
Très bientôt, vous serez en mesure de déployer Label Studio sur True Foundry en un seul clic. Nous vous tiendrons au courant.

1. Enregistrer et configurer TrueFoundry`

Avant de pouvoir exploiter la puissance de Label Studio dans TrueFoundry, vous devez enregistrer et configurer votre compte TrueFoundry.

True Foundry est un PaaS de déploiement de machine learning sur Kubernetes destiné à accélérer les flux de travail des développeurs tout en leur offrant une flexibilité totale dans les tests et le déploiement de modèles, tout en garantissant une sécurité et un contrôle complets à l'équipe Infra.

Allez-y, cliquez sur le lien ci-dessous et suivez les instructions :

2. Déployez le helm chart pour LabelStudio

  1. Nouveau déploiement > Helm > Choisissez un espace de travail
  2. Remplissez ici les informations suivantes
  3. Helm Repo : https://charts.heartex.com
  4. Nom du graphique : label-studio
  5. La version : 1.1.9
  6. Vous pouvez laisser le champ des valeurs vide ou le configurer selon celles-ci. Si vous le laissez vide, l'application, une base de données Postgres et un volume persistant pour stocker les artefacts s'afficheront.
  1. Configuration de Kustomize :
  2. Cliquez sur Afficher les champs avancés bascule en bas du formulaire
  3. Cliquez ici sur le bouton à bascule devant Kustomize toggle
  4. Dans Patch champ de texte ajoutez le manifeste suivant, en remplaçant spec.http.route.destinatoin.host et hôtes de spécifications avec les valeurs appropriées

Version de l'API : networking.istio.io/v1alpha3
type : VirtualService
métadonnées :
nom : labelstudio-vs
spécification :
http :
- itinéraire :
- destination :
hébergeur : <label-studio-app-name>-ls-app. <workspace-name>.svc.cluster.local
port :
Numéro : 80
hôtes :
- <ds.organization.com/labelstudio>
passerelles :
- istio-system/tfy-wildcard

Interaction avec LabelStudio

Une fois que vous avez déployé Label Studio sur TrueFoundry, vous pouvez accéder à l'interface utilisateur de Label Studio via le point de terminaison fourni. Explorons comment étiqueter des images pour les classer à l'aide de Label Studio.

1. S'inscrire

Lorsque vous ouvrez votre Label Studio hébergé, vous êtes invité à créer un compte ou à vous connecter si vous en avez déjà un. Procédez comme suit :

  • Accédez à l'URL de Label Studio que vous avez hébergée.
  • Cliquez sur l'option « S'inscrire » si vous n'avez pas de compte ou sur « Se connecter » si vous en avez un.
  • Terminez le processus d'inscription. Une fois terminé, vous aurez accès à votre tableau de bord Label Studio.

2. Configuration d'un projet d'étiquetage

La configuration d'un projet d'étiquetage dans Label Studio implique plusieurs étapes, notamment la définition du nom du projet, l'importation du jeu de données et la configuration des tâches d'étiquetage. Passons en revue ces étapes :

2.1 Création d'un projet d'étiquetage

Une fois inscrit et connecté, vous pouvez commencer à créer vos projets d'étiquetage. Suivez ces étapes :

Onglet Nom du projet :

  1. Depuis votre tableau de bord Label Studio, cliquez sur le bouton « Créer un nouveau projet ».
  2. Dans l'onglet « Nom du projet », saisissez un nom pour votre projet. Ce nom doit refléter l'objectif ou le sujet de votre projet d'étiquetage.
  3. Vous pouvez éventuellement fournir une description du projet pour fournir un contexte et des directives aux étiqueteurs.

2.2 Importer le jeu de données

Avant de commencer à étiqueter, vous devez importer le jeu de données que vous souhaitez étiqueter. Label Studio prend en charge différents types de données, notamment les images, le texte et le son. Ici, nous allons nous concentrer sur l'importation d'images :

Onglet Importation de données :

  1. Accédez à l'onglet « Importation de données ».
  2. Deux options s'offrent à vous pour importer des images :
  3. Téléchargez des images directement depuis votre ordinateur local.
  4. Fournissez les URL des images si elles sont hébergées en ligne.
  5. Pour cet exemple, vous pouvez ajouter les URL suivantes en tant que jeu de données :
    *

2.3 Configuration des tâches d'étiquetage

Après avoir importé votre jeu de données, vous devez configurer des tâches d'étiquetage qui définissent ce que vous souhaitez que les étiqueteurs annotent ou classent dans les images. Procédez comme suit :

Onglet Configuration de l'étiquetage :

  1. Accédez à l'onglet « Configuration de l'étiquetage »
  2. Choisissez un modèle parmi les options disponibles ou personnalisez-le en fonction de vos besoins. (Pour cet exemple, utilisez la classification des images)
  1. Label Studio sélectionne automatiquement le champ à étiqueter en fonction de vos données.
  2. Vous pouvez modifier le champ sélectionné si nécessaire.
  3. Ajoutez des noms d'étiquettes sur les nouvelles lignes. (Ajoutez un chien et un chat pour notre cas d'utilisation)
  4. Vous pouvez éventuellement choisir de nouvelles couleurs pour les étiquettes en cliquant sur le nom de l'étiquette et en utilisant le sélecteur de couleur.
  5. Configurez tous les paramètres supplémentaires relatifs à la fonctionnalité de l'interface d'étiquetage.
  1. Cliquez sur « Enregistrer » pour créer la tâche d'étiquetage.

Votre projet d'étiquetage est maintenant configuré et les étiqueteurs peuvent commencer à annoter ou à classer les images en fonction de la tâche définie.

3. Processus d'étiquetage

3.1 Flux de travail d'étiquetage

Une fois la configuration de votre projet terminée, vous serez redirigé vers le gestionnaire de données de votre projet. Ici, vous pouvez gérer efficacement votre jeu de données et vos tâches d'étiquetage. Pour lancer le processus d'étiquetage, procédez comme suit :

  1. Accédez au gestionnaire de données: Une fois le projet configuré, vous serez automatiquement redirigé vers le gestionnaire de données correspondant à votre projet.
  2. Étiquetez votre ensemble de données: Pour étiqueter votre jeu de données, cliquez sur le bouton « Étiqueter toutes les tâches ». Cette action vous redirigera vers le tableau de bord d'étiquetage.
  3. Tableau de bord d'étiquetage: dans le tableau de bord des libellés, vous pouvez visualiser les images de votre jeu de données et attribuer des étiquettes. Par exemple, vous pouvez étiqueter les images comme « chien » ou « chat ».

3.2 Affichage du gestionnaire de données

Dans le Data Manager, vous disposez de plusieurs outils puissants pour gérer efficacement votre projet d'étiquetage :

  • Filtrer et trier les données: Vous pouvez facilement filtrer et trier les données de votre projet en fonction de divers critères, tels que le statut de l'étiquette ou les attributions des annotateurs.
  • Enregistrer les filtres sous forme d'onglets: créez des configurations de filtres personnalisées et enregistrez-les sous forme d'onglets pour un accès rapide. Cette fonctionnalité vous permet de rationaliser votre flux de travail, en particulier pour les grands ensembles de données.
  • Attribuer des annotateurs aux tâches: Attribuez des tâches d'étiquetage spécifiques aux annotateurs directement depuis le gestionnaire de données. Cette fonctionnalité garantit une répartition efficace des tâches.
  • Supprimer des tâches ou des annotations: si nécessaire, vous pouvez supprimer des tâches ou des annotations spécifiques. Cette fonctionnalité vous permet de gérer et de nettoyer votre jeu de données au fur et à mesure de l'avancement de votre projet.

3.3 Contrôle de qualité

Pour conserver des étiquettes de haute qualité tout au long de votre projet, envisagez de mettre en place un processus de révision :

  • Accès des évaluateurs: Désignez des réviseurs qui peuvent accéder aux données étiquetées pour vérifier l'exactitude et la qualité des étiquettes.
  • Résolution des divergences: Réglez les divergences ou les litiges qui pourraient survenir entre les étiqueteurs. La résolution rapide des problèmes garantit la cohérence des étiquettes.
  • Amélioration continue: utilisez les commentaires des réviseurs et les informations de l'étiqueteur pour améliorer de manière itérative votre processus d'étiquetage, ce qui se traduit par une amélioration de la qualité des données au fil du temps.

4. Exportation de données étiquetées

Une fois le processus d'étiquetage terminé, vous pouvez exporter les données étiquetées pour les utiliser dans vos projets d'apprentissage automatique ou d'autres applications.

  1. Dans votre projet, accédez à l'onglet « Exporter ».
  2. Choisissez le format d'exportation qui convient le mieux à vos besoins, tel que JSON, CSV ou autre.
  3. Configurez les paramètres d'exportation, notamment les données étiquetées à inclure.
  4. Cliquez sur « Exporter » pour générer et télécharger les données étiquetées dans le format de votre choix.

Félicitations ! Vous avez terminé avec succès le processus d'étiquetage et exporté vos données étiquetées pour une utilisation ultérieure.

Vos données étiquetées seront quelque peu similaires à celles-ci :

[
{
« identifiant » : 1,
« annotations » : [
{
« identifiant » : 1,
« complété_par » : 1,
« résultat » : [
{
« valeur » : {
« choix » : ["Chien"]
},
« id » : « M2sbwnysux »,
« from_name » : « choix »,
« to_name » : « image »,
« type » : « choix »,
« origin » : « manuel »
}
],
« was_cancelled » : faux,
« ground_truth » : faux,
« created_at » : « 2023-09-14T 00:51:14.067 278Z »,
« updated_at » : « 14/09/2023 00:51:14.067 302Z »,
« draft_created_at » : nul,
« Délai de livraison » : 7,287,
« prédiction » : {},
« compte_résultats » : 0,
« identifiant unique » : « 21bce98c-ef29-4725-8add-f5d6224441ec »,
« import_id » : nul,
« last_action » : nul,
« tâche » : 1,
« projet » : 3,
« mis à jour par » : 1,
« parent_prediction » : nul,
« parent_annotation » : nul,
« last_created_by » : nul
}
],
« file_upload » : « c2f3a287-cznmcy1wcmL2yxrll3jhd3bpeg_ayutabf.pngsnjvubb-kdw49uxifztlp1-3p4myPZasCmHJ9-qhiDsk »,
« brouillons » : [],
« prédictions » : [],
« données » : {
« image » : « \ /data \ /upload \ /3 \ /c2f3a287-cznmcy1wcml2yxrll3jhd3bpeg_ayutabf.pngsnjvubb-kdw49uxifztlp1-3p4mYPZasCMHJ9-QHIDsk »
},
« méta » : {},
« créated_at » : « 2023-09-14T 00:45:00.762 438Z »,
« updated_at » : « 14/09/2023 00:51:14.111 241Z »,
« identifiant_intérieur » : 1,
« nombre total d'annotations » : 1,
« annotations annulées » : 0,
« total_prédictions » : 0,
« compte_commentaires » : 0,
« unresolved_comment_count » : 0,
« last_comment_updated_at » : nul,
« projet » : 3,
« mis à jour par » : 1,
« auteurs_commentaires » : []
}
]

N'hésitez pas à personnaliser vos projets et flux de travail Label Studio en fonction de vos besoins spécifiques, en tirant parti des puissantes fonctionnalités d'étiquetage des données de Label Studio.

Lisez nos précédents articles de la série sur les intégrations d'outils d'apprentissage automatique

Continuez à regarder le TrueML série youtube et en lisant tout le TrueML série de blogs.

True Foundry est un PaaS de déploiement de machine learning sur Kubernetes destiné à accélérer les flux de travail des développeurs tout en leur offrant une flexibilité totale dans les tests et le déploiement de modèles, tout en garantissant une sécurité et un contrôle complets à l'équipe Infra. Grâce à notre plateforme, nous permettons aux équipes de machine learning de déployer et surveiller des modèles en 15 minutes avec une fiabilité à 100 %, une évolutivité et la possibilité de revenir en arrière en quelques secondes, ce qui leur permet de réduire les coûts et de mettre les modèles en production plus rapidement, ce qui permet de réaliser une véritable valeur commerciale.

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS
Table des matières

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Démo du livre

Découvrez-en plus

October 5, 2023
|
5 min de lecture

<Webinar>Vitrine GenAI pour les entreprises

Best Fine Tuning Tools for Model Training
May 3, 2024
|
5 min de lecture

Les 6 meilleurs outils de réglage pour la formation des modèles en 2026

May 25, 2023
|
5 min de lecture

LLMs open source : Embrace or Perish

August 27, 2025
|
5 min de lecture

Cartographie du marché de l'IA sur site : des puces aux plans de contrôle

 Best AI Gateways in 2026
April 22, 2026
|
5 min de lecture

5 meilleures passerelles IA en 2026

comparaison
April 22, 2026
|
5 min de lecture

Intégration de Cline avec TrueFoundry AI Gateway

Outils LLM
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 min de lecture

Qu'est-ce qu'AI Gateway ? Concepts de base et guide

Aucun article n'a été trouvé.
April 22, 2026
|
5 min de lecture

LLM Embeddings 101 : un guide complet 2024

Terminologie LLM
Aucun article n'a été trouvé.

Blogs récents

Faites un rapide tour d'horizon des produits
Commencer la visite guidée du produit
Visite guidée du produit