Étiquetage des données programmatiques et formation LLMs sur Snorkel.ai

Published: April 22, 2026

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Présentation

Dans le dernier épisode de TrueML Talks, Nikunj, co-fondateur de True Foundry, aborde une conversation enrichissante avec Vincent, une figure fondatrice de Snorkel AI. En tant qu'entreprise qui se trouve au cœur de l'évolution du paysage de l'IA, le parcours de Snorkel AI, du monde universitaire à la pointe du développement d'une IA centrée sur les données, offre des informations approfondies. Vincent partage ses expériences depuis ses débuts au Stanford AI Lab jusqu'à la direction des produits et de la conception chez Snorkel AI, mettant en lumière les subtilités de l'apprentissage automatique (ML), des grands modèles de langage (LLM) et l'impact de l'IA générative sur le secteur. Nous avons abordé les sujets suivants :

- L'évolution de Snorkel AI
- Développement d'IA centré sur les données
- Transition vers la direction des produits
- IA générative et modèles ouverts
- Conseils de carrière pour les passionnés d'IA

Début de Snorkel AI

Vincent parle des racines de Snorkel AI en tant que projet universitaire axé sur la faible supervision et l'étiquetage programmatique. Cette approche a jeté les bases de ce que Snorkel AI est devenu aujourd'hui pour les entreprises de développement d'applications d'IA. Le parcours de Vincent, d'étudiant diplômé à leader chez Snorkel AI, nous montre à quel point une recherche universitaire solide se transforme en start-up et ce qu'est Snorkel aujourd'hui. À Stanford, ils ont collaboré avec des médecins et créé des ensembles de données personnalisés pour eux, ce qui les a aidés à obtenir un cas d'utilisation réel pour leurs recherches.
Il couvre également ses journées chez Y-Combinator, partageant ses débuts et sa soif de croissance et d'apprentissage dans le domaine des technologies.

Le cœur de Snorkel AI : le développement de l'IA centré sur les données

Vincent explique qu'au début, la création de bases de données consistait simplement à partager de grandes feuilles de données entre les équipes et qu'il s'agissait d'une tâche non organisée qui a été modifiée. Vincent explique comment l'entreprise met l'accent sur la capacité des équipes d'entreprise à gérer, organiser et étiqueter les données à grande échelle, en transformant ainsi les tâches de conciergerie liées au développement de l'IA. Cette approche centrée sur les données permet aux entreprises d'aligner étroitement l'IA sur leurs objectifs et leurs ensembles de données uniques, en soulignant le rôle essentiel des données dans la programmation des systèmes d'IA. Il mentionne également que pour des secteurs tels que la banque et la santé, il n'y a aucune probabilité d'exactitude des données car une erreur de la part de LLM peut être fatale pour les opérations.

Développement de données programmatiques: Introduction d'une approche évolutive, adaptable et efficace de l'étiquetage des données, s'éloignant des méthodes manuelles traditionnelles.
Impact sur les entreprises: Démontrer comment l'approche de Snorkel AI a révolutionné le traitement des données pour les entreprises, en rendant le développement de l'IA plus agile et plus réactif aux changements.
Adaptabilité et évolutivité: La capacité des entreprises à adapter rapidement leurs processus d'étiquetage des données sans repartir de zéro, laissant entrevoir un avenir où le développement de l'IA sera nettement plus dynamique.

Passez de l'ingénierie ML à la direction des produits

Issu du domaine du ML, Vincent explique comment le rôle de responsable des produits (AI/ML) et de la conception l'aide à parler directement aux data scientists et aux ingénieurs ML. Cela l'aide à comprendre leurs cas d'utilisation et leurs points faibles, qu'il peut intégrer directement dans le produit. Grâce à son implication multidimensionnelle dans différents domaines de Snorkel, il peut naviguer dans le produit en fonction des besoins des clients.

L'impact de l'IA générative et des modèles ouverts

L'ère générative de l'IA et la prolifération des modèles ouverts ont considérablement influencé le paysage de l'IA. Vincent explique comment les LLM sont la dernière nouveauté en matière de génération d'ensembles de données à des fins de formation, mais en revanche, ils ont souvent du mal à garantir la précision des ensembles de données produits. Comme nous l'avons vu précédemment, les données générées par un LLM peuvent être adaptées à des cas d'utilisation généralisés et à des tâches de démonstration, mais cela ne s'applique pas aux cas d'utilisation où la précision joue un rôle important dans des domaines tels que la banque, la finance, l'assurance et la santé.

Paysage post-chatGPT: Réflexions sur l'émergence de l'IA générative et son impact sur la communauté de l'IA et les applications d'entreprise.
Importance des données open source: L'appel à l'open source non seulement pour les modèles d'IA, mais également pour les ensembles de données et les processus de développement afin de favoriser l'innovation et de garantir la sécurité et la fiabilité de l'IA.
Données spécialisées pour les applications d'entreprise: Le besoin permanent de données spécialisées de haute qualité pour former des modèles d'IA génératifs répondant à des besoins commerciaux spécifiques.

Un aperçu du paysage actuel de l'IA

Le point de vue de Vincent sur l'état actuel du développement de l'IA met l'accent sur la transition cruciale vers des modèles et des données open source, en proposant une approche plus holistique du partage des innovations en matière d'IA. Il soutient que la véritable essence de l'open source dans le domaine de l'IA devrait aller au-delà de la simple publication des pondérations des modèles ; elle devrait inclure la mise à disposition des ensembles de données, des processus de développement et des raisons qui sous-tendent la formation des modèles. Cette approche favorise un écosystème collaboratif qui accélère l'innovation, garantit la reproductibilité et crée des systèmes d'IA plus sûrs. En défendant le mouvement des données ouvertes, Vincent souligne l'importance de la transparence dans le développement de l'IA, afin de permettre à une communauté plus large de contribuer aux avancées dans ce domaine et d'en bénéficier. Cette perspective remet non seulement en question les pratiques classiques de partage de l'IA, mais appelle également à une stratégie globale qui pourrait démocratiser le développement de l'IA, en veillant à ce que les avantages des technologies d'IA soient largement distribués et accessibles.

Accélère l'innovation: Les ensembles de données open source et les processus de développement encouragent la communauté à innover, en s'appuyant sur les travaux existants plutôt que de partir de zéro.
Garantit la reproductibilité: La transparence des processus de développement de l'IA permet de vérifier les résultats et les méthodologies, ce qui est crucial pour le progrès scientifique et la confiance dans les applications de l'IA.
Construit des systèmes plus sûrs: L'accès aux ensembles de données et à la logique utilisés dans les modèles de formation permet d'identifier les biais et les erreurs, contribuant ainsi au développement de solutions d'IA plus fiables et éthiques.
Démocratise le développement de l'IA: Mettre des ressources complètes sur l'IA à la disposition d'un public plus large uniformise les règles du jeu, en permettant aux individus et aux organisations disposant de ressources variées de contribuer aux progrès de l'IA et d'en bénéficier.
Défis liés aux pratiques conventionnelles: Le point de vue de Vincent invite la communauté de l'IA à repenser la manière dont les technologies d'IA sont partagées et développées, en plaidant pour une approche plus inclusive et collaborative.

Conseils pour les futurs professionnels de l'IA

Vincent mentionne que le niveau du hackathon n'est pas suffisant, vous devrez vous salir les mains et essayer quelque chose qui vous aidera à obtenir des résultats et à vous démarquer. Réfléchissant à son parcours, Vincent donne des conseils à ceux qui se lancent dans une carrière dans le domaine de l'IA. Il met l'accent sur la valeur de l'expérience pratique, encourageant les individus à créer et à itérer des projets d'IA qui répondent à des défis du monde réel. Cet apprentissage par l'expérience, associé à la collaboration et à une passion pour l'exploration, est essentiel pour naviguer dans le domaine de l'IA en évolution rapide.

‍

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant