Blank white background with no objects or features visible.

NOVA PESQUISA: 80% dos custos de IA são invisíveis na fatura. Mais de 200 líderes revelam para onde o dinheiro vai. Leia→

Rotulagem Programática de Dados e Treino de LLMs na Snorkel.ai

Updated: March 22, 2024

Introdução

No episódio mais recente de TrueML Talks, Nikunj, cofundador da True Foundry, aprofunda-se numa conversa esclarecedora com Vincent, uma figura fundamental na Snorkel AI. Como uma empresa que se encontra no cerne do cenário em evolução da IA, a jornada da Snorkel AI, da academia à liderança no desenvolvimento de IA centrada em dados, oferece insights profundos. Vincent partilha as suas experiências desde os primeiros dias no Stanford AI Lab até à direção de produto e design na Snorkel AI, esclarecendo as complexidades do machine learning (ML), dos Large Language Models (LLMs) e o impacto da IA generativa na indústria. Abordámos os seguintes tópicos:

- A Evolução da Snorkel AI
- Desenvolvimento de IA Centrada em Dados
- Transição para a Liderança de Produto
- IA Generativa e Modelos Abertos
- Conselhos de Carreira para Entusiastas de IA

Início da Snorkel AI

Vincent fala sobre as raízes da Snorkel AI como um projeto académico focado em supervisão fraca e rotulagem programática. Esta abordagem lançou as bases para o que a Snorkel AI se tornou hoje, orientando empresas de desenvolvimento de aplicações de IA. A jornada de Vincent, de estudante de pós-graduação a líder na Snorkel AI, mostra-nos como uma pesquisa académica sólida se transforma numa startup e no que a Snorkel é hoje. Em Stanford, eles colaboraram com médicos e criaram conjuntos de dados personalizados para eles, o que os ajudou a obter um caso de uso real para a sua pesquisa.
Ele também aborda os seus dias na Y-Combinator, partilhando os seus primeiros tempos e a sua sede por crescimento e aprendizagem em tecnologia.

O Núcleo da Snorkel AI: Desenvolvimento de IA Centrada em Dados

Vincent partilha como, no início, a criação de bases de dados era apenas partilhar grandes folhas de dados entre equipas e uma tarefa desorganizada, mas isso mudou. Vincent elabora sobre o foco da empresa em facilitar que as equipas empresariais gerenciem, organizem e rotulem dados em escala — transformando as tarefas 'braçais' do desenvolvimento de IA. Esta abordagem centrada em dados permite que as empresas alinhem a IA de perto com os seus objetivos e conjuntos de dados únicos, enfatizando o papel crítico dos dados na programação de sistemas de IA. Ele também menciona que, para indústrias como a bancária e a de saúde, não pode haver margem para erro na precisão dos dados, pois um único erro por parte dos LLMs pode ser fatal para as operações.

  • Desenvolvimento Programático de Dados: Introdução de uma abordagem escalável, adaptável e eficiente para a rotulagem de dados, afastando-se dos métodos manuais tradicionais.
  • Impacto nas Empresas: Demonstrando como a abordagem da Snorkel AI revolucionou o tratamento de dados para as empresas, tornando o desenvolvimento de IA mais ágil e responsivo a mudanças.
  • Adaptabilidade e Escalabilidade: A capacidade das empresas de adaptar rapidamente os seus processos de rotulagem de dados sem começar do zero, apresentando um futuro onde o desenvolvimento de IA é significativamente mais dinâmico.

Transição da Engenharia de ML para a Liderança de Produto

Com uma formação em ML, Vincent partilha como o seu papel de Head de Produto (IA/ML) e design o ajuda a comunicar diretamente com cientistas de dados e engenheiros de ML. Isso permite-lhe compreender os seus casos de uso e pontos problemáticos, que pode incorporar diretamente no produto. Devido ao seu envolvimento multidimensional em diferentes domínios na Snorkel, ele consegue orientar o produto de acordo com as necessidades dos clientes.

O Impacto da IA Generativa e dos Modelos Abertos

A era da IA generativa e a proliferação de modelos abertos influenciaram significativamente o panorama da IA. Vincent explica como os LLMs são a mais recente adição na geração de conjuntos de dados para fins de treino, mas, por outro lado, frequentemente debatem-se com a precisão dos conjuntos de dados produzidos. Como discutimos anteriormente, os dados gerados por um LLM podem ser adequados para casos de uso generalizados e tarefas de nível de demonstração, mas isso não se aplica a casos de uso onde a precisão desempenha um papel importante em domínios como banca, finanças, seguros e saúde.

  • Cenário Pós-ChatGPT: Reflexões sobre o surgimento da IA generativa e o seu impacto na comunidade de IA e nas aplicações empresariais.
  • Importância da Abertura de Dados: O apelo para a disponibilização em código aberto não apenas de modelos de IA, mas também dos conjuntos de dados e processos de desenvolvimento, a fim de promover a inovação e garantir a segurança e fiabilidade da IA.
  • Dados Especializados para Aplicações Empresariais: A necessidade contínua de dados especializados e de alta qualidade para treinar modelos de IA generativa para necessidades de negócio específicas.

Visão ousada sobre o atual panorama da IA

A visão ousada de Vincent sobre o estado atual do desenvolvimento da IA enfatiza a mudança crucial em direção a modelos e dados de código aberto, propondo uma abordagem mais holística para partilhar as inovações da IA. Ele argumenta que a verdadeira essência do open-sourcing em IA deve ir além de simplesmente divulgar os pesos dos modelos; deve incluir a disponibilização de conjuntos de dados, processos de desenvolvimento e a lógica por trás do treino dos modelos. Esta abordagem fomenta um ecossistema colaborativo que acelera a inovação, garante a reprodutibilidade e constrói sistemas de IA mais seguros. Ao defender o movimento de dados abertos, Vincent destaca a importância da transparência no desenvolvimento da IA, permitindo que uma comunidade mais ampla contribua e beneficie dos avanços na área. Esta perspetiva não só desafia as práticas convencionais de partilha de IA, mas também apela a uma estratégia abrangente que possa democratizar o desenvolvimento da IA, garantindo que os benefícios das tecnologias de IA sejam amplamente distribuídos e acessíveis.

  • Acelera a Inovação: Conjuntos de dados e processos de desenvolvimento de código aberto incentivam a comunidade a inovar, construindo sobre o trabalho existente em vez de começar do zero.
  • Garante a Reprodutibilidade: A transparência nos processos de desenvolvimento de IA permite a verificação de resultados e metodologias, o que é crucial para o progresso científico e a confiança nas aplicações de IA.
  • Constrói Sistemas Mais Seguros: O acesso aos conjuntos de dados e à lógica utilizados no treino de modelos ajuda a identificar vieses e erros, contribuindo para o desenvolvimento de soluções de IA mais fiáveis e éticas.
  • Democratiza o Desenvolvimento da IA: Disponibilizar recursos abrangentes de IA a um público mais vasto nivela o campo de jogo, permitindo que indivíduos e organizações com recursos variados contribuam e beneficiem dos avanços da IA.
  • Desafia Práticas Convencionais: A perspetiva de Vincent convida a comunidade de IA a repensar como as tecnologias de IA são partilhadas e desenvolvidas, defendendo uma abordagem mais inclusiva e colaborativa.

Conselhos para Profissionais de IA Aspirantes

Vincent menciona que o nível de hackathon não é suficiente; terá de meter as mãos na massa e experimentar algo que utilize e que o ajude a obter resultados e a destacar-se. Refletindo sobre a sua jornada, Vincent oferece conselhos àqueles que estão a iniciar as suas carreiras em IA. Ele enfatiza o valor da experiência prática, incentivando os indivíduos a construir e iterar em projetos de IA que abordem desafios do mundo real. Esta aprendizagem experiencial, aliada à colaboração e a uma paixão pela exploração, é fundamental para navegar no domínio da IA em rápida evolução.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

Govern, Deploy and Trace AI in Your Own Infrastructure

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo

Discover More

October 26, 2023
|
5 min read

True ML Talks #23 - Aplicações de MLOps e LLMs @ GitLab

May 21, 2026
|
5 min read

Adicionando OAuth2 a Jupyter Notebooks no Kubernetes

Engenharia e Produto
May 21, 2026
|
5 min read

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Engenharia e Produto
May 21, 2026
|
5 min read

Acelere o Processamento de Dados em 30–40x com NVIDIA RAPIDS no TrueFoundry

GPU
Engenharia e Produto
May 21, 2026
|
5 min read

Uma Parceria para IA Responsável: Truefoundry e Enkrypt AI

No items found.
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour