Rotulagem Programática de Dados e Treino de LLMs na Snorkel.ai

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Introdução
No episódio mais recente de TrueML Talks, Nikunj, cofundador da True Foundry, aprofunda-se numa conversa esclarecedora com Vincent, uma figura fundamental na Snorkel AI. Como uma empresa que se encontra no cerne do cenário em evolução da IA, a jornada da Snorkel AI, da academia à liderança no desenvolvimento de IA centrada em dados, oferece insights profundos. Vincent partilha as suas experiências desde os primeiros dias no Stanford AI Lab até à direção de produto e design na Snorkel AI, esclarecendo as complexidades do machine learning (ML), dos Large Language Models (LLMs) e o impacto da IA generativa na indústria. Abordámos os seguintes tópicos:
- A Evolução da Snorkel AI
- Desenvolvimento de IA Centrada em Dados
- Transição para a Liderança de Produto
- IA Generativa e Modelos Abertos
- Conselhos de Carreira para Entusiastas de IA
Início da Snorkel AI
Vincent fala sobre as raízes da Snorkel AI como um projeto académico focado em supervisão fraca e rotulagem programática. Esta abordagem lançou as bases para o que a Snorkel AI se tornou hoje, orientando empresas de desenvolvimento de aplicações de IA. A jornada de Vincent, de estudante de pós-graduação a líder na Snorkel AI, mostra-nos como uma pesquisa académica sólida se transforma numa startup e no que a Snorkel é hoje. Em Stanford, eles colaboraram com médicos e criaram conjuntos de dados personalizados para eles, o que os ajudou a obter um caso de uso real para a sua pesquisa.
Ele também aborda os seus dias na Y-Combinator, partilhando os seus primeiros tempos e a sua sede por crescimento e aprendizagem em tecnologia.
O Núcleo da Snorkel AI: Desenvolvimento de IA Centrada em Dados
Vincent partilha como, no início, a criação de bases de dados era apenas partilhar grandes folhas de dados entre equipas e uma tarefa desorganizada, mas isso mudou. Vincent elabora sobre o foco da empresa em facilitar que as equipas empresariais gerenciem, organizem e rotulem dados em escala — transformando as tarefas 'braçais' do desenvolvimento de IA. Esta abordagem centrada em dados permite que as empresas alinhem a IA de perto com os seus objetivos e conjuntos de dados únicos, enfatizando o papel crítico dos dados na programação de sistemas de IA. Ele também menciona que, para indústrias como a bancária e a de saúde, não pode haver margem para erro na precisão dos dados, pois um único erro por parte dos LLMs pode ser fatal para as operações.
- Desenvolvimento Programático de Dados: Introdução de uma abordagem escalável, adaptável e eficiente para a rotulagem de dados, afastando-se dos métodos manuais tradicionais.
- Impacto nas Empresas: Demonstrando como a abordagem da Snorkel AI revolucionou o tratamento de dados para as empresas, tornando o desenvolvimento de IA mais ágil e responsivo a mudanças.
- Adaptabilidade e Escalabilidade: A capacidade das empresas de adaptar rapidamente os seus processos de rotulagem de dados sem começar do zero, apresentando um futuro onde o desenvolvimento de IA é significativamente mais dinâmico.
Transição da Engenharia de ML para a Liderança de Produto
Com uma formação em ML, Vincent partilha como o seu papel de Head de Produto (IA/ML) e design o ajuda a comunicar diretamente com cientistas de dados e engenheiros de ML. Isso permite-lhe compreender os seus casos de uso e pontos problemáticos, que pode incorporar diretamente no produto. Devido ao seu envolvimento multidimensional em diferentes domínios na Snorkel, ele consegue orientar o produto de acordo com as necessidades dos clientes.
O Impacto da IA Generativa e dos Modelos Abertos
A era da IA generativa e a proliferação de modelos abertos influenciaram significativamente o panorama da IA. Vincent explica como os LLMs são a mais recente adição na geração de conjuntos de dados para fins de treino, mas, por outro lado, frequentemente debatem-se com a precisão dos conjuntos de dados produzidos. Como discutimos anteriormente, os dados gerados por um LLM podem ser adequados para casos de uso generalizados e tarefas de nível de demonstração, mas isso não se aplica a casos de uso onde a precisão desempenha um papel importante em domínios como banca, finanças, seguros e saúde.
- Cenário Pós-ChatGPT: Reflexões sobre o surgimento da IA generativa e o seu impacto na comunidade de IA e nas aplicações empresariais.
- Importância da Abertura de Dados: O apelo para a disponibilização em código aberto não apenas de modelos de IA, mas também dos conjuntos de dados e processos de desenvolvimento, a fim de promover a inovação e garantir a segurança e fiabilidade da IA.
- Dados Especializados para Aplicações Empresariais: A necessidade contínua de dados especializados e de alta qualidade para treinar modelos de IA generativa para necessidades de negócio específicas.
Visão ousada sobre o atual panorama da IA
A visão ousada de Vincent sobre o estado atual do desenvolvimento da IA enfatiza a mudança crucial em direção a modelos e dados de código aberto, propondo uma abordagem mais holística para partilhar as inovações da IA. Ele argumenta que a verdadeira essência do open-sourcing em IA deve ir além de simplesmente divulgar os pesos dos modelos; deve incluir a disponibilização de conjuntos de dados, processos de desenvolvimento e a lógica por trás do treino dos modelos. Esta abordagem fomenta um ecossistema colaborativo que acelera a inovação, garante a reprodutibilidade e constrói sistemas de IA mais seguros. Ao defender o movimento de dados abertos, Vincent destaca a importância da transparência no desenvolvimento da IA, permitindo que uma comunidade mais ampla contribua e beneficie dos avanços na área. Esta perspetiva não só desafia as práticas convencionais de partilha de IA, mas também apela a uma estratégia abrangente que possa democratizar o desenvolvimento da IA, garantindo que os benefícios das tecnologias de IA sejam amplamente distribuídos e acessíveis.
- Acelera a Inovação: Conjuntos de dados e processos de desenvolvimento de código aberto incentivam a comunidade a inovar, construindo sobre o trabalho existente em vez de começar do zero.
- Garante a Reprodutibilidade: A transparência nos processos de desenvolvimento de IA permite a verificação de resultados e metodologias, o que é crucial para o progresso científico e a confiança nas aplicações de IA.
- Constrói Sistemas Mais Seguros: O acesso aos conjuntos de dados e à lógica utilizados no treino de modelos ajuda a identificar vieses e erros, contribuindo para o desenvolvimento de soluções de IA mais fiáveis e éticas.
- Democratiza o Desenvolvimento da IA: Disponibilizar recursos abrangentes de IA a um público mais vasto nivela o campo de jogo, permitindo que indivíduos e organizações com recursos variados contribuam e beneficiem dos avanços da IA.
- Desafia Práticas Convencionais: A perspetiva de Vincent convida a comunidade de IA a repensar como as tecnologias de IA são partilhadas e desenvolvidas, defendendo uma abordagem mais inclusiva e colaborativa.
Conselhos para Profissionais de IA Aspirantes
Vincent menciona que o nível de hackathon não é suficiente; terá de meter as mãos na massa e experimentar algo que utilize e que o ajude a obter resultados e a destacar-se. Refletindo sobre a sua jornada, Vincent oferece conselhos àqueles que estão a iniciar as suas carreiras em IA. Ele enfatiza o valor da experiência prática, incentivando os indivíduos a construir e iterar em projetos de IA que abordem desafios do mundo real. Esta aprendizagem experiencial, aliada à colaboração e a uma paixão pela exploração, é fundamental para navegar no domínio da IA em rápida evolução.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI














.webp)






.webp)

.webp)
.webp)





.png)



