True ML Talks #10 - LLMs e GenAI com o diretor de engenharia @ Meta

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Estamos de volta com mais um episódio do True ML Talks. Neste, aprofundamos em LLMs e IAs Generativas, e conversamos com Anant.
Anant é um líder de engenharia. Atualmente, é diretor de engenharia na Meta, trabalhando em algumas das experiências de produto de óculos inteligentes. Ele começou como um colaborador de código aberto e ocupou cargos importantes tanto em startups quanto em gigantes da tecnologia. Na Mozilla, ele ajudou a definir e implementar o WebRTC, entre outras tecnologias de navegador. Ele também foi um dos primeiros engenheiros do Firebase e o primeiro engenheiro da Ozlo.
📌
Nossas conversas com Anant abordarão os seguintes aspectos:
- Ajuste fino de Stable Diffusion
- Criação de Embeddings para Hacker News
- O Debate sobre a Sustentabilidade a Longo Prazo
- A Necessidade de Melhor Rastreamento de Experimentos e Documentação Acessível em LLMOps
- O Poder e o Potencial dos Plugins do OpenAI
- O Poder dos Modelos de Linguagem no Fluxo de Recuperação e Adaptação de Plugins
Anant falou conosco em sua capacidade pessoal e suas opiniões não representam as da organização (Meta) à qual ele é afiliado.
Assista ao episódio completo abaixo:
Principais Observações dos experimentos de Anant:
LoRA: Uma técnica intrigante no ajuste fino de grandes modelos de linguagem.
- A Acessibilidade do LoRA: Comparado a outras técnicas como Dreambooth, o LoRA é mais acessível e envolve a adição de algumas camadas a um modelo pré-treinado sem alterar seus pesos.
- Custo-benefício e Simplicidade: LoRA apresenta um bom custo-benefício e pode ser usado por indivíduos não técnicos através de plataformas como o Google Colab. Sua simplicidade permite iteração e experimentação rápidas.
- Potencial em Texto e Imagem: Embora inicialmente aplicado a imagens, o potencial do LoRA em tarefas relacionadas a texto está sendo explorado.
- Futuro do Ajuste Fino: LoRA é preferido em relação às técnicas tradicionais devido ao seu custo-benefício, acessibilidade e compatibilidade com placas de vídeo mais antigas.
Construindo Embeddings para o Hacker News: Desafios e Seleção de Modelo
- Compreender os Fundamentos: Escolha soluções apropriadas com base na escala e nos requisitos do projeto.
- Compreendendo Embeddings: Embeddings são coleções de números de ponto flutuante, e armazená-los em um banco de dados SQLite provou ser eficaz.
- Seleção de Modelo: Bibliotecas de embedding de código aberto foram preferidas em relação aos provedores de nuvem. O modelo grande Instructor foi escolhido com base em benchmarking e prototipagem usando MTEB da Hugging Face.
- Parta dos Primeiros Princípios: Obtenha uma compreensão profunda da solução escolhida e concentre-se nos requisitos do projeto em vez do hype.
- Aumentar a Escala com Necessidade Clara: Aumentar a escala deve ser feito quando estiver alinhado com um requisito claro.
O Debate sobre a Sustentabilidade a Longo Prazo: Modelos Grandes vs. Modelos Menores e Ajustados
Uma das discussões significativas no ecossistema MLOps gira em torno da sustentabilidade a longo prazo de grandes modelos generalizados versus modelos menores e ajustados, adaptados a conjuntos de dados ou casos de uso específicos. Este debate ganha insights de um memorando vazado que sugere a potencial comoditização de grandes modelos de linguagem (LLMs).
O memorando vazado, embora não seja uma posição oficial, indica um sentimento crescente de que os LLMs provavelmente se tornarão mais acessíveis e replicáveis. Este desenvolvimento gerou entusiasmo na comunidade, especialmente entre aqueles com experiência em código aberto. Avanços recentes tornaram mais fácil replicar LLMs, abordando preocupações anteriores sobre aquisição de dados e custos de treinamento de modelos.
Projetos como RunwayML e o modelo de difusão contribuíram para um movimento de código aberto, possibilitando o lançamento de modelos em plataformas como o GitHub. Isso democratiza o acesso a LLMs, permitindo que entusiastas e desenvolvedores explorem e experimentem. Embora nem todos os LLMs sejam de código aberto, opções licenciadas de código aberto estão disponíveis, promovendo uma gama diversificada de colaboradores.
Os benefícios do desenvolvimento aberto e do envolvimento generalizado são enfatizados, pois isso impede que o poder se concentre nas mãos de poucas entidades. Além disso, o desenvolvimento aberto proporciona transparência e segurança, levando em consideração fatores globais e o potencial interesse de estados-nação.
Antecipando a comoditização de LLMs, traça-se um paralelo com o cenário da computação em nuvem. Os usuários terão a flexibilidade de escolher entre diferentes provedores, semelhante às opções de serviços em nuvem como AWS, Azure e Google Compute. Isso permite uma competição saudável e inovação dentro do ecossistema.
O debate também considera a interação entre modelos grandes e modelos menores, em dispositivos. Ambos os tipos têm seu lugar no ecossistema MLOps, com a computação ocorrendo em múltiplas camadas. Enquanto tarefas mais simples podem ser executadas eficientemente em dispositivos, tarefas mais intensivas em recursos podem ser descarregadas para servidores. A escolha da implantação depende do caso de uso específico, com uma abordagem híbrida sendo defendida, em vez de favorecer um lado em detrimento do outro.
Na busca por sustentabilidade a longo prazo, a comunidade MLOps deve considerar cuidadosamente a praticidade e as vantagens de modelos grandes versus modelos ajustados. Encontrar um equilíbrio e aproveitar os pontos fortes de cada abordagem moldará o futuro do desenvolvimento e implantação de modelos de IA, garantindo o progresso contínuo na área.
📌
Comparação de Desempenho: Grandes Modelos de Linguagem vs. Versões Menores
Outro aspecto discutido na comunidade MLOps é a comparação de desempenho entre grandes modelos de linguagem e suas contrapartes menores. Modelos grandes tendem a se destacar em tarefas como a geração de blogs ou poemas, demonstrando suas capacidades impressionantes. No entanto, modelos menores muitas vezes têm dificuldade em igualar seu desempenho, especialmente ao lidar com conjuntos de dados menores.
É importante examinar os métodos de avaliação e os testes que apoiam tais afirmações para garantir comparações precisas. Embora reconhecendo que diferentes casos de uso e abordagens de avaliação possam existir, uma compreensão aprofundada das limitações e diferenças de desempenho entre modelos grandes e pequenos é crucial.
A Necessidade de Melhor Rastreamento de Experimentos e Documentação Acessível em LLMOps
À medida que o campo do aprendizado de máquina avança, a importância de ferramentas robustas, incluindo frameworks MLOps, torna-se evidente. No entanto, com a ascensão de LLMOps (Large Language Model Operations), há uma necessidade específica de ferramentas personalizadas para apoiar desenvolvedores que trabalham com LLMs. Nesta discussão, o foco está nas lições aprendidas e nas recomendações para rastreamento de experimentos e documentação acessível em LLMOps.
Refletindo sobre a jornada de aprendizado, torna-se aparente que a documentação adequada de experimentos é essencial. Inicialmente, havia uma falta de ênfase na manutenção de um diário de treinamento ou sistema de rastreamento estruturado, o que levou a desafios durante os experimentos. Particularmente no projeto de fine-tuning LoRA, gerenciar inúmeros hiperparâmetros tornou-se avassalador sem uma abordagem sistemática para rastrear os valores e as saídas correspondentes.
Reconhecendo o valor de uma documentação completa, a necessidade de um diário de treinamento confiável ou sistema de rastreamento integrado torna-se evidente. Infelizmente, soluções prontamente disponíveis eram escassas, apresentando um desafio para encontrar uma ferramenta adequada. No entanto, a descoberta de Weights & Biases (wandb.ai), uma startup que oferece ferramentas de rastreamento e visualização de experimentos, provou ser benéfica. Recomendando essas ferramentas a outros, reconhece-se que incorporá-las mais cedo no processo poderia ter melhorado o gerenciamento de experimentos.
Além disso, a importância da documentação acessível dentro da comunidade de aprendizado de máquina é enfatizada. Informações insuficientes sobre hiperparâmetros e seus efeitos dificultaram a compreensão e a otimização dos experimentos.
Abordando Preocupações com a Segurança de Dados em MLOps: Garantindo Privacidade e Confiança
A segurança de dados é uma preocupação primordial no domínio de MLOps, levantando questões e provocando discussões na comunidade. Em uma exploração desta questão crítica, vamos aprofundar na abordagem adotada pela Open AI, bem como na perspectiva mais ampla em torno da privacidade de dados.
A postura da Open AI sobre privacidade de dados é considerada razoável, especialmente para consumidores que utilizam serviços como o ChatGPT. Considerando que o ChatGPT é oferecido como um produto gratuito, os usuários encontram valor na plataforma, justificando a troca de seus dados para aprimorar os modelos. É visto como uma troca justa, com os usuários contribuindo voluntariamente com suas conversas para melhorar o serviço, considerando a natureza intensiva em recursos da execução de tais plataformas.
Para assinantes do ChatGPT Plus que pagam uma taxa mensal, a opção de não participar do uso de dados está disponível. No entanto, essa escolha vem com a consequência de perder o histórico de conversas. Ainda assim, dado o preço acessível da assinatura e o imenso valor derivado do serviço, os usuários geralmente percebem essa troca como razoável. Eles expressam satisfação com o arranjo, entendendo que seus dados contribuem para melhorar o modelo enquanto subsidiam o custo.
Empresas que buscam alavancar modelos de IA para casos de uso específicos têm requisitos únicos em relação à segurança de dados. A Open AI já tomou medidas para abordar essas preocupações através de parcerias, como o Secure Enclave do Microsoft Azure. Essas colaborações fornecem ambientes seguros onde os dados permanecem sob o controle da empresa. Além disso, parcerias como a integração da Anthropic com o AWS Bedrock oferecem enclaves seguros para a execução de modelos em nuvem, amenizando preocupações sobre dados que saem das instalações. Esses movimentos da indústria estão prontos para oferecer soluções adequadas para empresas focadas na segurança de dados.
Resolver as questões de privacidade e segurança de dados requer os esforços coletivos de empresas como Open AI, Azure e outros grandes players. Por exemplo, o Google, com suas capacidades internas, está bem posicionado para abordar eficazmente essas preocupações. É importante adotar uma perspectiva equilibrada sobre a privacidade de dados, reconhecendo que empresas respeitáveis podem construir confiança com seus clientes, que podem estar dispostos a trocar alguma privacidade pelo valor fornecido pelos serviços de IA.
O Poder e o Potencial dos Plugins OpenAI
Os plugins OpenAI são um desenvolvimento inovador que demonstra o verdadeiro poder e potencial dos modelos de linguagem de IA. Ao aprofundar no conceito de plugins, torna-se evidente o quão notáveis são ao permitir interações com o modelo sem a necessidade de escrever código. Em vez disso, o foco se desloca para o aproveitamento das habilidades de comunicação em inglês para instruir o modelo de forma eficaz. Essa constatação pode ser um momento surpreendente tanto para desenvolvedores quanto para indivíduos não técnicos.
Os plugins giram em torno de fornecer instruções ao modelo de IA em inglês, especificamente sobre descrições e gatilhos de API. Ao elaborar um documento de uma página que detalha o esquema e a especificação da API, os usuários podem comunicar eficazmente quando e como acionar seu plugin. Isso enfatiza a importância de fortes habilidades na língua inglesa para aproveitar as capacidades do ChatGPT.
Essa abordagem inovadora levou a comparações com pesquisas anteriores, como o artigo Toolformer, destacando que problemas semelhantes foram explorados no passado. No entanto, os modelos de linguagem da OpenAI, particularmente o ChatGPT, demonstram avanços significativos em qualidade e desempenho em comparação com os modelos de código aberto existentes.
A disparidade de qualidade decorre principalmente da competência do modelo de linguagem central em tarefas relacionadas à codificação. O ChatGPT se destaca no tratamento de instruções relacionadas a código, o que se traduz em sua capacidade de despachar e utilizar plugins de forma eficiente. Isso demonstra o papel crítico da proficiência do modelo subjacente em tarefas de codificação ao implementar plugins eficazmente.
Embora a OpenAI atualmente detenha uma liderança substancial em termos de qualidade, é essencial dar tempo aos modelos de código aberto para alcançá-la. A comunidade de código aberto se esforça continuamente para preencher a lacuna e aprimorar as capacidades de seus modelos. O fato de a OpenAI reconhecer o potencial dos modelos de código aberto e explorar caminhos como as capacidades multimodais é encorajador. A recente entrevista de Sam Altman com Lex Friedman destaca a perspectiva da OpenAI, indicando que o foco está se deslocando de uma corrida por parâmetros para fatores diferenciadores.
À medida que os modelos de código aberto evoluem e atingem o nível do GPT-3.5 e 4, é razoável esperar a disponibilidade de funcionalidade de plugin também em frameworks de código aberto. O progresso na área é promissor para o futuro, onde modelos de código aberto e plugins podem revolucionar a forma como os desenvolvedores interagem com sistemas de IA.
O Poder dos Modelos de Linguagem no Fluxo de Recuperação e Adaptação de Plugins
A ascensão dos modelos de linguagem, como o GPT da OpenAI, trouxe o inglês para a vanguarda como uma nova linguagem de programação de várias maneiras. Aproveitar o inglês para instruir modelos de IA e acionar plugins abriu novas possibilidades para os desenvolvedores.
Quando se trata de plugins, o foco não está em microgerenciar seu uso, mas sim em instruir como usá-los de forma eficaz. Ao fornecer instruções sobre a utilização de plugins, os desenvolvedores permitem que o modelo de IA determine os momentos apropriados para acionar os plugins. No entanto, é importante notar que a implementação atual possui limitações, como permitir apenas três plugins habilitados por vez e erros ocasionais no acionamento de plugins.
No entanto, o poder dos modelos de linguagem reside em seu fluxo de recuperação. Mesmo quando o modelo não entende ou aciona um plugin corretamente inicialmente, a experiência do usuário permanece positiva. Em contraste com assistentes de voz tradicionais como a Alexa, onde comandos explícitos e precisos são necessários, modelos de linguagem como o ChatGPT oferecem uma experiência diferente.
Com o ChatGPT, se o modelo erra o alvo, os usuários podem fornecer com confiança instruções de acompanhamento explícitas para corrigir o erro. A compreensão e a capacidade de resposta do modelo criam um senso de confiança e colaboração. Os usuários sentem que suas instruções serão reconhecidas e seguidas. A capacidade de recuperação dos modelos de linguagem é um divisor de águas em comparação com assistentes de gerações anteriores, que frequentemente levavam à frustração e decepção.
O poder dos modelos de linguagem, especialmente quando combinados com plugins, reside em sua capacidade de se recuperar de erros de forma contínua. Os usuários apreciam o reconhecimento da confusão pelo modelo, o pedido de desculpas educado e a disposição de retificar o erro. Esse nível de recuperação e adaptabilidade é incomparável em tecnologias de assistente anteriores, mesmo com os avanços nos sistemas de diálogo multi-turno.
A arquitetura dos modelos de linguagem permite um nível fenomenal de recuperação, tornando-a uma plataforma ideal para a integração de plugins. A integração contínua e a colaboração entre desenvolvedores e o modelo aprimoram a experiência geral do usuário. À medida que os desenvolvedores exploram o potencial dos plugins dentro dessa arquitetura, as possibilidades para criar sistemas de IA dinâmicos e adaptáveis são vastas.
Com os modelos de linguagem servindo como base para interações impulsionadas por IA, o fluxo de recuperação e a adaptação de plugins tornam-se componentes essenciais na construção de sistemas avançados e amigáveis ao usuário. A combinação de compreensão da linguagem natural e capacidade de resposta posiciona os modelos de linguagem como ferramentas transformadoras no cenário de MLOps.
📌
A Compra de GPUs para MLOps: Desafios e Compras por Impulso
Acessar GPUs de alto desempenho através de provedores de nuvem é frustrante para entusiastas. A priorização empresarial e os compromissos de longo prazo representam desafios.
O acesso a GPUs baseadas em nuvem consome muito tempo para entusiastas que precisam de pouco tempo de GPU. Configurar uma GPU pessoal é desafiador, incluindo configuração manual e gerenciamento de dependências.
Apesar da conveniência das imagens de GPU em nuvem pré-configuradas, Anant valoriza o controle e a confiabilidade de sua GPU pessoal. Superando desafios, sua decisão de comprar uma GPU dedicada provou ser benéfica para MLOps.
Mantendo-se Informado: A Abordagem de Anant Narayanan para Acompanhar os Novos Desenvolvimentos
- Twitter: Use o Twitter como um centro de conhecimento para atualizações relacionadas à IA. Siga especialistas e organizações na comunidade de IA para descobrir rapidamente novos desenvolvimentos e manter-se informado.
- Podcasts: Ouça podcasts do setor para obter insights valiosos. Os podcasts recomendados incluem "Stratechery" de Ben Thompson e "Dithering" coapresentado por Ben Thompson e John Gruber. Esses podcasts cobrem uma ampla gama de tópicos relacionados à tecnologia, incluindo avanços em IA.
- Interações Offline: Participe de eventos e encontros presenciais para obter insights e perspectivas valiosas. Procure listas abrangentes de eventos em plataformas como cerebralvalley.ai. Participe de interações presenciais, hackathons e troque ideias com outros profissionais para expandir o conhecimento e construir conexões significativas.
Leia nossos blogs anteriores na série True ML Talks:
Continue assistindo à TrueML série do YouTube e lendo a TrueML série de blogs.
TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, permitindo-lhes total flexibilidade no teste e implantação de modelos, ao mesmo tempo em que garante total segurança e controle para a equipe de Infraestrutura. Através da nossa plataforma, capacitamos as equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos - permitindo-lhes economizar custos e lançar Modelos em produção mais rapidamente, possibilitando a realização de valor de negócio real.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI














.webp)






.webp)

.webp)
.webp)





.png)



