True ML Talks #11 - LLMs, LLMops & GenAI com o CTO da Greenhouse

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

Estamos de volta com mais um episódio do True ML Talks. Neste, mergulhamos novamente em LLMs, LLMops e IA Generativa, e conversaremos com Michael Boufford.

Michael é o CTO da Greenhouse, que se juntou como o primeiro funcionário há cerca de 11 anos, e assim escreveu as primeiras linhas de código e ajudou a construir a empresa até onde ela está hoje.

📌

Nossas conversas com Mike abordarão os seguintes aspectos:
- Estrutura Organizacional das Equipes de ML na Greenhouse
- Como LLMs e Modelos de IA Generativa são Usados na Greenhouse
- Navegando em Grandes Modelos de Linguagem
- Compreendendo a Engenharia de Prompts
- LLMOps e Ferramentas Críticas para LLMs

Assista ao episódio completo abaixo:

Estrutura Organizacional das Equipes de Ciência de Dados e Machine Learning na Greenhouse

As equipes de ciência de dados e machine learning da Greenhouse evoluíram com o crescimento da empresa, transitando de generalistas para funções especializadas. Os principais aspectos de sua estrutura organizacional incluem:

Engenharia de Dados e Plataforma: Uma equipe dedicada gerencia a engenharia de dados, o data warehousing e o desenvolvimento de recursos de machine learning. Eles apoiam os esforços de marketing e lidam com a implantação e operações para código e modelos.
Ciência de Dados de Produto: Esta equipe se concentra em apoiar a tomada de decisões de produto através de projetos inovadores, análise de dados e insights que impulsionam o desenvolvimento de produtos.
Engenharia de ML: A Greenhouse possui uma equipe de engenharia de ML especializada na construção de modelos escaláveis e confiáveis, prontos para produção, para diversos casos de uso de produtos.

Além disso, uma equipe de Analistas de Negócios aborda questões relacionadas a negócios e fornece insights.

A gestão da infraestrutura é responsabilidade de uma equipe de Infraestruturaseparada, que supervisiona componentes como Kubernetes e AWS. Os armazenamentos de dados têm uma equipe dedicada para sua gestão.

Como LLMs e Modelos de IA Generativa são Usados na Greenhouse

Aqui estão os diversos casos de uso onde esses modelos foram empregados nas operações da Greenhouse.

Similaridade de Vagas e Processamento de Dados: A Greenhouse tem utilizado LLMs, incluindo Bard e GPT-2, para analisar e processar vários aspectos de dados relacionados a vagas. Esses modelos auxiliam na determinação de similaridades entre diferentes anúncios de vagas, bem como na análise e processamento de dados brutos de currículos. O foco está na eficiência do processamento de dados e nos esforços de rotulagem relacionados às descrições de vagas.
Arquitetura RAG para Respostas Mais Rápidas: A Greenhouse explorou recentemente o uso do GPT-4 para casos de uso inovadores. Um deles envolve a implementação da arquitetura RAG (Retrieval-Augmented Generation) para fornecer respostas rápidas às consultas dos usuários. Ao alavancar modelos generativos, a Greenhouse visa permitir que os usuários obtenham respostas para perguntas complexas que antes exigiam a geração manual de relatórios. O modelo generativo atua como um tradutor, convertendo consultas em inglês para uma linguagem de consulta que interage com o armazenamento de dados e, em seguida, traduzindo a resposta de volta para consumo.
Relatórios e Business Intelligence (BI): Com acesso a vastas quantidades de dados de texto na forma de descrições de vagas e currículos, a Greenhouse está bem posicionada para alavancar LLMs e modelos generativos para fins de relatórios e BI. A Greenhouse já oferece relatórios pré-construídos, um construtor de relatórios personalizado e um produto de data lake. A empresa prevê a utilização de LLMs para responder a uma ampla gama de perguntas de relatórios relacionadas ao recrutamento, como desempenho de sourcing, processos de entrevista, status de contratação, análise de orçamento e muito mais.

Navegando em Grandes Modelos de Linguagem: Abordando Problemas e Adotando o Auto-hospedagem

Problemas com Grandes Modelos de Linguagem

Embora o ChatGPT, alimentado por modelos como o GPT-4, ofereça resultados impressionantes, ainda existem alguns desafios e preocupações associados ao seu uso. Aqui estão alguns problemas que surgem com o ChatGPT:

Confiabilidade: O GPT-4 ainda é relativamente incipiente e pode não ser totalmente confiável para implementação em infraestruturas de produção. Como resultado, pode não ser aconselhável depender exclusivamente do GPT-4 para sistemas críticos que exigem desempenho e confiabilidade consistentes.
Termos de Serviço e Privacidade de Dados: Como acontece com qualquer modelo de IA, existem preocupações sobre como os dados são tratados e se são usados para fins de treinamento. Confiar que os dados serão tratados com segurança e não serão vazados ou mal utilizados pode ser uma questão significativa, especialmente ao lidar com dados sensíveis como informações de identificação pessoal (PII).
Modelos Auto-hospedados: O uso de modelos menores e auto-hospedados pode oferecer vantagens em termos de confiabilidade, custo e desempenho. Ao hospedar os modelos na sua própria infraestrutura, você tem mais controle sobre parâmetros de entrada/saída, monitoramento e configurações de segurança. Essa abordagem pode mitigar riscos associados à dependência de serviços externos.
Talento e Infraestrutura: Hospedar até mesmo modelos de linguagem menores exige habilidades e infraestrutura especializadas. Pode ser necessário desenvolver a expertise e os recursos necessários internamente para gerenciar e utilizar esses modelos de forma eficaz. Embora fornecedores de nuvem como Azure, Google e Amazon estejam desenvolvendo seus próprios modelos de linguagem grandes, eles podem não ter experiência extensa no tratamento de entradas não confiáveis e nos desafios específicos associados a elas.
Segurança de Dados: Proteger dados sensíveis é crucial, especialmente ao processar PII. Uma abordagem é treinar modelos sem expor diretamente os dados brutos. Por exemplo, usar hashes sem perdas de valores em vez dos dados reais pode ajudar a manter a privacidade enquanto ainda captura relações significativas. Experimentar diferentes abordagens e garantir a segurança dos dados será essencial.

Vantagens dos Modelos Auto-hospedados

Melhor desempenho do modelo: Modelos menores podem oferecer desempenho aprimorado na resposta a perguntas.
Redução de custos: Os custos de computação são menores ao usar modelos menores, sem a sobrecarga adicional de um terceiro.
Controle e responsabilidade: A auto-hospedagem de modelos permite maior controle e responsabilidade, já que funciona dentro da sua própria infraestrutura.
Segurança e privacidade de dados: A auto-hospedagem mitiga o risco de vazamento de dados e garante melhor controle sobre os parâmetros de entrada e saída.
Monitoramento e segurança: Modelos auto-hospedados permitem um melhor monitoramento e a capacidade de configurar as definições de segurança de acordo com as suas necessidades.
Preferido para aplicações SaaS empresariais: Para funcionalidades que podem ser atendidas por modelos auto-hospedados e que atendam aos padrões de desempenho exigidos, é preferível optar pela auto-hospedagem.
Viabilidade do GPT-4: Os aspectos de confiabilidade, segurança de dados e privacidade de dados do GPT-4 ainda estão sendo avaliados e requerem avaliação mais aprofundada antes de considerá-lo para sistemas de produção.

Avaliação e Tomada de Decisão

Ao considerar se devem investir em modelos auto-hospedados ou depender de grandes modelos de linguagem comerciais, os líderes devem avaliar cuidadosamente os seguintes fatores:

Casos de Uso: Avalie se o problema em questão pode ser efetivamente abordado por modelos menores em termos de eficiência de custos e eficácia computacional.
Implicações de Custo a Longo Prazo: Considere a potencial economia de custos de hospedar seu próprio modelo em comparação com o acesso a modelos muito grandes, que podem oferecer retornos decrescentes.
Controle e Autonomia: Pondere os benefícios de ter maior controle e autonomia sobre a infraestrutura e a direção do modelo, bem como a capacidade de personalizar e especializar o modelo para casos de uso específicos.
Oportunidades de Investimento e Aprendizagem: Reconheça que a construção e o treinamento de modelos menores podem exigir um investimento inicial em termos de recursos da equipe, experimentação e ajuste fino. No entanto, esse investimento pode levar a modelos otimizados e adaptados a casos de uso específicos e aprimorar o conhecimento e a compreensão da equipe.

Compreendendo a Engenharia de Prompts

A engenharia de prompts tornou-se um tópico de debate no campo dos grandes modelos de linguagem (LLMs). Ela envolve a criação de prompts eficazes para obter as respostas desejadas do modelo. Aqui estão alguns pontos-chave para entender o conceito e suas implicações:

Engenharia de Prompts como um Papel Distinto: A engenharia de prompts pode se tornar um cargo reconhecido ou um papel especializado dentro da área, à medida que especialistas otimizam prompts e manipulam redes neurais de forma eficaz.
Abordagem de Engenharia para Prompts: A engenharia de prompts envolve a aplicação do método científico para gerar saídas previsíveis, ajustando e refinando prompts para alcançar os resultados desejados.
Distinção do Uso Casual de Prompts: Simplesmente copiar e colar prompts sem uma compreensão mais profunda ou modificações não constitui engenharia de prompts.
Natureza Multifacetada da Engenharia de Prompts: A engenharia de prompts exige uma compreensão abrangente de como os prompts influenciam as redes neurais e as informações específicas que eles capturam, indo além das habilidades linguísticas.
Falta de Programação Determinística: Os LLMs introduzem complexidade devido a variações nos modelos, dados de treinamento e comportamentos em constante mudança, tornando a engenharia de prompts desafiadora.
Potenciais Melhorias na Eficiência e Previsibilidade: Aprofundar a compreensão dos LLMs pode levar a uma ativação mais eficiente de partes da rede neural, resultando em resultados mais previsíveis e consistentes.
Visualizando a Codificação em Camadas: As arquiteturas Transformer em LLMs codificam informações em diferentes camadas, semelhante a como as CNNs processam imagens. Engenheiros de prompts podem explorar a ativação de camadas específicas para influenciar as saídas geradas.
Cenário de Ferramentas e LLMOps: A atenção está se voltando para o cenário de ferramentas em torno dos LLMs, referido como LLMOps, que inclui práticas de desenvolvimento, implantação e gerenciamento. O termo ainda está em evolução.

LLMOps e Ferramentas Críticas para LLMs

LLMOps e o cenário de ferramentas em torno dos grandes modelos de linguagem (LLMs) estão ganhando atenção.

Quando se trata de gerenciamento de prompts, manuseio rápido de dados, rotulagem de feedback e outras tarefas essenciais, certas ferramentas devem desempenhar um papel crítico à medida que o uso de LLMs se expande. Algumas considerações importantes incluem:

Bancos de Dados de Fatores: Bancos de dados pesquisáveis como o Minecon serão cruciais para recuperar contexto relevante para alimentar a rede neural. Acessar informações relevantes capacita a engenharia e otimização de prompts.
Estruturas de Projeto: Projetos como o LangChain fornecem estruturas de codificação que facilitam a implementação de uma ampla gama de funcionalidades, contribuindo para o uso eficiente de LLMs.
Integração e Infraestrutura: LLMs são tipicamente parte de programas mais amplos, necessitando de integração e gestão eficazes de vários componentes. Conectar diferentes partes para alcançar os resultados desejados é vital e pode exigir experiência em infraestrutura e gestão de memória.
Monitoramento e Manutenção: Práticas tradicionais de machine learning, como monitoramento de regressões, avaliação de desempenho e avaliação da capacidade da infraestrutura, permanecem relevantes no contexto dos LLMs. Garantir o suporte adequado de infraestrutura e capacidade é crucial para um desempenho ótimo.
Armazenamento de Prompts: Salvar prompts para uso futuro requer consideração cuidadosa. Embora várias opções, como bancos de dados, cache ou armazenamento de arquivos, possam ser usadas para armazenar texto e até mesmo texto parametrizável, projetar maneiras significativas de armazenar prompts é uma área contínua de exploração.
Otimização de Memória: Lidar com os requisitos de memória de modelos grandes pode ser desafiador. Gerenciar o uso da RAM da GPU torna-se crucial, especialmente ao ajustar modelos que aumentam significativamente os requisitos de memória. Otimizar modelos para tipos específicos de GPU ou requisitos de latência exige experiência e suporte de ferramentas.
Ferramentas de Gestão de Infraestrutura: À medida que as organizações executam LLMs em suas próprias infraestruturas de nuvem, novos desafios surgem em termos de gestão da infraestrutura. É necessário suporte de ferramentas para tarefas como autoescalonamento de GPU, garantia de tempo de atividade, otimização de custos e construção de sistemas escaláveis que se alinhem com requisitos de negócios específicos.
Fluxos de Trabalho do Desenvolvedor: Ferramentas que aprimoram os fluxos de trabalho dos desenvolvedores ao trabalhar com LLMs são essenciais. Simplificar processos complexos e fornecer interfaces intuitivas pode ajudar a acelerar a adoção e tornar os LLMs mais acessíveis a uma gama mais ampla de usuários.
Educando a Comunidade: Com o campo de LLMs ainda em fase exploratória, empresas como TrueFoundry têm a oportunidade de educar e guiar a comunidade sobre as ferramentas disponíveis, melhores práticas e soluções para desafios comuns.

📌

Avaliando Grandes Modelos de Domínio
No contexto do envolvimento humano na avaliação, a abordagem "human in the loop" (humano no ciclo) é comumente empregada em casos de uso sérios com LLMs. A validação humana é crucial para avaliar o desempenho do modelo e validar sua saída. Mesmo durante o processo de ajuste fino (fine-tuning) de modelos GPT, o envolvimento humano desempenhou um papel essencial.

Para casos de uso menos críticos, onde há margem para algum erro, uma abordagem econômica envolve o uso de modelos maiores para avaliar as respostas de modelos menores. Múltiplas respostas geradas pelos modelos menores podem ser comparadas e classificadas por um modelo maior, permitindo o estabelecimento de métricas para medir o desempenho. Embora esta abordagem incorra em alguns custos, é geralmente mais econômica em comparação com a dependência exclusiva de esforços humanos.

Mantendo-se Atualizado no Mundo em Constante Evolução

Manter-se atualizado no mundo em constante evolução dos LLMs e do aprendizado de máquina pode ser desafiador. Aqui estão algumas abordagens eficazes para se manter informado e adquirir conhecimento:

Vídeos Explicativos sobre IA: Assistir a vídeos explicativos sobre IA em plataformas como o YouTube oferece uma maneira conveniente de compreender as principais descobertas e resultados de artigos acadêmicos sem a necessidade de leitura extensiva. Esses vídeos resumem conceitos complexos, economizando tempo e esforço.
Comunidades Online: Engajar-se com comunidades online, como Hacker News e subreddits de aprendizado de máquina, oferece insights, discussões e atualizações sobre tendências e tecnologias emergentes na área.
Experiência Prática: Participar ativamente de aplicações práticas de LLMs é crucial para obter uma compreensão mais profunda de seu potencial e limitações. Ao experimentar e explorar as capacidades, é possível aprimorar o conhecimento.
Acessibilidade de APIs: Ao contrário do passado, onde o aprendizado de máquina exigia a revisão de conceitos matemáticos complexos, o cenário atual é mais impulsionado por APIs. APIs e bibliotecas pré-construídas permitem que os desenvolvedores comecem a experimentar e construir aplicações sem a necessidade de reaprender matemática avançada.
Habilidades de Programação: Aprender métodos específicos de bibliotecas e resolver problemas de ambiente são habilidades valiosas para implementar LLMs de forma eficaz.

Leia nossos blogs anteriores na série True ML Talks:

‍

True ML Talks #10 - LLMs and Generative AI

Deep dive into LLM’s, Generative AI and ChatGPT. We talk with Anant, Engineering Director at Meta about the trends in the Machne Learning Space.

TrueFoundry Blog TrueFoundry

Continue assistindo à série do YouTube TrueML youtube series e lendo a série de blogs.

TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, permitindo-lhes total flexibilidade no teste e implantação de modelos, ao mesmo tempo em que garante total segurança e controle para a equipe de Infraestrutura. Através da nossa plataforma, capacitamos as Equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos – permitindo-lhes economizar custos e lançar Modelos em produção mais rapidamente, possibilitando a realização de valor de negócio real.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now