True ML Talks #11 - LLMs, LLMops e GenAI CTO @ Greenhouse

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Estamos de volta com mais um episódio do True ML Talks. Neste, mergulhamos novamente em LLMs, LLMops e IA Generativa, e conversaremos com Michael Boufford.
Michael é o CTO da Greenhouse, que se juntou como o primeiro funcionário há cerca de 11 anos, e assim escreveu as primeiras linhas de código e ajudou a construir a empresa até onde ela está hoje.
📌
Nossas conversas com Mike abordarão os seguintes aspectos:
- Estrutura Organizacional das Equipes de ML na Greenhouse
- Como LLMs e Modelos de IA Generativa são Usados na Greenhouse
- Navegando em Grandes Modelos de Linguagem
- Compreendendo a Engenharia de Prompts
- LLMOps e Ferramentas Críticas para LLMs
Assista ao episódio completo abaixo:
Estrutura Organizacional das Equipes de Ciência de Dados e Machine Learning na Greenhouse
As equipes de ciência de dados e machine learning da Greenhouse evoluíram com o crescimento da empresa, transitando de generalistas para funções especializadas. Os principais aspectos de sua estrutura organizacional incluem:
- Engenharia de Dados e Plataforma: Uma equipe dedicada gerencia a engenharia de dados, o data warehousing e o desenvolvimento de recursos de machine learning. Eles apoiam os esforços de marketing e lidam com a implantação e operações para código e modelos.
- Ciência de Dados de Produto: Esta equipe se concentra em apoiar a tomada de decisões de produto através de projetos inovadores, análise de dados e insights que impulsionam o desenvolvimento de produtos.
- Engenharia de ML: A Greenhouse possui uma equipe de engenharia de ML especializada na construção de modelos escaláveis e confiáveis, prontos para produção, para diversos casos de uso de produtos.
Além disso, uma equipe de Analistas de Negócios aborda questões relacionadas a negócios e fornece insights.
A gestão da infraestrutura é responsabilidade de uma equipe de Infraestruturaseparada, que supervisiona componentes como Kubernetes e AWS. Os armazenamentos de dados têm uma equipe dedicada para sua gestão.
Como LLMs e Modelos de IA Generativa são Usados na Greenhouse
Aqui estão os diversos casos de uso onde esses modelos foram empregados nas operações da Greenhouse.
- Similaridade de Vagas e Processamento de Dados: A Greenhouse tem utilizado LLMs, incluindo Bard e GPT-2, para analisar e processar vários aspectos de dados relacionados a vagas. Esses modelos auxiliam na determinação de similaridades entre diferentes anúncios de vagas, bem como na análise e processamento de dados brutos de currículos. O foco está na eficiência do processamento de dados e nos esforços de rotulagem relacionados às descrições de vagas.
- Arquitetura RAG para Respostas Mais Rápidas: A Greenhouse explorou recentemente o uso do GPT-4 para casos de uso inovadores. Um deles envolve a implementação da arquitetura RAG (Retrieval-Augmented Generation) para fornecer respostas rápidas às consultas dos usuários. Ao alavancar modelos generativos, a Greenhouse visa permitir que os usuários obtenham respostas para perguntas complexas que antes exigiam a geração manual de relatórios. O modelo generativo atua como um tradutor, convertendo consultas em inglês para uma linguagem de consulta que interage com o armazenamento de dados e, em seguida, traduzindo a resposta de volta para consumo.
- Relatórios e Business Intelligence (BI): Com acesso a vastas quantidades de dados de texto na forma de descrições de vagas e currículos, a Greenhouse está bem posicionada para alavancar LLMs e modelos generativos para fins de relatórios e BI. A Greenhouse já oferece relatórios pré-construídos, um construtor de relatórios personalizado e um produto de data lake. A empresa prevê a utilização de LLMs para responder a uma ampla gama de perguntas de relatórios relacionadas ao recrutamento, como desempenho de sourcing, processos de entrevista, status de contratação, análise de orçamento e muito mais.
Navegando em Grandes Modelos de Linguagem: Abordando Problemas e Adotando o Auto-hospedagem
Problemas com Grandes Modelos de Linguagem
Embora o ChatGPT, alimentado por modelos como o GPT-4, ofereça resultados impressionantes, ainda existem alguns desafios e preocupações associados ao seu uso. Aqui estão alguns problemas que surgem com o ChatGPT:
- Confiabilidade: O GPT-4 ainda é relativamente incipiente e pode não ser totalmente confiável para implementação em infraestruturas de produção. Como resultado, pode não ser aconselhável depender exclusivamente do GPT-4 para sistemas críticos que exigem desempenho e confiabilidade consistentes.
- Termos de Serviço e Privacidade de Dados: Como acontece com qualquer modelo de IA, existem preocupações sobre como os dados são tratados e se são usados para fins de treinamento. Confiar que os dados serão tratados com segurança e não serão vazados ou mal utilizados pode ser uma questão significativa, especialmente ao lidar com dados sensíveis como informações de identificação pessoal (PII).
- Modelos Auto-hospedados: O uso de modelos menores e auto-hospedados pode oferecer vantagens em termos de confiabilidade, custo e desempenho. Ao hospedar os modelos na sua própria infraestrutura, você tem mais controle sobre parâmetros de entrada/saída, monitoramento e configurações de segurança. Essa abordagem pode mitigar riscos associados à dependência de serviços externos.
- Talento e Infraestrutura: Hospedar até mesmo modelos de linguagem menores exige habilidades e infraestrutura especializadas. Pode ser necessário desenvolver a expertise e os recursos necessários internamente para gerenciar e utilizar esses modelos de forma eficaz. Embora fornecedores de nuvem como Azure, Google e Amazon estejam desenvolvendo seus próprios modelos de linguagem grandes, eles podem não ter experiência extensa no tratamento de entradas não confiáveis e nos desafios específicos associados a elas.
- Segurança de Dados: Proteger dados sensíveis é crucial, especialmente ao processar PII. Uma abordagem é treinar modelos sem expor diretamente os dados brutos. Por exemplo, usar hashes sem perdas de valores em vez dos dados reais pode ajudar a manter a privacidade enquanto ainda captura relações significativas. Experimentar diferentes abordagens e garantir a segurança dos dados será essencial.
Vantagens dos Modelos Auto-hospedados
- Melhor desempenho do modelo: Modelos menores podem oferecer desempenho aprimorado na resposta a perguntas.
- Redução de custos: Os custos de computação são menores ao usar modelos menores, sem a sobrecarga adicional de um terceiro.
- Controle e responsabilidade: A auto-hospedagem de modelos permite maior controle e responsabilidade, já que funciona dentro da sua própria infraestrutura.
- Segurança e privacidade de dados: A auto-hospedagem mitiga o risco de vazamento de dados e garante melhor controle sobre os parâmetros de entrada e saída.
- Monitoramento e segurança: Modelos auto-hospedados permitem um melhor monitoramento e a capacidade de configurar as definições de segurança de acordo com as suas necessidades.
- Preferido para aplicações SaaS empresariais: Para funcionalidades que podem ser atendidas por modelos auto-hospedados e que atendam aos padrões de desempenho exigidos, é preferível optar pela auto-hospedagem.
- Viabilidade do GPT-4: Os aspectos de confiabilidade, segurança de dados e privacidade de dados do GPT-4 ainda estão sendo avaliados e requerem avaliação mais aprofundada antes de considerá-lo para sistemas de produção.
Avaliação e Tomada de Decisão
Ao considerar se devem investir em modelos auto-hospedados ou depender de grandes modelos de linguagem comerciais, os líderes devem avaliar cuidadosamente os seguintes fatores:
- Casos de Uso: Avalie se o problema em questão pode ser efetivamente abordado por modelos menores em termos de eficiência de custos e eficácia computacional.
- Implicações de Custo a Longo Prazo: Considere a potencial economia de custos de hospedar seu próprio modelo em comparação com o acesso a modelos muito grandes, que podem oferecer retornos decrescentes.
- Controle e Autonomia: Pondere os benefícios de ter maior controle e autonomia sobre a infraestrutura e a direção do modelo, bem como a capacidade de personalizar e especializar o modelo para casos de uso específicos.
- Oportunidades de Investimento e Aprendizagem: Reconheça que a construção e o treinamento de modelos menores podem exigir um investimento inicial em termos de recursos da equipe, experimentação e ajuste fino. No entanto, esse investimento pode levar a modelos otimizados e adaptados a casos de uso específicos e aprimorar o conhecimento e a compreensão da equipe.
Compreendendo a Engenharia de Prompts
A engenharia de prompts tornou-se um tópico de debate no campo dos grandes modelos de linguagem (LLMs). Ela envolve a criação de prompts eficazes para obter as respostas desejadas do modelo. Aqui estão alguns pontos-chave para entender o conceito e suas implicações:
- Engenharia de Prompts como um Papel Distinto: A engenharia de prompts pode se tornar um cargo reconhecido ou um papel especializado dentro da área, à medida que especialistas otimizam prompts e manipulam redes neurais de forma eficaz.
- Abordagem de Engenharia para Prompts: A engenharia de prompts envolve a aplicação do método científico para gerar saídas previsíveis, ajustando e refinando prompts para alcançar os resultados desejados.
- Distinção do Uso Casual de Prompts: Simplesmente copiar e colar prompts sem uma compreensão mais profunda ou modificações não constitui engenharia de prompts.
- Natureza Multifacetada da Engenharia de Prompts: A engenharia de prompts exige uma compreensão abrangente de como os prompts influenciam as redes neurais e as informações específicas que eles capturam, indo além das habilidades linguísticas.
- Falta de Programação Determinística: Os LLMs introduzem complexidade devido a variações nos modelos, dados de treinamento e comportamentos em constante mudança, tornando a engenharia de prompts desafiadora.
- Potenciais Melhorias na Eficiência e Previsibilidade: Aprofundar a compreensão dos LLMs pode levar a uma ativação mais eficiente de partes da rede neural, resultando em resultados mais previsíveis e consistentes.
- Visualizando a Codificação em Camadas: As arquiteturas Transformer em LLMs codificam informações em diferentes camadas, semelhante a como as CNNs processam imagens. Engenheiros de prompts podem explorar a ativação de camadas específicas para influenciar as saídas geradas.
- Cenário de Ferramentas e LLMOps: A atenção está se voltando para o cenário de ferramentas em torno dos LLMs, referido como LLMOps, que inclui práticas de desenvolvimento, implantação e gerenciamento. O termo ainda está em evolução.
LLMOps e Ferramentas Críticas para LLMs
LLMOps e o cenário de ferramentas em torno dos grandes modelos de linguagem (LLMs) estão ganhando atenção.
Quando se trata de gerenciamento de prompts, manuseio rápido de dados, rotulagem de feedback e outras tarefas essenciais, certas ferramentas devem desempenhar um papel crítico à medida que o uso de LLMs se expande. Algumas considerações importantes incluem:
- Bancos de Dados de Fatores: Bancos de dados pesquisáveis como o Minecon serão cruciais para recuperar contexto relevante para alimentar a rede neural. Acessar informações relevantes capacita a engenharia e otimização de prompts.
- Estruturas de Projeto: Projetos como o LangChain fornecem estruturas de codificação que facilitam a implementação de uma ampla gama de funcionalidades, contribuindo para o uso eficiente de LLMs.
- Integração e Infraestrutura: LLMs são tipicamente parte de programas mais amplos, necessitando de integração e gestão eficazes de vários componentes. Conectar diferentes partes para alcançar os resultados desejados é vital e pode exigir experiência em infraestrutura e gestão de memória.
- Monitoramento e Manutenção: Práticas tradicionais de machine learning, como monitoramento de regressões, avaliação de desempenho e avaliação da capacidade da infraestrutura, permanecem relevantes no contexto dos LLMs. Garantir o suporte adequado de infraestrutura e capacidade é crucial para um desempenho ótimo.
- Armazenamento de Prompts: Salvar prompts para uso futuro requer consideração cuidadosa. Embora várias opções, como bancos de dados, cache ou armazenamento de arquivos, possam ser usadas para armazenar texto e até mesmo texto parametrizável, projetar maneiras significativas de armazenar prompts é uma área contínua de exploração.
- Otimização de Memória: Lidar com os requisitos de memória de modelos grandes pode ser desafiador. Gerenciar o uso da RAM da GPU torna-se crucial, especialmente ao ajustar modelos que aumentam significativamente os requisitos de memória. Otimizar modelos para tipos específicos de GPU ou requisitos de latência exige experiência e suporte de ferramentas.
- Ferramentas de Gestão de Infraestrutura: À medida que as organizações executam LLMs em suas próprias infraestruturas de nuvem, novos desafios surgem em termos de gestão da infraestrutura. É necessário suporte de ferramentas para tarefas como autoescalonamento de GPU, garantia de tempo de atividade, otimização de custos e construção de sistemas escaláveis que se alinhem com requisitos de negócios específicos.
- Fluxos de Trabalho do Desenvolvedor: Ferramentas que aprimoram os fluxos de trabalho dos desenvolvedores ao trabalhar com LLMs são essenciais. Simplificar processos complexos e fornecer interfaces intuitivas pode ajudar a acelerar a adoção e tornar os LLMs mais acessíveis a uma gama mais ampla de usuários.
- Educando a Comunidade: Com o campo de LLMs ainda em fase exploratória, empresas como TrueFoundry têm a oportunidade de educar e guiar a comunidade sobre as ferramentas disponíveis, melhores práticas e soluções para desafios comuns.
📌
Avaliando Grandes Modelos de Domínio
No contexto do envolvimento humano na avaliação, a abordagem "human in the loop" (humano no ciclo) é comumente empregada em casos de uso sérios com LLMs. A validação humana é crucial para avaliar o desempenho do modelo e validar sua saída. Mesmo durante o processo de ajuste fino (fine-tuning) de modelos GPT, o envolvimento humano desempenhou um papel essencial.
Para casos de uso menos críticos, onde há margem para algum erro, uma abordagem econômica envolve o uso de modelos maiores para avaliar as respostas de modelos menores. Múltiplas respostas geradas pelos modelos menores podem ser comparadas e classificadas por um modelo maior, permitindo o estabelecimento de métricas para medir o desempenho. Embora esta abordagem incorra em alguns custos, é geralmente mais econômica em comparação com a dependência exclusiva de esforços humanos.
Mantendo-se Atualizado no Mundo em Constante Evolução
Manter-se atualizado no mundo em constante evolução dos LLMs e do aprendizado de máquina pode ser desafiador. Aqui estão algumas abordagens eficazes para se manter informado e adquirir conhecimento:
- Vídeos Explicativos sobre IA: Assistir a vídeos explicativos sobre IA em plataformas como o YouTube oferece uma maneira conveniente de compreender as principais descobertas e resultados de artigos acadêmicos sem a necessidade de leitura extensiva. Esses vídeos resumem conceitos complexos, economizando tempo e esforço.
- Comunidades Online: Engajar-se com comunidades online, como Hacker News e subreddits de aprendizado de máquina, oferece insights, discussões e atualizações sobre tendências e tecnologias emergentes na área.
- Experiência Prática: Participar ativamente de aplicações práticas de LLMs é crucial para obter uma compreensão mais profunda de seu potencial e limitações. Ao experimentar e explorar as capacidades, é possível aprimorar o conhecimento.
- Acessibilidade de APIs: Ao contrário do passado, onde o aprendizado de máquina exigia a revisão de conceitos matemáticos complexos, o cenário atual é mais impulsionado por APIs. APIs e bibliotecas pré-construídas permitem que os desenvolvedores comecem a experimentar e construir aplicações sem a necessidade de reaprender matemática avançada.
- Habilidades de Programação: Aprender métodos específicos de bibliotecas e resolver problemas de ambiente são habilidades valiosas para implementar LLMs de forma eficaz.
Leia nossos blogs anteriores na série True ML Talks:
Continue assistindo à série do YouTube TrueML youtube series e lendo a série de blogs.
TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, permitindo-lhes total flexibilidade no teste e implantação de modelos, ao mesmo tempo em que garante total segurança e controle para a equipe de Infraestrutura. Através da nossa plataforma, capacitamos as Equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos – permitindo-lhes economizar custos e lançar Modelos em produção mais rapidamente, possibilitando a realização de valor de negócio real.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI














.webp)






.webp)

.webp)
.webp)





.png)



