TrueML Talks #26: GenAI Empresarial e LLMOps

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

Estamos de volta com mais um episódio do True ML Talks. Neste, mergulhamos novamente em pipelines de MLOps e aplicações de LLMs em empresas, enquanto conversamos com Labhesh Patel.

Labhesh foi CTO e Cientista Chefe na Jumio Corporation, onde trabalhou na alavancagem de ML / IA no setor de verificação de identidade. Ele ocupou várias posições de liderança, tanto em engenharia quanto em ciência, no passado, em organizações líderes.

📌

Nossas conversas com Labhesh abordarão os seguintes aspectos:
- Artigos de Pesquisa e Patentes Interessantes
- Utilizando IA para resolver problemas de negócios
- Construindo o Pipeline de MLOps
- Quebrando os Silos: Construindo Equipes de MLOps Coesas para o Sucesso
- Navegando pelos Obstáculos dos Provedores de Nuvem
- Futuro da IA Generativa

Assista ao episódio completo abaixo:

Artigos de Pesquisa e Patentes Interessantes

Artigos de Pesquisa

Attention is All You Need: Este artigo introduziu a rede transformadora, que revolucionou o processamento de linguagem natural e lançou as bases para muitos LLMs como o ChatGPT.

‍

Attention Is All You Need

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.arXiv.orgAshish Vaswani

arXiv.org Ashish Vaswani

‍

Resposta Visual a Perguntas com Redes de Atenção Guiada Segmentadas: Este artigo propôs um método inovador para responder a perguntas sobre imagens, utilizando mapas de segmentação e mecanismos de atenção. Embora superado por técnicas mais recentes, ele destaca a importância de focar em áreas específicas de uma imagem para respostas precisas.

‍

Segmentation Guided Attention Networks for Visual Question Answering

Vasu Sharma, Ankita Bishnu, Labhesh Patel. Proceedings of ACL 2017, Student Research Workshop. 2017.

ACL Anthology

‍

CycleGen: Este artigo explora a ideia de gerar resumos de texto com base em avaliações de usuários e características de produtos. Ele antecede o ChatGPT e demonstra o potencial dos LLMs para auxiliar em tarefas de escrita.

‍

Cyclegen: Cyclic consistency based product review generator from attributes

Vasu Sharma, Harsh Sharma, Ankita Bishnu, Labhesh Patel. Proceedings of the 11th International Conference on Natural Language Generation. 2018.

ACL Anthology

‍

Patentes

Protocolo de Bufferização e Negociação de Voz sobre IP: Esta patente surgiu de uma simples correção de bug que melhorou a qualidade da voz em chamadas VoIP. Ela destaca o potencial de inovação em soluções aparentemente mundanas e a importância de considerar estratégias de patenteamento defensivo.

Utilizando IA para resolver problemas de negócios

Existem muitos desafios e oportunidades na transformação de processos manuais com IA. Aqui estão algumas lições importantes:

Comece pelo Negócio, Não pelo Hype

Identifique o problema central de negócio: Por que automatizar? Quais são os benefícios quantificáveis (escalabilidade, redução de custos, velocidade)?
Gerencie as expectativas: A IA não é mágica. Comunique o que é alcançável e defina métricas de desempenho realistas.
Compreenda o papel dos dados: 90% do trabalho reside na gestão, coleta e garantia de qualidade dos dados. Dados limpos são vitais para modelos precisos.

Construindo o Caminho Certo

Um passo de cada vez: Concentre-se em um único caso de uso de alto impacto para provar o conceito e construir seu pipeline.
Conformidade em primeiro lugar: Garanta o consentimento e o uso adequados dos dados antes mesmo de tocar em um único byte.
Métricas importam: Acompanhe métricas relevantes (precisão, recall, taxas de erro) para avaliar o sucesso e guiar decisões futuras.
Trabalho em equipe é fundamental: Monte uma equipe com experiência em engenharia de ML, gestão de dados e desenvolvimento de produtos.

Além do Primeiro Passo

Iterar e evoluir: Avalie, melhore e expanda continuamente suas soluções de IA com base em dados e feedback.
Abrace a curva de aprendizado: Esteja preparado para investir em talentos e educação para construir uma cultura de compreensão de IA dentro da sua organização.

Coisas importantes a ter em mente

Cuidado com a armadilha dos 99%: Alta precisão em casos isolados pode mascarar problemas maiores. Preste atenção ao desempenho geral e às taxas de erro.
Pense estatisticamente: Métricas como precisão e recall fornecem uma imagem mais detalhada do desempenho da IA do que simples percentagens de acurácia.

Ao priorizar as necessidades do negócio, focar na qualidade dos dados e construir uma equipe forte, você pode navegar pelas complexidades e desbloquear o verdadeiro potencial da IA para transformar suas operações.

Construindo o Pipeline de MLOps

Para quem está construindo sistemas complexos de ML, há algumas coisas que você pode ter em mente.

Adote a Nuvem como Prioridade, Mas Mantenha-se Ágil

Aproveite as ferramentas de MLOps integradas do seu provedor de nuvem, como o AWS SageMaker, para uma configuração inicial rápida.
Evite obstáculos de gerenciamento de fornecedores e conformidade permanecendo dentro do ecossistema da nuvem.
Vá além das ofertas nativas quando surgirem limitações, buscando soluções especializadas como plataformas de código aberto ou fornecedores.

Importância da Qualidade dos Dados

Reconheça que os provedores de nuvem frequentemente negligenciam a qualidade dos dados, exigindo sistemas internos adicionais ou serviços de terceiros.
Priorize a limpeza e validação automatizadas de dados para garantir a precisão e o desempenho do modelo.

Considerações arquitetônicas

Construção de modelos vs. produção: Considere equipes separadas para desenvolvimento e implantação de modelos, com conjuntos de habilidades e responsabilidades distintas.
Estrutura para escalabilidade e agilidade: Projete uma arquitetura flexível que possa acomodar novas ferramentas e integrações à medida que o pipeline evolui.

Quebrando os Silos: Construindo Equipes Coesas de MLOps para o Sucesso

No mundo acelerado do MLOps, a colaboração é fundamental. Mas, com muita frequência, as equipes ficam fragmentadas, com cientistas de dados construindo modelos isoladamente e engenheiros lutando para implantá-los e mantê-los. O resultado? Progresso lento, oportunidades perdidas e partes interessadas frustradas.

Então, como quebramos esses silos e construímos equipes de MLOps que prosperam?

Reunindo todos

Imagine uma equipe multifuncional de 8 a 10 indivíduos, cada um com experiência única: gerentes de produto, engenheiros de dados, DevOps, segurança, engenheiros de ML, QA e até mesmo suporte ao cliente. Este grupo diversificado, unido por um objetivo comum (por exemplo, reduzir fraudes), torna-se uma força poderosa para inovação e eficiência.

Veja por que essa abordagem funciona:

Propriedade compartilhada: Quando todos se sentem responsáveis por todo o ciclo de vida de um modelo, não há uma mentalidade de "passar a bola". Os problemas são abordados colaborativamente e as soluções são otimizadas para implantação e manutenção no mundo real.
Decisões informadas: Engenheiros de dados entendem as necessidades de ML, e engenheiros de ML apreciam as realidades da implantação. Essa troca de conhecimentos leva a uma melhor seleção de modelos e engenharia de recursos, evitando as armadilhas de modelos "perfeitos para pesquisa" que são impossíveis de implantar.
Iterações mais rápidas: A colaboração próxima promove a comunicação e a agilidade. A equipe pode experimentar, refinar e iterar rapidamente em modelos, maximizando o impacto de seus esforços.

Lidando com lacunas de habilidades para construir uma equipe assim

É de suma importância fazer contratações direcionadas. Você precisa de engenheiros de dados com um forte entendimento de pipelines de ML e engenheiros de ML que apreciem os princípios de engenharia de software. Essa combinação de habilidades diversas é o ingrediente secreto para uma equipe MLOps de alto desempenho.

Quebrar silos não é apenas sobre estrutura, é sobre cultura. Incentive a comunicação aberta, celebre diversas perspectivas e crie um ambiente onde todos se sintam capacitados para contribuir. Ao fazer isso, você construirá uma equipe MLOps coesa que pode transformar seus sonhos de ML em realidade.

Navegando por Obstáculos de Provedores de Nuvem

Existem muitos obstáculos potenciais que você pode encontrar ao depender fortemente de um Provedor de Nuvem. Nesses cenários, é muito importante ser capaz de mudar de direção quando tal obstáculo surgir.

Não tenha medo de explorar alternativas: Quando os provedores de nuvem atingem limitações, procure fornecedores especializados ou soluções de código aberto para preencher as lacunas.
A comunicação proativa é importante: Não hesite em expressar suas preocupações diretamente aos provedores de nuvem. O feedback pode levar a uma melhor colaboração e acesso a soluções exclusivas.
A adaptabilidade é fundamental: Esteja preparado para ajustar sua abordagem com base nas tecnologias emergentes e nas ofertas em constante mudança dos provedores.

Aqui estão alguns desafios comuns que podem surgir

Desafio 1: Acesso a dados super-regulamentados

Ao lidar com dados sensíveis (PII, registros de saúde), regulamentações rigorosas como GDPR e CCPA entram em jogo. Provedores de nuvem, embora em conformidade com padrões gerais, podem não oferecer ferramentas específicas para acesso seguro e trilhas de auditoria.

As soluções potenciais para estes são:

Fornecedores alternativos: Procure empresas especializadas em ambientes altamente regulamentados e que ofereçam controle de acesso granular e recursos de auditabilidade.
Soluções de código aberto: Considere ferramentas de código aberto e personalize-as para atender a necessidades específicas de conformidade.

Desafio 2: Recursos proprietários e acesso limitado

Às vezes, os provedores de nuvem retêm recursos específicos ou os lançam em seu próprio cronograma, deixando os clientes à espera de funcionalidades cruciais.

A solução potencial para isso é ser proativo na comunicação com seu ponto de contato para aquele provedor de nuvem.

Dar feedback direto ao POC e comunicar os obstáculos que você enfrenta pode, às vezes, garantir a você e sua equipe acesso antecipado a programas beta privados, assegurando que você não perca futuras soluções.

Lembre-se, mesmo com obstáculos, uma mentalidade proativa e adaptável pode transformar desafios em oportunidades no mundo em constante evolução do MLOps baseado em nuvem.

O Futuro da IA Generativa

A IA Generativa, particularmente os LLMs (Large Language Models), está em alta. No entanto, atualmente, os LLMs estão em uma "fase de hype", elogiados por suas habilidades mágicas de lidar com diversas tarefas. Os desenvolvedores recorrem a fazer chamadas de API para os LLMs, o que leva a problemas como limitação de taxa e altos custos.

Desafios para a Adoção Empresarial

Custo e escalabilidade: Modelos grandes são caros e computacionalmente exigentes, tornando-os inadequados para uso empresarial generalizado.
Segurança e viés do modelo: Ambientes empresariais exigem segurança do modelo e controle sobre potenciais vieses, o que pode ser difícil com LLMs.
Tempo de inferência: LLMs enfrentam problemas de latência, causando atrasos que prejudicam a produtividade e a experiência do usuário.

O Futuro: Small Language Models ao Resgate?

Pode haver uma mudança em direção aos SLMs, treinados para tarefas e domínios específicos dentro das empresas.

Essa "arquitetura roteada" direcionaria as consultas para o SLM apropriado, resultando em respostas mais rápidas e eficientes.

Modelos menores também abordam preocupações com custo e escalabilidade, tornando-os mais acessíveis às empresas.

Gatilhos e Considerações da Transição

A transição provavelmente ocorrerá gradualmente, impulsionada pelas limitações práticas dos LLMs e pela crescente disponibilidade de SLMs eficazes.

A redução de custos e a latência aprimorada desempenharão papéis fundamentais na aceleração da adoção de SLMs.

Leia nossos blogs anteriores da série True ML Talks:

‍

GenAI and LLMOps for GTM (Go-To-Market) @ Twilio‍

Dive deep into Twilio’s GenAI applications like XGPT, and RFP Genie for revolutionizing GTM (Go-To-Market) Strategies. Deep dive into the Backend for these applications.

TrueFoundry Blog TrueFoundry

‍

Continue assistindo à TrueML série do YouTube e lendo a TrueML série de blogs.

TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, permitindo-lhes total flexibilidade no teste e implantação de modelos, ao mesmo tempo em que garante total segurança e controle para a equipe de Infraestrutura. Através da nossa plataforma, capacitamos as equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos - permitindo-lhes economizar custos e lançar Modelos em produção mais rapidamente, possibilitando a realização de valor de negócio real.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now