True ML Talks #16 - Pipeline de ML na Digits

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

Casos de Uso de ML na Digits

A Digits é uma empresa de software de gestão financeira que utiliza IA para automatizar tarefas de contabilidade para operadores. Ao automatizar tarefas como classificação de transações, detecção de anomalias e detecção de fraudes, a Digits ajuda os operadores a duplicar a sua base de clientes e a melhorar o seu tempo de resposta aos clientes.

Onboarding de clientes: A Digits utiliza IA para ajudar novos clientes a configurar a sua conta e a conectar as suas contas bancárias de forma rápida e fácil.
Classificação de transações: A Digits utiliza IA para classificar transações automaticamente, poupando tempo aos contabilistas e garantindo uma categorização precisa.
Detecção de anomalias: A Digits utiliza IA para detetar anomalias em transações, ajudando os contabilistas a identificar e investigar rapidamente transações incomuns.
Relatórios: A Digits fornece aos contabilistas uma variedade de relatórios gerados por IA para poupar tempo e obter rapidamente os insights de que necessitam.

Modelos de ML Utilizados pela Digits:

Modelos de classificação: Classificam transações em diferentes categorias, como refeições, viagens e inventário.
Modelos de previsão: Preveem resultados futuros, como rotatividade de clientes e fraude.
Modelos generativos: Geram texto, como perguntas a fazer aos clientes e mensagens a enviar aos clientes.
Modelos baseados em similaridade: Encontrar padrões semelhantes em transações e replicá-los.

Jornada de ML da Digits

A Digits precisava migrar para modelos de deep learning e PNL para enfrentar os desafios da subjetividade contábil. Além disso, a Digits possuía uma base sólida em engenharia de dados e Kubernetes, o que seria essencial para construir e escalar uma plataforma de ML bem-sucedida.

A equipe começou introduzindo o TFX para orquestração de pipelines de ML e o TF Serving para disponibilização de modelos. Isso permitiu à Digits construir e implantar modelos de ML de forma escalável e confiável.

Em seguida, a equipe focou no desenvolvimento de pipelines baseados em similaridade. Esses pipelines são capazes de classificar transações com precisão e identificar anomalias, mesmo quando os dados são ambíguos ou incompletos. Isso ocorre porque os pipelines baseados em similaridade encontram padrões semelhantes em transações e os replicam. Essa abordagem é mais eficaz do que usar modelos globais de machine learning, que podem gerar resultados inconsistentes dependendo da interpretação do contador sobre os dados.

Os pipelines de ML da Digits são agora usados para alimentar uma variedade de funcionalidades, incluindo classificação de transações, detecção de anomalias e detecção de fraudes. Como resultado, a Digits é capaz de fornecer aos seus clientes insights valiosos e ajudá-los a automatizar tarefas, melhorar a precisão e economizar dinheiro.

Orquestrando o Treinamento de ML no Kubernetes

A abordagem da Digits para o treinamento de ML é bem organizada e eficiente. O uso do Kubernetes para orquestração permite à Digits escalar suas operações de treinamento conforme necessário. O uso do TensorFlow Transform para pré-processamento e da plataforma de treinamento em projetos do Google Cloud fornece à Digits as ferramentas e recursos necessários para treinar modelos complexos de forma rápida e eficiente. O uso de um conjunto de validação e de um registro de modelos garante que a Digits esteja entregando modelos de alta qualidade para produção.

A Digits orquestra o treinamento de ML no Kubernetes usando as seguintes etapas:

Processo ETL: A Digits usa um processo ETL para coletar artefatos de todo o sistema e inicializar conjuntos de dados de forma contínua.
Validação de dados e criação de esquema: A Digits valida as estatísticas dos conjuntos de dados e cria esquemas.
Pré-processamento: A Digits usa o TensorFlow Transform para pré-processar os dados.
Treinamento: A Digits treina os modelos em projetos do Google Cloud usando a plataforma de treinamento.
Avaliação: A Digits avalia os modelos treinados usando um conjunto de validação.
Registro de modelos: A Digits envia os modelos treinados para um registro de modelos.
Implementação: A Digits utiliza um sistema de CI/CD para implementar os modelos treinados em produção.

Gerenciamento da Alocação de Recursos de GPU no Treinamento de ML na Digits

No domínio da alocação de recursos de GPU para treinamento de ML, a Digits emprega uma abordagem abrangente que envolve procedimentos manuais e automatizados. Esta estratégia inclui:

Processos Manuais: A Digits estabelece limites claros de uso de GPU para equipes e projetos, a fim de manter uma alocação equitativa e evitar o uso excessivo. Além disso, promove a comunicação aberta entre os engenheiros de ML, fomentando a conscientização sobre os recursos e mitigando conflitos.

Processos Automatizados: A Digits mantém vigilância através do monitoramento contínuo do uso da GPU, emitindo alertas oportunos caso o uso exceda os limites predefinidos para facilitar a identificação e resolução precoce de problemas. Um sistema de filas garante uma alocação justa de GPU, seguindo o princípio de "primeiro a chegar, primeiro a ser servido".

Melhores Práticas: A Digits incentiva os engenheiros de ML a planejar proativamente a utilização da GPU, garantindo a disponibilidade de recursos e a minimização de conflitos. O aproveitamento de recursos da nuvem oferece flexibilidade, assegurando acesso adequado à GPU mesmo durante períodos de alta demanda. A promoção da transparência na utilização da GPU fomenta a confiança e a cooperação entre os membros da equipe, aprimorando, em última análise, o gerenciamento de recursos.

Utilizando o TensorFlow Profiler para Análise de Execuções de Treinamento na Digits

Na Digits, o TensorFlow Profiler ocupa o centro das atenções na análise de execuções de treinamento, fornecendo insights valiosos para a otimização de modelos de ML:

A Digits registra diligentemente cada execução de treinamento através do TensorFlow Profiler, permitindo o acompanhamento das tendências de desempenho ao longo do tempo.

Métricas vitais, incluindo duração do treinamento, consumo de memória e precisão, são meticulosamente rastreadas, facilitando comparações de desempenho significativas entre diversos modelos e configurações.

O TensorFlow Profiler capacita a Digits a comparar sistematicamente o desempenho de várias execuções de treinamento, auxiliando assim na seleção criteriosa do modelo e da configuração mais adequados para abordar domínios de problemas específicos.

Benefícios:

Desempenho Aprimorado: O TensorFlow Profiler identifica e resolve gargalos de desempenho, resultando em melhorias significativas na velocidade e precisão do treinamento.
Redução de Custos: O desempenho aprimorado do treinamento reduz o custo total do treinamento de modelos de ML para a Digits.
Maior Transparência: Insights detalhados de desempenho fornecidos pelo TensorFlow Profiler aprimoram a compreensão da Digits sobre o treinamento de modelos de ML e ajudam a identificar problemas potenciais precocemente.

Otimizando Conjuntos de Validação para Pipelines de ML Baseados em Similaridade

Ao elaborar conjuntos de validação para pipelines de ML baseados em similaridade, considere estes fatores-chave:

Objetivo: Defina o objetivo do modelo — o que constitui similaridade entre pontos de dados? Uma vez que este objetivo esteja claro, o conjunto de validação pode ser preenchido com exemplos conhecidos similares e dissimilares.
Contexto: O conjunto de validação deve espelhar a aplicação do modelo no mundo real. Por exemplo, se o modelo recomenda produtos a clientes, ele deve incluir itens que os clientes frequentemente compram juntos.
Tamanho: Encontre um equilíbrio — seu conjunto de validação deve ser estatisticamente significativo, mas gerenciável. Uma diretriz geral é que ele tenha pelo menos 10% do tamanho do conjunto de treinamento.
Variabilidade: Para reforçar a robustez do modelo, garanta que seu conjunto de validação abranja pontos de dados diversos.
Impacto dos Operadores: O número de operadores pode enviesar o conjunto de validação em direção a indústrias específicas. Para mitigar isso, incorpore exemplos de diversas verticais e indústrias.

Desafios e Otimizações de Pipelines de ML Baseados em Similaridade

Pipelines de ML baseados em similaridade apresentam uma série de desafios e otimizações únicos, em comparação com pipelines de ML tradicionais.

Desafios:

Escolhendo uma função de perda: Há uma variedade de funções de perda diferentes que podem ser usadas para modelos de ML baseados em similaridade. Escolher a função de perda correta é importante para garantir a precisão e a confiabilidade do modelo.
Estruturando os dados de treinamento: A forma como os dados de treinamento são estruturados depende da função de perda escolhida. É importante estruturar os dados de treinamento de uma forma que seja eficiente e eficaz.
Otimizando para desempenho: Modelos de ML baseados em similaridade podem ser computacionalmente caros para treinar. É importante otimizar o processo de treinamento para desempenho.

Otimizações:

Use uma GPU: GPUs podem acelerar significativamente o treinamento de modelos de ML baseados em similaridade.
Crie o perfil do modelo: A criação do perfil do modelo durante o treinamento pode ajudar a identificar gargalos e áreas onde o processo de treinamento pode ser melhorado.
Pré-processe os dados: O pré-processamento dos dados pode melhorar o desempenho do modelo e reduzir o tempo de treinamento.
Reduza os tokens de entrada: Se estiver usando um modelo de linguagem, reduzir o número de tokens de entrada pode melhorar o desempenho do modelo e reduzir o tempo de treinamento.

Digits usa TensorFlow Extended e Vertex AI Pipelines para Pipelines de ML Baseados em Similaridade

A Digits usa TensorFlow Extended (TFX) e Vertex AI Pipelines para pipelines de ML baseados em similaridade. TFX é uma plataforma de ponta a ponta de código aberto, desenvolvida pelo Google, para construir, implantar e gerenciar pipelines de ML. Vertex AI Pipelines é um serviço de nuvem totalmente gerenciado para gerenciar pipelines de ML.

TFX oferece vários componentes que são úteis para a construção de pipelines de ML baseados em similaridade, incluindo:

Validação de Dados TFX: Valida a qualidade e a consistência dos dados de treinamento.
TFX Transform: Pré-processa os dados de treinamento, incluindo o tratamento de valores ausentes, a conversão de tipos de dados e o escalonamento de características.
TFX Model Analysis: Avalia o desempenho de modelos treinados em um conjunto de validação separado.
TFX Serving: Implanta modelos treinados em produção.

O Vertex AI Pipelines facilita a execução e o gerenciamento de pipelines TFX em escala. O Vertex AI Pipelines oferece uma série de recursos úteis para pipelines de ML baseados em similaridade, incluindo:

Escalonamento automático: O Vertex AI Pipelines pode escalar automaticamente os recursos usados para executar pipelines, com base na demanda.
Monitoramento e alertas: O Vertex AI Pipelines oferece recursos de monitoramento e alerta que podem ajudar a identificar e resolver problemas com pipelines.
Controle de versão: O Vertex AI Pipelines oferece recursos de controle de versão que facilitam o rastreamento e o gerenciamento de alterações em pipelines.

Digits Utiliza Vertex Endpoints para Registro de Modelos e TF Serving para Produção

Digits utiliza Vertex Endpoints para registro de modelos e TF Serving para produção.

O Vertex Endpoints é um serviço de nuvem totalmente gerenciado para implantação e gerenciamento de modelos de aprendizado de máquina. Ele oferece uma série de recursos que o tornam uma boa escolha para registro de modelos, incluindo:

Gerenciamento centralizado: O Vertex Endpoints oferece um local central para armazenar e gerenciar modelos.
Controle de versão: O Vertex Endpoints oferece recursos de controle de versão que facilitam o rastreamento e o gerenciamento de alterações em modelos.
Controle de acesso: O Vertex Endpoints oferece recursos de controle de acesso que facilitam o controle de quem pode acessar e implantar modelos.

O TF Serving é um sistema de serviço TensorFlow de alto desempenho e pronto para produção. Ele oferece uma série de recursos que o tornam uma boa escolha para a produção, incluindo:

Alto desempenho: O TF Serving pode servir modelos com alta taxa de transferência e baixa latência.
Escalabilidade: O TF Serving pode ser escalado para lidar com um grande número de solicitações.
Confiabilidade: O TF Serving foi projetado para ser confiável e pronto para produção.

A Digits usa CI/CD para automatizar a implantação de modelos no Vertex Endpoints. Quando um modelo é registrado no registro de modelos, o sistema CI/CD é acionado. O sistema CI/CD então constrói um modelo TF Serving e o implanta em um Vertex Endpoint.

Benefícios:

Há uma série de benefícios em usar o Vertex Endpoints e o CI/CD para a produção:

Escalabilidade: O Vertex Endpoints pode escalar automaticamente os recursos usados para servir modelos, o que facilita o tratamento de um grande número de solicitações.
Confiabilidade: O Vertex Endpoints foi projetado para ser confiável e pronto para produção.
Automação: O CI/CD automatiza a implantação de modelos, o que reduz o risco de erro humano e facilita a implantação frequente de modelos.

Como a Digits Detecta Automaticamente Quando os Modelos Precisam Ser Retreinados

A Digits usa uma combinação de técnicas para detectar automaticamente quando os modelos precisam ser retreinados:

Monitoramento de previsões de modelos: O Digits monitora as previsões de modelos em produção. Se as previsões começarem a ficar imprecisas, isso pode ser um sinal de que o modelo precisa ser retreinado.
Rastreamento de métricas de desempenho do modelo: O Digits rastreia uma série de métricas de desempenho do modelo, como acurácia, precisão,and recall. Se essas métricas começarem a degradar, isso pode ser um sinal de que o modelo precisa ser retreinado.
Validação de trechos de dados: O Digits valida periodicamente trechos de dados da produção. Isso ajuda a identificar qualquer desvio de dados (data drift) que possa estar ocorrendo. Se o desvio de dados for detectado, isso pode ser um sinal de que o modelo precisa ser retreinado.
Revisão das saídas do modelo: O Digits possui uma plataforma de revisão interna onde os funcionários podem revisar as saídas dos modelos. Isso ajuda a identificar quaisquer casos em que o modelo não esteja fazendo previsões precisas. Se tais casos forem identificados, isso pode ser um sinal de que o modelo precisa ser retreinado.

Assim que o Digits detecta que um modelo precisa ser retreinado, ele usa CI/CD para automatizar o processo de retreinamento e implantação. O sistema de CI/CD constrói um novo modelo TF Serving usando os dados de treinamento mais recentes e o implanta em um Vertex Endpoint.

Exemplo:

A seguir, um exemplo de como o processo automático de retreinamento de modelos do Digits funciona:

Um modelo em produção faz uma previsão imprecisa.
O sistema de monitoramento do Digits detecta a previsão imprecisa e envia uma notificação ao sistema de CI/CD.
O sistema de CI/CD aciona um novo trabalho de treinamento.
O trabalho de treinamento treina um novo modelo usando os dados de treinamento mais recentes.
O sistema de CI/CD implanta o novo modelo em um Vertex Endpoint.
O novo modelo é agora usado para fazer previsões em produção.

A Importância da Colaboração Entre Engenheiros de ML e Designers

Engenheiros de machine learning (ML) e designers frequentemente trabalham isoladamente, o que pode levar a problemas ao tentar levar modelos de ML para produção. Engenheiros de ML podem desenvolver modelos que são precisos, mas não amigáveis ao usuário, enquanto designers podem criar interfaces visualmente atraentes, mas que não coletam feedback sobre as previsões do modelo.

Para abordar esses desafios, é importante que engenheiros de ML e designers colaborem de perto. Isso pode ser feito por meio de:

Colaborando nos requisitos do produto: Engenheiros de ML e designers devem trabalhar juntos para definir os requisitos do produto para modelos de ML. Isso ajudará a garantir que os modelos sejam desenvolvidos para atender às necessidades dos usuários e que o design das interfaces seja compatível com os modelos.
Compartilhando feedback: Engenheiros de ML e designers devem compartilhar feedback regularmente entre si. Isso ajudará a identificar quaisquer problemas potenciais com os modelos ou as interfaces logo no início.
Criando ciclos de feedback: Engenheiros de ML e designers devem criar ciclos de feedback para coletar a opinião dos usuários sobre o desempenho dos modelos e a usabilidade das interfaces. Esse feedback pode ser usado para aprimorar os modelos e as interfaces ao longo do tempo.

Conselhos para Construir Plataformas de ML

Eficiência: Concentre-se na construção de pipelines MLOps eficientes para aplicações específicas, como aquelas que exigem dados proprietários ou altos níveis de privacidade e segurança.
API-first: Considere usar modelos pré-treinados da OpenAI, Anthropic, Bard e outros provedores para tarefas genéricas.
Consultoria: Concentre-se em consultar outros membros da equipe sobre como usar essas APIs e resolver problemas específicos de domínio.

IA Generativa @ Digits

A IA generativa tem o potencial de revolucionar muitas indústrias. Aqui estão alguns dos casos de uso para IA generativa na Digits:

Aumentando a comunicação entre contadores e operadores: A IA generativa pode ser usada para gerar estimativas de perguntas e respostas, o que pode economizar tempo e esforço para ambas as partes.
Hospedagem interna de grandes modelos de linguagem: A Digits possui sua própria infraestrutura para hospedar grandes modelos de linguagem, o que lhe permite fazê-lo de forma segura e orientada para a privacidade.
Usando acesso baseado em API a modelos de IA generativa: Há potencial para combinar o acesso baseado em API a modelos de IA generativa com aprendizado de máquina baseado em similaridade para proporcionar uma experiência de produto extraordinária.

Existem preocupações com privacidade e segurança associadas à IA generativa, e é importante abordar essas preocupações de forma responsável. Nós, como comunidade, podemos encontrar maneiras de desenvolver e usar a IA generativa de forma segura e benéfica para todos.

O cenário de hospedagem de registro de modelos e casting mudará significativamente nos próximos anos para acomodar as necessidades de grandes modelos de linguagem. - Hannes

Leia nossos blogs anteriores da série True ML Talks:

‍

True ML Talks #14 - LLMs, RL @CX Score Co-Founder

Deep dive into LLM and Reinforcement Learning. We talk with Ashwin, Co-Founder at CX Score about the trends in the LLM and ML space.

TrueFoundry Blog TrueFoundry

‍

Continue assistindo à série TrueML no YouTube e lendo a série de blogs TrueML ..

TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, permitindo-lhes total flexibilidade no teste e implantação de modelos, ao mesmo tempo em que garante total segurança e controle para a equipe de Infraestrutura. Através de nossa plataforma, capacitamos as equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos – permitindo-lhes economizar custos e lançar modelos em produção mais rapidamente, possibilitando a realização de valor de negócio real.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now