True ML Talks #5 - Plataforma de Machine Learning @ Simpl

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Estamos de volta com mais um episódio do True ML Talks. Neste, vamos aprofundar em da Simpl Plataforma de ML, e vamos conversar com Sheekha.
Sheekha é a Diretora de Ciência de Dados da Simpl. A Simpl está construindo a principal rede de checkout de primeiro toque da Índia, onde fornece aos comerciantes um conjunto completo de produtos, desde BNPL até ajudá-los a pagar em parcelas e muitos outros serviços de valor agregado. Eles trabalham com mais de 26.000 comerciantes em toda a Índia, incluindo as plataformas JIO, que é a maior rede de telecomunicações; Zomato, que é um dos maiores serviços de entrega de comida do país, e muito mais.
📌
Nossas conversas com Sheekha abordarão os seguintes aspectos:
- Casos de uso de ML na Simpl
- Visão geral da Infraestrutura de ML da Simpl
- Gerenciamento de Custos para Treinamento de ML
- Gerenciando Pipelines de Treinamento e Inferência Separadamente
- Automação no Retreinamento de Modelos de ML
- A incursão da Simpl na construção interna
- Considerações para Sistemas em Tempo Real e Modelos de Ciência de Dados
- Tornando a Implantação de ML tão Simples quanto Software
- Integrando Princípios de Engenharia na Ciência de Dados
Assista ao episódio completo abaixo:
Casos de Uso de ML na Simpl
- Prevenção de fraudes e avaliação de risco: O sistema de ML da Simpl analisa cada transação e utiliza regras simples, filtros, modelos de machine learning e sistemas de redes neurais para identificar transações de alto risco, como casos de apropriação de conta, roubo de identidade ou outras atividades suspeitas. O sistema pode prevenir transações fraudulentas, o que pode resultar em perda de dinheiro e na incapacidade de atender bons clientes.
- Análise de crédito: O sistema de ML da Simpl ajuda a empresa a tomar decisões de análise de crédito ao analisar os dados de integração fornecidos pelos usuários. O sistema determina o valor de crédito a que um usuário é elegível e qual deve ser o seu limite de gastos. As equipes da Simpl estão envolvidas no processo de análise de crédito e estão avançando para pipelines e sistemas mais em tempo real.
- Suporte ao cliente: O sistema de ML da Simpl ajuda a empresa a trabalhar com clientes que têm dificuldade em pagar em dia. O sistema pode lembrar os clientes sobre pagamentos futuros ou oferecer planos de pagamento alternativos que funcionem para ambas as partes. As equipes da Simpl trabalham com os clientes para encontrar a melhor solução, garantindo uma experiência positiva ao cliente.
Encontramos esta interessante matéria de notícias sobre como a Simpl está utilizando ML para detecção de fraudes:
Equipe de Ciência de Dados na Simpl
A equipe de ciência de dados da Simpl é composta por 28 cientistas de dados e 16 engenheiros de dados. A equipe é uma parte central da Simpl, juntamente com outras equipes de engenharia, e eles têm uma equipe de DevOps separada. A equipe está trabalhando em ML, sistemas de redes neurais, regras, bancos de dados de grafos e modelos de machine learning de grafos para analisar comunidades de usuários fraudulentos.
A Pilha Tecnológica e o Fluxo de Trabalho da Equipe de Ciência de Dados da Simpl
Do ponto de vista da pilha tecnológica atual, a empresa tem tudo na nuvem, sem sistemas locais implementados.
A equipe de ciência de dados da Simpl utiliza uma máquina remota com notebooks Python e bibliotecas construídas pela equipe de engenharia de dados para se conectar a bancos de dados e realizar análise exploratória de dados (EDA). Uma vez concluída a análise de dados, a equipe configura um pipeline com a ajuda da equipe de engenharia de dados para implantar o modelo. Para modelos em lote, a equipe utiliza o Airflow para agendamento.
O monitoramento de modelos é feito usando os painéis da Simpl para rastrear mudanças na saída. Em termos de MLOps, a Simpl está atualmente investindo na área. Para sistemas antifraude, a empresa possui um modelo que utiliza sistemas em lote para analisar IDs de e-mail e números de telefone semelhantes. A equipe também possui algumas ferramentas que funcionam em tempo real para monitorar transações com base na velocidade da transação e no valor transacionado.
A Simpl também implantou um modelo de rede neural para monitoramento de transações. O modelo combina a carga útil atual com dados históricos do último ano e a envia para o modelo de rede neural para uma decisão sobre permitir ou recusar a transação. A equipe de engenharia de dados construiu um pipeline Flink para gerenciar o tráfego de pico e garantir um SLA baixo de 70-80 milissegundos.
📌
Feature Store:
Um feature store é um repositório centralizado para armazenar e gerenciar features, que são propriedades ou características mensuráveis individuais de dados utilizadas para treinar modelos de machine learning.
Simpl atualmente usa DynamoDB como um feature store para disponibilidade em tempo real. No entanto, isso é caro, e há esforços para construir um feature store interno para reduzir os custos a longo prazo.
Encontramos este blog interessante sobre como a Ciência de Dados evoluiu na Simpl:
Gerenciando Custos para Modelos de ML: Desafios e Soluções
Gerenciar os custos associados à implementação e escalonamento de modelos de machine learning (ML) é um desafio crítico. É especialmente importante para modelos que exigem grandes volumes de dados e utilizam recursos caros, como pipelines Flink e máquinas virtuais.
A equipe de ML lida com terabytes de dados, o que exige o uso de máquinas virtuais para tarefas de treinamento. Equilibrar os custos em relação aos benefícios dos modelos é crucial.
Para mitigar os custos, a equipe colabora com as equipes de DevOps e engenharia de dados para explorar opções econômicas. Eles também têm trabalhado na construção de um feature store interno para reduzir os custos de uso do DynamoDB. Outra medida de economia de custos que eles empregam é o uso de instâncias spot para tarefas não críticas.
No entanto, gerenciar custos é um processo contínuo que exige avaliação constante da relação custo-benefício do modelo. Fatores como o equilíbrio entre precisão e recall e o custo de bons usuários também entram em jogo ao decidir a melhor medida de economia de custos
📌
Interação entre a Equipe de ML e a Equipe de DevOps:
A colaboração entre as equipes de DevOps e ciência de dados é necessária para provisionar máquinas virtuais para projetos de machine learning, e geralmente há um prazo mínimo de três dias. A equipe de DevOps recebe várias solicitações, incluindo as da equipe de ciência de dados, que exigem consideração de custo e colaboração com a equipe de engenharia de dados para serem atendidas. Em caso de solicitação urgente, a equipe de DevOps pode acelerar o processo de provisionamento sem considerar as implicações de custo. A equipe de ciência de dados considera o atraso de três dias no plano de implantação do projeto.
Gerenciando Pipelines de Treinamento e Inferência Separadamente: Prós e Contras
Gerenciar os pipelines de treinamento e inferência separadamente pode levar a uma série de problemas que podem afetar a eficiência geral do sistema. A principal razão para isso é que pode dificultar o rastreamento das origens dos modelos, a retenção dos códigos e a replicação dos resultados. Também pode levar a erros humanos e ao crescimento exponencial de problemas, especialmente em startups.
Por outro lado, gerenciar esses pipelines separadamente pode proporcionar maior flexibilidade e controle sobre o sistema, permitindo otimizar cada processo de forma independente. Também pode permitir escalar o sistema mais facilmente, adicionando novos recursos aos pipelines de treinamento ou inferência conforme necessário.
No entanto, idealmente, você desejaria mesclar esses pipelines e incorporar o retreinamento no mesmo processo. Ao fazer isso, você pode evitar os problemas associados ao gerenciamento desses pipelines separadamente. Você ainda será capaz de manter a flexibilidade e o controle que vêm com o gerenciamento independente. No geral, a decisão de gerenciar esses pipelines separadamente ou juntos depende das necessidades específicas da sua organização e dos recursos disponíveis.
A Importância da Automação no Retreinamento de Modelos de ML
O retreinamento de modelos de ML é uma parte crucial para manter sua precisão e relevância. No entanto, o retreinamento manual pode ser demorado e propenso a erros. É por isso que a automação desempenha um papel vital para garantir que o processo seja eficiente, confiável e escalável.
A automação do retreinamento pode ajudar as organizações a definir intervalos específicos para acionar o retreinamento, garantindo que os modelos sejam atualizados regularmente. Isso também pode ajudar a economizar tempo e recursos, pois a automação elimina a necessidade de intervenção manual.
No entanto, pode haver desafios na automação do retreinamento para modelos complexos que exigem hardware ou software especializado. Nesses casos, o retreinamento manual pode ser necessário até que uma solução automatizada possa ser implementada.
A aposta da Simpl no desenvolvimento interno
Desafios do uso do SageMaker em projetos de Machine Learning
O uso do SageMaker tem sido um divisor de águas para as equipes de ciência de dados no que diz respeito ao tratamento de grandes conjuntos de dados para projetos de machine learning. No entanto, a plataforma ainda apresenta alguns desafios que podem impactar a produtividade da equipe.
- Alocação de recursos: Quando várias pessoas fazem login no SageMaker ao mesmo tempo, carregar um arquivo ou modelo grande pode travar o sistema para todos. Isso afeta não apenas a pessoa que iniciou a solicitação, mas todos os outros. Isso destaca a necessidade de um sistema que possa gerenciar tais problemas por parte da equipe.
- Custo de execução de GPU: O custo de execução de instâncias de GPU para modelos de redes neurais, que são essenciais para processar grandes quantidades de dados, pode ser muito alto, e a equipe precisa ter cautela ao usá-las. Para economizar custos, eles configuraram um sistema que desliga o notebook se ele ficar ocioso por um determinado período. No entanto, eles esperam migrar para um sistema mais automatizado que escala para cima e para baixo de acordo com o uso.
Embora o SageMaker tenha sido uma plataforma útil para a equipe, ainda existem outras opções como o Kubernetes que eles ainda não experimentaram. No entanto, a decisão de usar o SageMaker foi impulsionada principalmente pela necessidade de um sistema mais rápido que pudesse lidar com grandes volumes de dados.
Planos para Construir uma Versão Melhor do SageMaker
A empresa planeja criar uma versão aprimorada do SageMaker, sua própria plataforma de machine learning. Inicialmente um experimento de P&D, o projeto agora se beneficia de uma equipe maior capaz de desenvolvimento interno. Embora seu sistema virtual possuísse alguns recursos do SageMaker, ele não tinha computação distribuída. Adicionar computação distribuída à sua máquina virtual atual por meio da integração do console Py fornecerá a solução necessária.
Para o gerenciamento de controle de acesso de usuários e acessibilidade de dados, a empresa construiu várias funções IAM e alocou uma conta secundária para sua equipe de dados para gerenciamento de custos. No entanto, ainda exigem mais trabalho, especialmente considerando os dados sensíveis que eles lidam como uma empresa FinTech, e as auditorias regulares do RBI.
Embora pudessem usar uma plataforma externa, a empresa optou por desenvolver sua versão do SageMaker internamente. A decisão é estratégica e não baseada em restrições relacionadas à acessibilidade de dados ou custo. Ao ter maior controle sobre a plataforma, eles podem escalar e crescer de forma mais eficiente. A empresa já utilizou computação distribuída em alguns sistemas via DAS.
À medida que estamos escalando e a equipe está crescendo, se você pode fazer isso internamente, por que não?
- Sheekha
Considerações para Sistemas em Tempo Real e Modelos de Ciência de Dados
- Para sistemas em tempo real, SLAs rigorosos devem ser cumpridos, e a distribuição de carga pode ser não uniforme, com horários de pico específicos onde a carga de trabalho pode ser alta.
- Ao implantar um sistema em tempo real, é essencial considerar a latência e o balanceamento de carga.
- Modelos de ciência de dados devem ser criados para gerar impacto real nos negócios, e não apenas para serem "elegantes".
- Métricas são usadas para medir o impacto de um modelo, como a quantidade de fraude que ele pode impedir e o número de bons usuários que ele pode impactar.
- A equipe de risco e o CFO decidem qual ponto é aceitável em termos de custo e impacto nos negócios.
- Custos de backend, como a quantidade de gravações e leituras do DynamoDB, devem ser considerados e vinculados às métricas de negócios do modelo para garantir que se alinhem com o impacto desejado.
Tornando a Implantação de ML Tão Simples Quanto Software: Melhorando a Produtividade do Desenvolvedor
O desenvolvimento de modelos de ML tornou-se mais fácil com bibliotecas como Scikit-learn, mas o tempo para iniciar um projeto e colocá-lo em produção ainda é alto, principalmente para empresas menores sem pipelines e sistemas MLOps. Configurar pipelines, limpar dados, validar testes e implantar modelos pode levar de dois a três meses. Além disso, encontrar bugs em um modelo é desafiador, pois não há padronização para o processo. Portanto, as empresas precisam de sistemas que tornem o desenvolvimento de modelos tão contínuo quanto o desenvolvimento de software para melhorar a produtividade do desenvolvedor. O sistema deve permitir flexibilidade, fácil integração e construção sobre o sistema existente. Também deve ter padronização para encontrar bugs, monitorar dados de entrada e saída e loops de feedback.
A Importância de Inculcar Princípios de Engenharia na Ciência de Dados
No campo da ciência de dados, tem havido uma ênfase crescente na necessidade de os cientistas de dados possuírem habilidades de engenharia para garantir a implantação bem-sucedida e eficiente de modelos de ML.
- Cientistas de dados precisam possuir habilidades de engenharia para garantir a implantação eficiente de modelos de ML. Boas práticas de codificação devem ser incutidas nos cientistas de dados para identificar bugs que possam afetar o SLA do modelo.
- O apreço dos cientistas de dados por certas ferramentas, como o Pandas, pode resultar em desempenho mais lento quando implantadas em tempo real. Os cientistas de dados precisam estar cientes das ferramentas mais eficientes e de seu uso para garantir a implantação eficiente de modelos de ML.
Você gostaria que nossos cientistas de dados implantassem tudo e até mesmo filtros.
- Sheekha
Considerações Adicionais de Sheekha
MLOps: Construir ou Comprar
- Personalização: Uma personalização extensiva pode exigir a construção do zero em vez da adoção de uma plataforma de ML de terceiros.
- Sensibilidade dos dados: O gerenciamento rigoroso do controle de acesso do usuário é crucial para empresas que lidam com dados sensíveis e pode exigir um sistema interno que possa ser personalizado para requisitos de segurança específicos.
- Consciência de custos: Construir um sistema MLOps interno pode ser mais econômico para empresas menores, mas elas podem eventualmente investir em plataformas de terceiros para um melhor ROI à medida que o mercado amadurece.
LLMs
Sheekha expressou seu interesse em grandes modelos de linguagem (LLMs) e nos novos desenvolvimentos em torno deles, mas, atualmente, eles não os estão usando em seu trabalho. No entanto, ela reconheceu que estão explorando casos de uso interessantes para LLMs, particularmente na integração de seus chatbots.
Eu definitivamente prevejo muitos casos de uso interessantes para LLMs
- Sheekha
Leia nossos blogs anteriores na Série TrueML
Continue assistindo à TrueML série do YouTube e lendo toda a TrueML série de blogs.
TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, permitindo-lhes total flexibilidade no teste e implantação de modelos, ao mesmo tempo em que garante total segurança e controle para a equipe de Infraestrutura. Através da nossa plataforma, capacitamos as Equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos - permitindo-les economizar custos e lançar Modelos em produção mais rapidamente, possibilitando a realização de valor de negócio real.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI














.webp)






.webp)

.webp)
.webp)





.png)



