True ML Talks #7 - Plataforma de Machine Learning no Edge

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Estamos de volta com mais um episódio de True ML Talks. Neste, vamos nos aprofundar em Edge Plataforma de ML, e vamos conversar com Rahul Kulhari.
Apresentando Rahul Kulhari, cofundador e chefe de ciência de dados na Edge. Com uma sólida formação em IA e machine learning, Rahul é responsável por executar a visão da empresa e construir sua estratégia de IA. Ele lidera uma equipe de especialistas que desenvolvem sistemas de IA de ponta que impulsionam os produtos de aquisição de talentos, mobilidade de talentos e marketplace interno de talentos da Edge. Sua expertise e experiência o tornam um ativo valioso para a indústria e um excelente recurso para qualquer pessoa interessada nos últimos desenvolvimentos em ciência de dados e IA.
📌
Nossas conversas com Liming abordarão os seguintes aspectos:
- Casos de uso de ML na Edge
- Equipe de Machine Learning na Edge
- Inovação na Stack de Machine Learning
- Quantização VS Destilação
- Desafios na Operacionalização de Machine Learning
- Escolha de Ferramentas MLOps
Assista ao episódio completo abaixo:
Casos de Uso de ML na Edge
- Processamento de linguagem natural (PLN): usado pela Edge para melhor compreender descrições de vagas e currículos, a fim de recomendar os candidatos certos e potenciais candidatos para as vagas.
- Grafo de conhecimento: utilizado pela Edge para fornecer um sistema de busca e recomendação para oportunidades de emprego personalizadas a funcionários dentro da empresa e os candidatos certos para as vagas.
- Aprendizagem por reforço: um potencial caso de uso futuro para a Edge, para permitir que os usuários tomem decisões com base no comportamento atual e na transformação que ocorre na indústria, movendo-se em direção a uma abordagem mais dinâmica que considera as tendências e mudanças da indústria ao longo do tempo.
Equipe de Machine Learning na Edge
A estrutura da equipe na Edge está dividida em cinco subcategorias. Cada vertical é responsável por um aspecto específico do ciclo de vida de desenvolvimento de produtos de IA. Essas cinco verticais são as seguintes:
- Cientistas Aplicados/Cientistas de Pesquisa/Giga Cientistas: Esta subcategoria é responsável por compreender a declaração do problema e construir a solução completa de ponta a ponta, que inclui experimentação, limpeza de dados, processamento de dados e implantação. Eles trabalham em estreita colaboração com outros membros da equipe para desenvolver e implantar modelos de machine learning.
- Analistas de Dados: Esta vertical é responsável por coletar, analisar e interpretar grandes e complexos conjuntos de dados. Eles trabalham em estreita colaboração com cientistas de dados para garantir que os dados utilizados sejam de alta qualidade e sejam relevantes para o problema que está sendo resolvido.
- Engenheiros de Machine Learning: Os Engenheiros de Machine Learning capacitam os cientistas de dados como parte dos pipelines de machine learning, introduzindo as ferramentas como parte do treinamento, experimentação, implantação e monitoramento. Eles trabalham em estreita colaboração com os Cientistas Aplicados para implantar os modelos em produção.
- Gerentes de Produto de IA: Os Gerentes de Produto de IA são responsáveis por aprimorar e construir o produto de IA. Eles traduzem a declaração do problema dos stakeholders da equipe para os cientistas de dados e outros membros da equipe. Eles trabalham em estreita colaboração com os outros membros da equipe para garantir que o produto de IA esteja atendendo às necessidades da empresa e esteja alinhado com os objetivos da empresa.
- Especialistas de Domínio: Esta vertical inclui pessoas com experiência em domínios específicos, como RH, finanças e vendas. Eles trabalham em estreita colaboração com os cientistas de dados e engenheiros de machine learning para garantir que o produto de IA seja relevante para o domínio específico e esteja agregando valor à empresa.
📌
O papel do gerente de produto de IA:
O gerente de produto de IA preenche a lacuna de negócios entre as equipes de ciência de dados e engenharia de ML, conectando-se com as equipes de produto e sucesso do cliente para entender os objetivos de negócios. Eles organizam discussões envolvendo cientistas de dados, cientistas de pesquisa e a equipe de engenharia de ML para identificar as contribuições necessárias de cada membro da equipe. O gerente de produto de IA comunica as necessidades e diretrizes para a contribuição de cada equipe para garantir que todos estejam alinhados. Eles permanecem envolvidos durante todo o projeto, garantindo que os objetivos de negócios sejam atingidos e que todos estejam trabalhando em direção ao mesmo objetivo.
Inovações na Pilha de Machine Learning
A equipe de ML da Edge reconhece o desafio significativo da falta de dados no fluxo de trabalho de machine learning. Para resolver isso, eles introduziram várias ferramentas, processos e algoritmos para aumento de dados. Eles desenvolveram capacidades como algoritmos aluno-professor, que permitem que seus modelos sejam treinados em dados ruidosos criados usando essas ferramentas e algoritmos e depois ajustados em uma grande quantidade de dados rotulados.
Uma ferramenta crucial que eles usam para aumento de dados é o Evidently AI, que os ajuda a identificar desvio de dados e de alvo para garantir que os dados ruidosos criados se alinhem com os dados rotulados ou de objetivo. Esta ferramenta permite-lhes garantir que as suas características categóricas e contínuas estão alinhadas e são úteis na criação de modelos precisos.
A equipe também inovou no pipeline de machine learning. Embora tenha amadurecido com o tempo, quando o estavam construindo, descobriram que nenhuma ferramenta ou produto único conseguia resolver todas as tarefas de ponta a ponta, e integrá-los uns com os outros era um desafio. Eles utilizaram diferentes ferramentas como Neptune, Comet e MLflow para registro e gerenciamento de modelos.
Do ponto de vista de implantação, eles se concentraram em escalabilidade, latência e custo. Eles usam ferramentas como TF serving e Onyx para quantização para implantação em pods de implantação Kubernetes. Eles têm múltiplas ferramentas em todo o seu pipeline de machine learning, o que consideram uma inovação. Conseguiram gerenciar suas finanças enquanto desenvolviam um trabalho de ponta, então não viram necessidade de mudar para ferramentas mais recentes que poderiam ser mais caras. No entanto, eles incentivam sua equipe a ficar de olho em novas tecnologias e ferramentas que possam ser úteis no futuro.
Quantização Funciona Melhor Que Destilação: Otimizando a Latência do Modelo
Otimizar a latência do modelo é um desafio crucial no campo do machine learning, e técnicas como quantização, poda de modelo e destilação foram exploradas para resolvê-lo. De acordo com um relatório recente de uma equipe da Edge, a quantização funciona melhor que a destilação para reduzir a latência do modelo.
A equipe experimentou com diferentes modelos como DistilBERT, RoBERTa e ALBERT, e, por fim, escolheu o ALBERT devido ao seu melhor desempenho na interpretação de vagas e currículos. Eles também realizaram destilação tanto no ALBERT quanto no RoBERTa.
A partir de seus experimentos, a equipe descobriu que a quantização forneceu resultados notáveis, reduzindo a latência do modelo de aproximadamente 1,2 segundos para cerca de 200 milissegundos em CPUs. A equipe utilizou Onyx e a quantização hugging face para seus modelos, que foram treinados apenas em GPUs.
Ao selecionar o modelo certo, a equipe considerou vários fatores como latência, tamanho do modelo, concorrência, utilização da CPU e utilização da memória. Colaboraram com cientistas de dados que forneceram a estrutura para o processo de quantização, enquanto a equipe de engenharia de machine learning conduziu os experimentos e selecionou a melhor opção com base nos resultados.
Embora a quantização tenha tido um impacto de 1% na precisão, ela não afetou o recall. A equipe enfatiza que todos deveriam experimentar a quantização, pois é uma técnica simples, mas eficaz, para reduzir a latência do modelo.
Para obter os dados, o modelo antes da quantização estava levando aproximadamente 1200 milissegundos. Mas quando você fez essa quantização, ele reduziu para aproximadamente 200 milissegundos.
Desafios na Operacionalização de Machine Learning
Desafios:
- Dados limitados disponíveis para treinamento: Trabalhar com casos de uso como busca, motores de recomendação, problemas de classificação e machine learning orientado a objetivos pode ser desafiador devido à menor disponibilidade de dados. É essencial identificar maneiras de gerenciar menos dados e ainda assim alcançar os melhores resultados.
- Adoção de ferramentas de ML: A adoção de ferramentas como o MLflow é desafiadora, pois cientistas pesquisadores e cientistas de dados podem não compreender a importância da ferramenta ou como ela os ajuda. A equipe de ML deve se esforçar para educá-los e aumentar a conscientização sobre os benefícios do uso de tais ferramentas.
Soluções:
- Desenvolvimento de insights descritivos ou prescritivos: A equipe de ML deve focar no desenvolvimento de ferramentas que forneçam insights descritivos ou prescritivos para auxiliar na tomada de decisões. Isso reduzirá a dependência da expertise de cientistas pesquisadores, o que pode ser demorado e caro.
- Colaboração de dados, algoritmo e expertise humana: Para alcançar os melhores resultados e desenvolver a estratégia certa, dados, algoritmos e expertise humana devem ser usados em conjunto.
- Identificando os experimentos mais críticos a serem executados: Com infraestrutura limitada, é essencial identificar os melhores experimentos a serem executados, já que existem muitos hiperparâmetros em aprendizado de máquina. A equipe de ML deve focar no desenvolvimento de um processo para identificar os experimentos mais críticos a serem executados e otimizar os hiperparâmetros para alcançar os melhores resultados.
Ferramentas MLOps: Algumas Ferramentas Essenciais para Concluir Toda a Jornada
Ferramentas de Infraestrutura para Treinamento e Implantação de MLOps
Quando se trata de MLOps, a infraestrutura é um componente crítico. Uma infraestrutura confiável é necessária para suportar o poder de processamento exigido para o treinamento e implantação de aprendizado de máquina. Usar um provedor de GPU como a E2E Networks pode oferecer GPUs acessíveis na Índia.
Ferramentas de Treinamento e Construção de Modelos para MLOps
Para treinamento e construção de modelos, usar ferramentas como Neptune, Comet ML ou TrueFoundry integradas com Git pode garantir reprodutibilidade e conformidade regulatória. Hugging Face, TensorFlow e PyTorch também são recomendados para a construção de modelos. CatBoost é uma boa opção para problemas de regressão ou árvores de decisão.
Ferramentas de Implantação para MLOps
Quando se trata de implantação, ONNX é uma ferramenta recomendada, ou uma abordagem serverless pode ser adotada usando Max.io, Banana.dev ou Infrrd. No desenvolvimento, a qualidade dos dados pode ser garantida através de ferramentas personalizadas ou de terceiros, como Great Expectations, Streamlit para visualização, e Alibi Detect ou Evidently AI para detecção e análise de desvio de dados. No entanto, durante a produção, ferramentas adicionais podem ser necessárias para qualidade de dados, linhagem e outros tipos de análise.
Leia nossos blogs anteriores da Série TrueML
Continue assistindo à TrueML série do YouTube e lendo toda a TrueML série de blogs.
TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, permitindo-lhes total flexibilidade no teste e implantação de modelos, ao mesmo tempo em que garante total segurança e controle para a equipe de Infraestrutura. Através de nossa plataforma, capacitamos as equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos - permitindo-lhes economizar custos e lançar Modelos em produção mais rapidamente, possibilitando a concretização de valor de negócio real.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI














.webp)






.webp)

.webp)
.webp)





.png)



