True ML Talks #6 - Plataforma de ML na Nomad Health

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

Estamos de volta com mais um episódio de True ML Talks. Neste, aprofundamos em da °Nomad Health Plataforma de ML, e estamos conversando com Liming Zhao.

Liming Zhao é o CTO da °Nomad Health, uma empresa de tecnologia que está revolucionando a indústria de recrutamento e seleção na área da saúde. Com a escassez de profissionais de saúde, especialmente diante de uma pandemia, a °Nomad Health visa fornecer um marketplace onde profissionais de saúde podem encontrar atribuições temporárias para atender às necessidades de cuidados ao paciente mais urgentes e atraentes.

📌

Nossas conversas com Liming abordarão os seguintes aspectos:
- Casos de uso de ML na °Nomad Health
- Equipe de Machine Learning na °Nomad Health
- Implantação de Modelos de Machine Learning
- Construção de uma solução de Feature Store personalizada
- Escolha de Ferramentas MLOps
- Gerenciamento de Custos na Nuvem

Assista ao episódio completo abaixo:

Casos de Uso de ML na °Nomad Health

Modelagem Preditiva: A °Nomad Health incorporou IA e ML em suas operações, especificamente na área de modelagem preditiva. Isso ajuda a priorizar o trabalho, dado que os profissionais de saúde são o recurso mais escasso. A °Nomad Health investe bastante nisso e o considera uma capacidade de machine learning.
Sistemas de Recomendação: °Nomad Health utiliza modelagem baseada em grafos para recomendar vagas atraentes a profissionais de saúde. Eles incorporam isso em sua classificação e e-mails de divulgação, garantindo que os profissionais de saúde sejam apresentados às vagas mais adequadas, mesmo que não tenham tempo para explorar todas as vagas disponíveis.
Grandes Modelos de Linguagem: °Nomad Health utiliza LLMs, como o GPT-3, para extrair e enriquecer descrições de vagas. Eles usam o modelo para padronizar os requisitos das vagas, extraindo informações significativas de um bloco de texto que pode ser escrito com diferentes níveis de detalhe e clareza. A °Nomad Health também está explorando o uso de LLMs em currículos, mas esta é uma área desafiadora devido aos diferentes níveis de completude na contratação de profissionais de saúde.

📌

LLMs para Currículos na Contratação de Profissionais de Saúde:
A °Nomad Health está explorando o uso de grandes modelos de linguagem (LLMs) para descrições de vagas e currículos. A empresa tem visto mais sucesso com modelos robustos como o GPT-3. No entanto, o uso de LLMs em currículos para contratação de profissionais de saúde apresenta desafios devido à necessidade de certificações e licenças específicas. A °Nomad Health está trabalhando para criar um conjunto abrangente de credenciais digitais de currículo usando sua plataforma para simplificar o processo tanto para profissionais de saúde quanto para instalações médicas.

Equipe de Machine Learning na °Nomad Health

A equipe de ciência de dados da °Nomad Health é relativamente pequena, composta por nove membros, incluindo um gerente, um cientista de dados, um analista de dados e um engenheiro de dados. Os cinco membros restantes são engenheiros de machine learning, dois dos quais se concentram no desenvolvimento de infraestrutura e MLOps, enquanto os outros três se concentram na construção, teste e implantação de modelos.

Eles aproveitam soluções prontamente disponíveis de outras indústrias e problemas de referência, adaptando-as a casos de uso específicos, e investem pesadamente na coleta, análise e padronização de dados. A estrutura da equipe e as práticas de colaboração da °Nomad permitem que se movam de forma rápida e eficiente, com todos os membros trabalhando juntos para resolver problemas. Eles alcançaram sucesso significativo em MLOps, aprendendo com suas necessidades e gargalos, graças à sua abordagem orientada a dados e equipe talentosa e diversificada.

Implantação de Modelos de Machine Learning

A °Nomad Health investiu pesadamente no Vertex AI, pois a maior parte da infraestrutura tecnológica estava no Google Cloud Platform (GCP), mas à medida que enfrentavam necessidades de negócios mais complexas e maior frequência de implantação, começaram a mover o endpoint do serviço de produção para fora do Vertex AI e implantar no cluster do Google Kubernetes Engine (GKE). Isso permitiu que a equipe tivesse mais flexibilidade, controle e escalabilidade sobre sua implantação e pipeline de CI/CD.

A equipe de machine learning da °Nomad Health usa o Vertex AI para treinamento de modelos, aproveitando o rico conjunto de bibliotecas, interfaces e ferramentas do Vertex AI para testar rapidamente, monitorar o sucesso e entender sinais promissores. A equipe também está avaliando o ML Flow, mas atualmente não usa o DataBricks em sua pilha.

No geral, a evolução da estratégia de implantação da °Nomad Health surgiu da percepção da complexidade prática e da implantação bem-sucedida da equipe de engenharia adjacente no GKE. Essa estratégia permitiu que a equipe de machine learning aproveitasse as práticas e a infraestrutura existentes, mantendo o controle sobre sua implantação.

Construindo uma Solução de Feature Store Personalizada

A °Nomad Health criou uma solução personalizada de engenharia de features para lidar com seu grande conjunto de dados e construir um feature store mais consistente. A empresa percebeu que seus diferentes projetos de machine learning precisavam compartilhar o mesmo conjunto de dados, incluindo informações sobre visualizações de vagas por profissionais de saúde, resultados de candidaturas e credenciais ou preferências. Eles formalizaram um feature store e criaram uma equipe responsável por pegar dados brutos, fazer transformações básicas e então disponibilizar os dados de forma alinhada aos negócios. Para permitir uma rápida transição para a visualização, a organização de BI poderia então usar os dados transformados. A equipe de ciência de dados também poderia extrair rapidamente um subconjunto de features e chamá-lo para o feature store.

A °Nomad Health está usando a solução de código aberto Feast para extrair e armazenar features para diferentes modelos, e o feedback da modelagem retornará ao feature store. A empresa está aproveitando o Vertex AI para modelagem e tem um pipeline diferente para implantação. Uma das soluções mais inovadoras no cenário geral da plataforma de ML é a transformação de dados brutos em uma entidade, evento e dimensão consistentes que a equipe de BI e a equipe de ciência de dados poderiam usar para análise de dados e análise preditiva, respectivamente. Essa transformação de dados brutos permitiu que a °Nomad Health criasse um sinal confiável que se correlaciona fortemente com a aplicação e a apresentação de uma oferta pelas instalações.

Inicialmente, começamos com a infraestrutura do Vertex AI e eventualmente migramos para nosso próprio feature store implementado com código aberto; obter nossos dados proprietários, o formato e o conjunto de dados únicos, é na verdade a chave.

Escolhendo Ferramentas de MLOps

No início, as empresas devem investir em uma ferramenta ou plataforma que forneça a maior parte do que precisam, como Vertex AI ou SageMaker, para que possam se concentrar em realizar seu valor de negócio primeiro. Uma vez que as empresas tenham construído uma equipe robusta de engenharia ou ciência de dados, elas podem retirar a implantação de produção da plataforma e adicionar serviços adjacentes. A jornada pela qual uma empresa passa é mais importante do que recomendar um conjunto completo de ferramentas, e é sempre melhor escolher algo que funcione razoavelmente bem por enquanto e iterar a partir daí.

Se você tem apenas duas pessoas começando na sua equipe de ciência de dados, e a primeira coisa que você faz é configurar toda a sua infraestrutura proprietária. Para quê? O que você provou que este motor sofisticado e infraestrutura superpoderosa poderiam realmente entregar?

Gerenciar Custos da Nuvem

Invista em ferramentas de monitoramento e alerta: Considere usar ferramentas como TrueFoundry para monitorar o desempenho da infraestrutura e identificar instâncias que causam flutuações de custo. Essas ferramentas podem ajudar a detectar problemas precocemente e tomar ações corretivas rapidamente.
Apoie-se em práticas manuais: Utilize práticas manuais, como o monitoramento de logs e sinais direcionados para um notebook Colab, para identificar instâncias que causam flutuações de custo. Investigue essas instâncias semanalmente ou quinzenalmente e reinicie ou encerre certos modelos de treinamento conforme necessário.
Defina um orçamento e receba relatórios em tempo real: Defina um orçamento para os custos da nuvem e receba relatórios em tempo real do provedor de nuvem para garantir que o orçamento não seja excedido. Isso pode ajudar a manter os custos sob controle e evitar despesas inesperadas.
Implemente soluções mais sofisticadas: À medida que a infraestrutura cresce, considere implementar soluções mais sofisticadas para gerenciar os custos de forma eficaz. Isso pode incluir o uso de ferramentas automatizadas ou a contratação de pessoal dedicado para gerenciar os custos da nuvem.
Encontre um equilíbrio entre custo e desempenho: É essencial encontrar um equilíbrio entre custo e desempenho para alcançar os resultados desejados. Considere otimizar as cargas de trabalho de machine learning para garantir que sejam econômicas ao mesmo tempo em que atendem aos requisitos de desempenho.

Considerações Adicionais de Liming Zhao

MLOps: Construir vs Comprar

A decisão entre serviços gerenciados e infraestrutura interna é crítica para a implementação de MLOps. Abordagem híbrida recomendada à medida que a organização amadurece.
Resultados de longo prazo e compensações entre custos devem ser considerados para a avaliação de custos e recursos. Monitore os custos cuidadosamente e mova componentes de alto desempenho para infraestrutura proprietária para produtos estáveis.
Para modelos menos confiáveis, tolere a flutuação de custos, mas use tags para atribuição de custos e monitore as flutuações de preços para uma otimização de custos eficaz.

Importância de se Adaptar às Necessidades de Negócio em Mudança

Durante a pandemia, a °Nomad Health teve que priorizar as ofertas mais prováveis a serem exibidas para gerenciar o fluxo de candidaturas a empregos. No entanto, à medida que as pessoas se tornaram mais hesitantes em se candidatar a empregos, o motor de recomendação teve que ser ajustado para mostrar mais opções aos candidatos.
Em retrospectiva, o foco inicial da °Nomad Health em velocidade e autonomia foi a decisão certa para uma pequena equipe com necessidades de negócio incertas. No entanto, à medida que a equipe e as necessidades de negócio evoluíram, a empresa teve que mudar seu foco para precisão e eficiência.
Esta jornada destaca a importância de considerar as mudanças nas situações de negócio ao tomar decisões de machine learning. Ao serem ágeis e dispostas a se adaptar, as empresas podem tomar decisões informadas que as permitem evoluir com o cenário de negócios em constante mudança.

Se você gostou do blog a seguir, aqui estão os blogs anteriores da Série TrueML

‍

True ML Talks #5 - Machine Learning Platform @ Simpl

In this blog, we dive deep into Simpl’s ML Platform. Understand how ML is used for Fraud Detection & understand the ML architecture at Simpl.

TrueFoundry Blog TrueFoundry

‍

Continue assistindo a TrueML série do YouTube e lendo todas as publicações da TrueML série de blogs.

TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, ao mesmo tempo que lhes permite total flexibilidade no teste e implantação de modelos, garantindo total segurança e controle para a equipe de Infraestrutura. Através da nossa plataforma, capacitamos as Equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos – permitindo-lhes economizar custos e lançar Modelos em produção mais rapidamente, possibilitando a realização de valor de negócio real.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now