True ML Talks #9 - Plataforma de Machine Learning @ DoorDash

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
Estamos de volta com mais um episódio do True ML Talks. Neste, aprofundamos em da DoorDash Plataforma de ML, e conversamos com Hien Luu.
Hien Luu é o Gerente Sênior de Engenharia da DoorDash, responsável pela construção da plataforma de ML da DoorDash. A DoorDash, como todos sabem, é uma das maiores empresas de entrega de comida nos EUA, uma empresa de mais de 25 bilhões de dólares.
📌
Nossas conversas com Hien Luu abordarão os seguintes aspectos:
- Casos de Uso de ML na DoorDash
- Projeto de uma Camada de Serviço de Modelo Escalável
- Modelos de Sombreamento: Acelerando Testes e Implantação
- Padronização via gRPC
- Otimizando a Engenharia de Features e Formatos de Dados
- A Importância da Validação de Modelos e do Retreinamento Automatizado
- Desafios e Oportunidades para ML Ops no Suporte a IA Generativa e LLMs
Assista ao episódio completo abaixo:
Casos de Uso de ML na DoorDash
- Atribuição e Entrega Eficientes de Pedidos: Os algoritmos de ML desempenham um papel fundamental na previsão do tempo de preparação de pedidos, estimativa do tempo de entrega e roteamento dos Dashers para uma eficiência ideal. Aproveitando dados históricos, como tempos de cozimento de restaurantes, padrões de tráfego e condições climáticas, o DoorDash atribui dinamicamente pedidos aos Dashers, garantindo entregas mais rápidas e uma experiência perfeita para o cliente.
- Recomendações de Pesquisa Personalizadas: As recomendações de pesquisa impulsionadas por ML tornaram-se um recurso padrão para plataformas online, incluindo o DoorDash. Ao analisar as preferências do cliente, histórico de pedidos e dados contextuais, o DoorDash emprega algoritmos de ML para sugerir restaurantes, cozinhas e pratos relevantes aos usuários. Essa abordagem personalizada aprimora a experiência do usuário, incentiva a exploração e aumenta a satisfação do cliente.
- Anúncios e Promoções Direcionados: O DoorDash aproveita o ML para veicular anúncios e promoções direcionados que se alinham às preferências do usuário. Ao analisar o comportamento do usuário, histórico de transações e dados demográficos, o DoorDash adapta suas campanhas de marketing a segmentos específicos de clientes. Essa abordagem direcionada aumenta a eficácia das promoções, promove a fidelidade do cliente e impulsiona o engajamento.
- Detecção Proativa de Fraudes: Para combater fraudes, o DoorDash utiliza algoritmos de ML para detectar e mitigar atividades fraudulentas, incluindo pedidos falsos, sequestro de contas e fraude de pagamento. Ao analisar padrões, anomalias e dados históricos, o DoorDash identifica proativamente comportamentos fraudulentos, protegendo os clientes e mantendo a integridade da plataforma.
- Classificação de Itens de Menu: O onboarding de um grande número de comerciantes com menus diversos representa um desafio único para o DoorDash. Algoritmos de ML são empregados para detectar e classificar automaticamente os itens do menu com precisão. Ao processar imagens, descrições de texto e feedback do cliente, o DoorDash integra perfeitamente os menus dos comerciantes em sua plataforma, proporcionando aos clientes uma experiência de navegação rica e consistente.
Projetando uma Camada de Serviço de Modelo Escalável
A escalável da equipe de MLOps do DoorDash serviço de modelo camada é um componente crucial da sua infraestrutura de machine learning que suporta bilhões de previsões todos os dias. A seguir, algumas informações sobre a arquitetura e as principais decisões que permitiram o crescimento da sua camada de serviço de modelo.
- Suporte focado em bibliotecas: A camada de serviço de modelo do DoorDash foi projetada para suportar duas bibliotecas principais - GBM e PyTorch. Essa decisão permitiu que a equipe de MLOps construísse soluções otimizadas para essas bibliotecas, garantindo um serviço de modelo eficiente e eficaz.
- Suporte a previsão em lote: Para reduzir a sobrecarga de chamadas de rede, a camada de serviço de modelo foi projetada para suportar a previsão em lote. Isso é particularmente benéfico para casos de uso como sistemas de recomendação, que geram milhares de classificações para um único usuário. Ao processar previsões em lotes, o sistema alcança melhor desempenho e escalabilidade.
- Sombreamento de modelo para testes: A plataforma de serviço de modelo incorpora um recurso chamado sombreamento de modelo, permitindo que cientistas de dados testem seus modelos em produção sem afetar o tráfego de usuários em tempo real. Este modo de sombreamento os ajuda a ganhar confiança no desempenho e comportamento do modelo antes de promovê-lo para produção total, garantindo um processo de implantação suave e sem erros.
- Arquitetura de Microsserviços: A plataforma de disponibilização de modelos na DoorDash segue uma arquitetura de microsserviços. Aproveitando o Kubernetes, a plataforma organiza os modelos em pods isolados, permitindo o dimensionamento independente com base nas necessidades individuais. Essa abordagem arquitetônica promove modularidade, escalabilidade e alocação eficiente de recursos, alinhando-se às melhores práticas da indústria para a construção de microsserviços.
Modelos Sombra (Shadowing): Acelerando Testes e Implantação
A implementação de uma camada de "shadowing" (modelos sombra) na infraestrutura de disponibilização de modelos da DoorDash revolucionou a velocidade com que os modelos são testados e implantados. Esta seção aprofunda-se nos aspectos únicos da camada de "shadowing", sua distinção do teste Canary e seu profundo impacto na facilitação de testes de modelos eficientes para cientistas de dados.
Processo de Shadowing Simplificado
A camada de "shadowing" da DoorDash simplifica o processo, garantindo que os cientistas de dados possam realizar testes de modelos sem esforço. A implementação é ao mesmo tempo direta e poderosa. Os cientistas de dados utilizam configurações e uma ferramenta intuitiva para especificar um modelo primário e modelos sombra. Com apenas alguns cliques, eles podem alocar uma porcentagem desejada do tráfego de entrada (por exemplo, 1% ou 2%) para ser roteada para os modelos sombra. A plataforma cuida do restante, incluindo o carregamento do modelo designado nos pods apropriados, o roteamento contínuo do tráfego especificado e o registro das previsões para os modelos sombra.
Acelerando a Velocidade e Capacitando Cientistas de Dados
A simplicidade e a facilidade de uso da camada de "shadowing" da DoorDash aceleraram drasticamente o ritmo de testes e implantação para os cientistas de dados. Ao eliminar complexidades desnecessárias e minimizar a dependência de suporte de engenharia, os cientistas de dados desfrutam de total autonomia sobre o processo de "shadowing". Essa agilidade recém-descoberta os capacita a iterar em seus modelos com mais frequência, resultando em um ciclo de desenvolvimento acelerado e promovendo a inovação rápida.
No entanto, à medida que o número de modelos e o volume de tráfego aumentam, é essencial abordar considerações como a escalabilidade do sistema de registro (logging) e a gestão de custos. Encontrar um equilíbrio entre operações eficientes e o escopo crescente dos testes de modelos continua sendo crucial para sustentar os benefícios da camada de "shadowing".
Distinguindo Shadowing de Teste Canary
- Shadowing: O "shadowing" de modelos em ML Ops refere-se à prática de testar e avaliar modelos em um ambiente de produção sem afetar o tráfego de usuários em tempo real. Ele oferece um espaço seguro para os cientistas de dados ganharem confiança no desempenho e comportamento de seus modelos antes de implantá-los completamente. Ao rotear uma parte das requisições de entrada para modelos sombra, os cientistas de dados podem avaliar sua eficácia e tomar decisões informadas.
- Canary: O teste Canary, por outro lado, envolve a implantação gradual de novos modelos para um subconjunto de usuários para avaliar seu desempenho e estabilidade em comparação com o modelo existente. Ele ajuda a identificar quaisquer problemas ou discrepâncias antes de implantar o novo modelo para toda a base de usuários. O teste Canary permite uma avaliação controlada do impacto do novo modelo nas experiências do usuário, possibilitando decisões baseadas em dados sobre sua adoção.
📌
Padronizado em gRPC
A DoorDash adotou o gRPC como protocolo padrão em toda a empresa. Essa escolha foi impulsionada pela necessidade de estabilidade e eficiência em escala. O protocolo binário do gRPC, juntamente com sua natureza comprovada em combate, atraiu o foco da DoorDash em otimizar cada aspecto de sua infraestrutura de ML. A decisão de usar gRPC para comunicação serviço a serviço garantiu interações confiáveis e eficientes entre os componentes da camada de disponibilização de modelos.
Todos nós acreditamos que, quando se faz as coisas em escala, cada pequena coisa importa, e eu acho que o protocolo binário é bom para isso quando você começa a oferecer em escala, e o gRPC foi testado em batalha em muitas, muitas empresas.
Otimizando a Engenharia de Features e Formatos de Dados
Para facilitar a engenharia de features e o treinamento de modelos, a DoorDash focou na otimização de sua infraestrutura e formatos de dados. Inicialmente, a empresa utilizou o Snowflake como um data warehouse, que proporcionava armazenamento e gerenciamento de dados eficientes. No entanto, à medida que expandiam suas operações de treinamento de modelos, a recuperação de dados do Snowflake mostrou-se ineficiente. Reconhecendo a necessidade de um data lake, Hien Luu defendeu sua implementação, baseando-se em sua experiência no LinkedIn, onde um data lake havia se mostrado um ativo valioso para inúmeros casos de uso. A construção de um data lake exigiu tempo e esforço, mas uma vez implementado, a DoorDash pôde utilizá-lo para construir sua estrutura de engenharia de features.
A estrutura de engenharia de features serviu como uma camada de abstração, permitindo que os cientistas de dados expressassem como queriam que as features fossem computadas. A infraestrutura da DoorDash então lidava com a computação, o agendamento de pipelines e o gerenciamento de recursos em nome dos cientistas de dados. Colaborando com a equipe do data lake, foram determinados formatos ideais para armazenar as features computadas.
Além do feature store offline, a DoorDash também empregou um feature store online. A maioria dos casos de uso envolvia previsões online integradas em sistemas de produção, necessitando da presença de um feature store online. Ambos os feature stores, offline e online, foram mantidos, abordando a discrepância entre treinamento e serviço comumente encontrada na indústria. Para sincronizar os conjuntos de features entre os dois stores, as features geradas eram armazenadas no feature store offline e subsequentemente carregadas para o feature store online. Ao usar a mesma lógica para cenários offline e online, a estrutura de engenharia de features simplificou o processo. Os cientistas de dados podiam especificar suas features desejadas para ambos os stores e confiar na infraestrutura para lidar com os mecanismos subjacentes, como o agendamento dos uploads.
A Importância da Validação de Modelos e do Retreinamento Automatizado em MLOps
Validando o Desempenho do Modelo
Garantir a precisão e a confiabilidade dos modelos de machine learning é um aspecto crítico do processo de MLOps. A validação de modelos envolve testar o desempenho de um modelo usando dados do mundo real para verificar sua eficácia. Ao automatizar esse processo de validação com ferramentas como o MLflow, os cientistas de dados podem rastrear experimentos, comparar resultados e avaliar diferentes modelos com base em suas métricas de desempenho. A validação de modelos proporciona confiança na capacidade do modelo de fazer previsões precisas e informa a tomada de decisões no processo de implantação.
Retreinamento Automatizado para Desempenho Ótimo
O retreinamento automatizado leva a validação de modelos um passo adiante, permitindo que os modelos sejam retreinados automaticamente com base em critérios ou limites predefinidos. Essa abordagem proativa garante que os modelos permaneçam atualizados e continuem a ter um desempenho ótimo ao longo do tempo. Ao minimizar a intervenção manual, as equipes de MLOps podem reduzir o risco de erro humano e otimizar o processo de retreinamento.
A implementação do retreinamento automatizado exige uma consideração cuidadosa das necessidades específicas de cada modelo e das suas potenciais consequências. As equipes de MLOps devem projetar e implementar salvaguardas e processos flexíveis para garantir que os modelos sejam retreinados de forma apropriada. Isso envolve planejamento e testes para determinar a frequência ideal de retreinamento, os critérios para o retreinamento e as estratégias para promover os modelos retreinados para produção.
Os benefícios do retreinamento automatizado são substanciais. Ao atualizar continuamente os modelos, as organizações podem manter sua precisão e confiabilidade, adaptar-se a padrões de dados em evolução e abordar a potencial degradação de desempenho. O retreinamento automatizado também reduz o risco de erros e tempo de inatividade em ambientes de produção, pois os modelos são proativamente aprimorados e atualizados.
Incorporar a validação de modelos e o retreinamento automatizado na infraestrutura de MLOps é crucial para construir sistemas de machine learning robustos e confiáveis. Ao alavancar ferramentas de automação e implementar processos bem projetados, as organizações podem garantir que seus modelos entreguem previsões precisas de forma consistente e se adaptem às condições em mudança de forma eficaz.
Desafios e Oportunidades para ML Ops no Suporte à IA Generativa e LLMs
A IA generativa e os modelos de linguagem (LMs) têm o potencial de revolucionar muitas indústrias, incluindo a entrega de alimentos. No entanto, alavancar essas tecnologias de forma eficaz exige que as equipes de ML Ops enfrentem vários desafios e oportunidades.
- Espaço em Rápida Evolução: Acompanhar os avanços rápidos na IA generativa e nos modelos de linguagem (LMs) representa um desafio para cientistas de dados e equipes de ML Ops.
- Foco no Suporte a Cientistas de Dados: O foco deve ser na determinação da infraestrutura e ferramentas necessárias para apoiar os cientistas de dados na utilização eficaz de LLMs para os seus casos de uso específicos.
- Engenharia de Prompts: As equipas de infraestrutura podem desempenhar um papel crucial no apoio aos cientistas de dados com a engenharia de prompts, ajudando-os a otimizar e ajustar prompts para obter os resultados desejados.
- Hospedagem Interna para Privacidade e Latência: Alguns casos de uso podem exigir a hospedagem interna de LMs para abordar preocupações com a privacidade, reduzir a latência ou controlar custos. Compreender como configurar a hospedagem interna e trabalhar com configurações de GPU torna-se essencial.
- Investimento em Infraestrutura: Reconhecendo o potencial dos LLMs e da IA generativa, empresas como a DoorDash estão a investir na infraestrutura necessária para apoiar diversos casos de uso e capacitar os cientistas de dados.
- Aproveitando Modelos de IA Abertos e Internos: Diferentes casos de uso podem exigir diferentes abordagens de hospedagem. Alguns podem aproveitar modelos de IA abertos, enquanto outros podem necessitar de modelos hospedados internamente com base em fatores como latência, conjunto de dados, escala e custo.
- Gestão de Recursos e Escalabilidade: Gerir eficazmente os recursos e abordar o desafio da quantização de modelos são considerações chave para hospedar LLMs de forma escalável.
Aqui está outro blog interessante escrito pela equipa da DoorDash sobre IA Generativa:
Leia os nossos blogs anteriores da série True ML Talks:
Continue a assistir à TrueML série do YouTube e a ler a TrueML série de blog.
TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, permitindo-l-lhes total flexibilidade no teste e implantação de modelos, ao mesmo tempo que garante total segurança e controle para a equipe de Infraestrutura. Através da nossa plataforma, capacitamos as Equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos - permitindo-lhes economizar custos e lançar Modelos em produção mais rapidamente, possibilitando a realização de valor de negócio real.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI














.webp)






.webp)

.webp)
.webp)





.png)



