True ML Talks #9 - Plattform für maschinelles Lernen @ DoorDash

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wir sind zurück mit einer weiteren Folge von True ML Talks. Darin tauchen wir tief ein Von Dash's ML Platform, und wir sprechen mit Hien Luu.

Hien Luu ist Senior Engineering Manager bei DoorDash und entwickelt den Build der ML-Plattform von DoorDash. DoorDash ist, wie jeder weiß, eines der größten Unternehmen für Lebensmittellieferungen in den USA, ein Unternehmen mit einem Umsatz von mehr als 25 Milliarden US-Dollar.

📌

Unsere Gespräche mit Hien Luu werden die folgenden Aspekte behandeln:
- ML-Anwendungsfälle in DoorDash
- Entwerfen einer skalierbaren Model Serving Layer
- Shadowing Models: Schnelleres Testen und Bereitstellen
- Standardisierung über gRPC
- Rationalisierung von Feature-Engineering und Datenformaten
- Die Bedeutung von Modellvalidierung und automatisierter Umschulung
- Herausforderungen und Chancen für ML Ops bei der Unterstützung generativer KI und LLMs

Sehen Sie sich die ganze Folge unten an:

Anwendungsfälle von ML @ DoorDash

Effiziente Auftragszuweisung und Lieferung: ML-Algorithmen spielen eine zentrale Rolle bei der Vorhersage der Auftragsvorbereitungszeit, der Schätzung der Lieferzeit und der Weiterleitung von Dashern für optimale Effizienz. DoorDash nutzt historische Daten wie Kochzeiten von Restaurants, Verkehrsmuster und Wetterbedingungen und weist Dashers Bestellungen dynamisch zu, um schnellere Lieferungen und ein nahtloses Kundenerlebnis zu gewährleisten.
Personalisierte Suchempfehlungen: ML-gestützte Suchempfehlungen sind zu einer Standardfunktion für Online-Plattformen geworden, einschließlich DoorDash. Durch die Analyse von Kundenpräferenzen, Bestellhistorie und Kontextdaten verwendet DoorDash ML-Algorithmen, um den Nutzern relevante Restaurants, Küchen und Gerichte vorzuschlagen. Dieser personalisierte Ansatz verbessert das Nutzererlebnis, fördert die Erkundung und steigert die Kundenzufriedenheit.
Gezielte Werbung und Werbeaktionen: DoorDash nutzt ML, um gezielte Werbung und Werbeaktionen bereitzustellen, die den Benutzerpräferenzen entsprechen. Durch die Analyse des Nutzerverhaltens, des Transaktionsverlaufs und der demografischen Daten passt DoorDash seine Marketingkampagnen an bestimmte Kundensegmente an. Dieser gezielte Ansatz erhöht die Effektivität von Werbeaktionen, fördert die Kundenbindung und fördert das Engagement.
Proaktive Betrugserkennung: Zur Betrugsbekämpfung verwendet DoorDash ML-Algorithmen, um betrügerische Aktivitäten wie gefälschte Bestellungen, Kontoentführungen und Zahlungsbetrug zu erkennen und zu bekämpfen. Durch die Analyse von Mustern, Anomalien und historischen Daten identifiziert DoorDash proaktiv betrügerisches Verhalten, schützt Kunden und wahrt die Integrität der Plattform.
Klassifizierung der Menüelemente: Das Onboarding einer großen Anzahl von Händlern mit unterschiedlichen Menüs stellt DoorDash vor eine einzigartige Herausforderung. ML-Algorithmen werden eingesetzt, um Menüelemente automatisch genau zu erkennen und zu klassifizieren. Durch die Verarbeitung von Bildern, Textbeschreibungen und Kundenfeedback integriert DoorDash Händlermenüs nahtlos in seine Plattform und bietet Kunden ein reichhaltiges und konsistentes Surferlebnis.

Entwerfen einer skalierbaren Model Serving Layer

Das MLOps-Team von DoorDash ist skalierbar Modell servieren Layer ist ein wichtiger Bestandteil ihrer Infrastruktur für maschinelles Lernen, die täglich Milliarden von Vorhersagen unterstützt. Im Folgenden finden Sie einige Einblicke in die Architektur und die wichtigsten Entscheidungen, die das Wachstum ihrer Model-Server-Layer ermöglicht haben.

Gezielter Bibliothekssupport: Die Model-Serving-Schicht von DoorDash wurde entwickelt, um zwei wichtige Bibliotheken zu unterstützen — GBM und PyTorch. Diese Entscheidung ermöglichte es dem MLOps-Team, optimierte Lösungen für diese Bibliotheken zu entwickeln und so eine effiziente und effektive Modellbereitstellung zu gewährleisten.
Unterstützung für Batch-Vorhersagen: Um den Overhead bei Netzwerkanrufen zu reduzieren, wurde die Model-Serving-Schicht so konzipiert, dass sie Batch-Vorhersagen unterstützt. Dies ist besonders vorteilhaft für Anwendungsfälle wie Empfehlungssysteme, die Tausende von Rankings für einen einzelnen Benutzer generieren. Durch die stapelweise Verarbeitung von Prognosen erzielt das System eine bessere Leistung und Skalierbarkeit.
Modellbeschattung zum Testen: Die Model-Serving-Plattform enthält eine Funktion namens Model Shadowing, mit der Datenwissenschaftler ihre Modelle in der Produktion testen können, ohne den Live-Benutzerverkehr zu beeinträchtigen. Dieser Schattenmodus hilft ihnen, Vertrauen in die Leistung und das Verhalten des Modells zu gewinnen, bevor es in die Serienproduktion überführt wird. So wird ein reibungsloser und fehlerfreier Bereitstellungsprozess gewährleistet.
Microservice-Architektur: Die Model-Serving-Plattform bei DoorDash folgt einer Microservice-Architektur. Die Plattform nutzt Kubernetes und organisiert Modelle in isolierten Pods, was eine unabhängige Skalierung auf der Grundlage individueller Bedürfnisse ermöglicht. Dieser architektonische Ansatz fördert Modularität, Skalierbarkeit und effiziente Ressourcenzuweisung und entspricht den branchenweit bewährten Verfahren für den Aufbau von Microservices.

‍

DoorDash’s ML Platform - The Beginning - DoorDash Engineering Blog

DoorDash uses Machine Learning (ML) at various places like inputs to Dasher Assignment Optimization, balancing Supply & Demand, Fraud prediction, Search Ranking, Menu classification, Recommendations etc. As the usage of ML models increased, there grew a need for a holistic ML Platform to increase th…

DoorDash Engineering Blog Param Reddy

‍

Spiegelung von Modellen: Schnelleres Testen und Bereitstellen

Die Implementierung einer Shadowing-Ebene in der Model-Server-Infrastruktur von DoorDash hat die Geschwindigkeit, mit der Modelle getestet und bereitgestellt werden, revolutioniert. Dieser Abschnitt befasst sich mit den einzigartigen Aspekten der Shadowing-Ebene, ihrem Unterschied zu Canary-Tests und ihrem tiefgreifenden Einfluss auf die Erleichterung effizienter Modelltests für Datenwissenschaftler.

Optimierter Shadowing-Prozess

Die Schattenschicht von DoorDash vereinfacht den Prozess und stellt sicher, dass Datenwissenschaftler mühelos Modelltests durchführen können. Die Implementierung ist sowohl unkompliziert als auch leistungsstark. Datenwissenschaftler verwenden Konfigurationen und ein intuitives Tool, um ein primäres Modell und Schattenmodelle zu spezifizieren. Mit nur wenigen Klicks können sie einen gewünschten Prozentsatz des eingehenden Datenverkehrs (z. B. 1% oder 2%) zuweisen, der an die Schattenmodelle weitergeleitet werden soll. Die Plattform kümmert sich um den Rest, einschließlich des Ladens des angegebenen Modells in die entsprechenden Pods, der nahtlosen Weiterleitung des angegebenen Datenverkehrs und der Protokollierung von Prognosen für die Schattenmodelle.

Beschleunigung der Geschwindigkeit und Stärkung von Datenwissenschaftlern

Die Einfachheit und Benutzerfreundlichkeit der Shadowing-Ebene von DoorDash haben das Test- und Bereitstellungstempo für Datenwissenschaftler erheblich beschleunigt. Durch die Beseitigung unnötiger Komplexitäten und die Minimierung der Abhängigkeit von technischer Unterstützung genießen Datenwissenschaftler die volle Autonomie beim Shadowing-Prozess. Diese neu gewonnene Agilität ermöglicht es ihnen, ihre Modelle häufiger zu wiederholen, was zu einem beschleunigten Entwicklungszyklus führt und schnelle Innovationen fördert.

Da jedoch die Anzahl der Modelle und das Verkehrsaufkommen zunehmen, müssen Überlegungen wie die Skalierbarkeit des Protokollierungssystems und das Kostenmanagement unbedingt berücksichtigt werden. Ein ausgewogenes Verhältnis zwischen effizientem Betrieb und der Ausweitung der Modelltests ist nach wie vor von entscheidender Bedeutung, um die Vorteile der Schattenschicht dauerhaft nutzen zu können.

‍

Ship to Production, Darkly: Moving Fast, Staying Safe with ML Deployments

Learn how DoorDash balanced ML models’ release speed and reliability by shipping darkly in order to manage fraud model deployments

DoorDash Engineering Blog Bob Nugman

‍

Shadowing von Canary Testing unterscheiden

Beschattung: Das Spiegeln von Modellen in ML Ops bezieht sich auf die Praxis, Modelle in einer Produktionsumgebung zu testen und zu bewerten, ohne den Live-Benutzerverkehr zu beeinträchtigen. Es bietet Datenwissenschaftlern einen sicheren Ort, an dem sie Vertrauen in die Leistung und das Verhalten ihrer Modelle gewinnen können, bevor sie sie vollständig einsetzen. Indem Datenwissenschaftler einen Teil der eingehenden Anfragen an Schattenmodelle weiterleiten, können sie deren Effektivität beurteilen und fundierte Entscheidungen treffen.
Kanarienvogel: Canary-Tests hingegen beinhalten die schrittweise Einführung neuer Modelle für eine Untergruppe von Benutzern, um deren Leistung und Stabilität im Vergleich zum bestehenden Modell zu bewerten. Es hilft dabei, Probleme oder Unstimmigkeiten zu identifizieren, bevor das neue Modell für die gesamte Benutzerbasis bereitgestellt wird. Canary-Tests ermöglichen eine kontrollierte Bewertung der Auswirkungen des neuen Modells auf das Nutzererlebnis und ermöglichen so datengestützte Entscheidungen über dessen Einführung.

📌

Standardisiert auf gRPC
DoorDash hat gRPC unternehmensweit als Standardprotokoll eingeführt. Diese Entscheidung war auf das Bedürfnis nach Stabilität und Effizienz in großem Maßstab zurückzuführen. Das binäre Protokoll von gRPC und sein kampferprobter Charakter sprachen den Fokus von DoorDash auf die Optimierung aller Aspekte ihrer ML-Infrastruktur an. Die Entscheidung, gRPC für die Service-to-Service-Kommunikation zu verwenden, sorgte für zuverlässige und effiziente Interaktionen zwischen den Komponenten der Model-Serving-Schicht.

Wir alle glauben, dass, wenn man Dinge in großem Maßstab macht, jede Kleinigkeit wichtig ist, und ich denke, das Binärprotokoll ist gut dafür, wenn man anfängt, eine Skala anzubieten und gRPC wurde in vielen, vielen Unternehmen erprobt.

Rationalisierung von Feature-Engineering und Datenformaten

Um das Feature-Engineering und das Modelltraining zu erleichtern, konzentrierte sich DoorDash auf die Optimierung seiner Infrastruktur und Datenformate. Anfänglich nutzte das Unternehmen Snowflake als Data Warehouse, das eine effiziente Datenspeicherung und -verwaltung ermöglichte. Bei der Skalierung der Modelltrainingsabläufe erwies sich das Abrufen von Daten aus Snowflake jedoch als ineffizient. Hien Luu erkannte die Notwendigkeit eines Data Lake und sprach sich für dessen Implementierung aus. Er stützte sich dabei auf seine Erfahrung bei LinkedIn, wo sich ein Data Lake für zahlreiche Anwendungsfälle als wertvolle Ressource erwiesen hatte. Der Aufbau eines Data Lakes kostete Zeit und Mühe, aber sobald es eingerichtet war, konnte DoorDash ihn nutzen, um sein Feature-Engineering-Framework zu erstellen.

Das Feature-Engineering-Framework diente als Abstraktionsschicht, sodass Datenwissenschaftler ausdrücken konnten, wie Merkmale berechnet werden sollten. Die Infrastruktur von DoorDash kümmerte sich dann im Auftrag der Datenwissenschaftler um die Berechnung, Planung der Pipelines und das Ressourcenmanagement. In Zusammenarbeit mit dem Data Lake-Team wurden optimale Formate für die Speicherung der berechneten Merkmale festgelegt.

Neben dem Offline-Feature-Store nutzte DoorDash auch einen Online-Feature-Store. Die meisten Anwendungsfälle betrafen Online-Vorhersagen, die in Produktionssysteme integriert waren und das Vorhandensein eines Online-Feature-Stores erforderten. Sowohl Offline- als auch Online-Feature-Stores wurden beibehalten, um den in der Branche häufig auftretenden Diskrepanzen in den Bereichen Schulung und Service Rechnung zu tragen. Um die Feature-Sets zwischen den beiden Stores zu synchronisieren, wurden die generierten Features im Offline-Feature-Store gespeichert und anschließend in den Online-Feature-Store hochgeladen. Durch die Verwendung derselben Logik sowohl für Offline- als auch für Online-Szenarien vereinfachte das Feature Engineering Framework den Prozess. Datenwissenschaftler konnten ihre gewünschten Funktionen für beide Stores spezifizieren und sich darauf verlassen, dass die Infrastruktur die zugrunde liegenden Mechanismen abwickelt, beispielsweise die Planung der Uploads.

‍

Five Common Data Quality Gotchas in Machine Learning and How to Detect Them Quickly - DoorDash Engineering Blog

Data preparation, represents The vast majority of work in developing machine learning models, learn how to make things easier

DoorDash Engineering Blog Kornel Csernai

‍

Die Bedeutung von Modellvalidierung und automatisierter Umschulung bei MLOps

Validierung der Modellleistung

Die Sicherstellung der Genauigkeit und Zuverlässigkeit von Modellen für maschinelles Lernen ist ein entscheidender Aspekt des MLOps-Prozesses. Bei der Modellvalidierung wird die Leistung eines Modells anhand realer Daten getestet, um seine Wirksamkeit zu überprüfen. Durch die Automatisierung dieses Validierungsprozesses mithilfe von Tools wie MLflow können Datenwissenschaftler Experimente verfolgen, Ergebnisse vergleichen und verschiedene Modelle anhand ihrer Leistungskennzahlen bewerten. Die Modellvalidierung bietet Vertrauen in die Fähigkeit des Modells, genaue Vorhersagen zu treffen, und hilft bei der Entscheidungsfindung im Bereitstellungsprozess.

Automatisierte Umschulung für optimale Leistung

Durch automatisiertes Re-Training geht die Modellvalidierung noch einen Schritt weiter, indem Modelle anhand vordefinierter Kriterien oder Schwellenwerte automatisch neu trainiert werden können. Dieser proaktive Ansatz stellt sicher, dass die Modelle auf dem neuesten Stand bleiben und im Laufe der Zeit ihre optimale Leistung erbringen. Durch die Minimierung manueller Eingriffe können MLOps-Teams das Risiko menschlicher Fehler reduzieren und den Umschulungsprozess optimieren.

Die Implementierung automatisierter Umschulungen erfordert eine sorgfältige Abwägung der spezifischen Bedürfnisse jedes Modells und der möglichen Konsequenzen. Die MLOps-Teams müssen Schutzmaßnahmen und flexible Prozesse entwerfen und implementieren, um sicherzustellen, dass die Modelle angemessen umgeschult werden. Dazu gehören Planung und Tests zur Bestimmung der optimalen Umschulungshäufigkeit, der Kriterien für die Umschulung und der Strategien zur Beförderung der umgeschulten Modelle in die Produktion.

Die Vorteile einer automatisierten Umschulung sind erheblich. Durch die kontinuierliche Aktualisierung der Modelle können Unternehmen ihre Genauigkeit und Zuverlässigkeit aufrechterhalten, sich an sich ändernde Datenmuster anpassen und potenziellen Leistungseinbußen begegnen. Automatisierte Umschulungen reduzieren auch das Risiko von Fehlern und Ausfallzeiten in Produktionsumgebungen, da die Modelle proaktiv verbessert und aktualisiert werden.

Die Integration von Modellvalidierung und automatisierter Umschulung in die MLOps-Infrastruktur ist entscheidend für den Aufbau robuster und zuverlässiger Systeme für maschinelles Lernen. Durch den Einsatz von Automatisierungstools und die Implementierung gut durchdachter Prozesse können Unternehmen sicherstellen, dass ihre Modelle konsistent genaue Vorhersagen liefern und sich effektiv an sich ändernde Bedingungen anpassen.

Herausforderungen und Chancen für ML Ops bei der Unterstützung generativer KI und LLMs

Generative KI und Sprachmodelle (LMs) haben das Potenzial, viele Branchen zu revolutionieren, einschließlich der Lebensmittellieferung. Um diese Technologien effektiv nutzen zu können, müssen die ML Ops-Teams jedoch mehrere Herausforderungen und Chancen bewältigen.

Der Weltraum entwickelt sich schnell: Mit den rasanten Fortschritten bei generativen KI- und Sprachmodellen (LMs) Schritt zu halten, stellt Datenwissenschaftler und ML-Ops-Teams vor eine Herausforderung.
Konzentrieren Sie sich auf die Unterstützung von Datenwissenschaftlern: Der Schwerpunkt sollte auf der Festlegung der erforderlichen Infrastruktur und Tools liegen, um Datenwissenschaftler bei der effektiven Nutzung von LLMs für ihre spezifischen Anwendungsfälle zu unterstützen.
Schnelles Engineering: Infrastrukturteams können eine entscheidende Rolle dabei spielen, Datenwissenschaftler bei der schnellen Planung zu unterstützen und ihnen dabei zu helfen, die Eingabeaufforderungen für die gewünschten Ergebnisse zu optimieren und zu verfeinern.
Internes Hosting für Datenschutz und Latenz: In einigen Anwendungsfällen kann es erforderlich sein, LMs intern zu hosten, um Datenschutzbedenken auszuräumen, die Latenz zu reduzieren oder die Kosten zu kontrollieren. Es ist wichtig zu verstehen, wie internes Hosting eingerichtet und mit GPU-Konfigurationen gearbeitet wird.
Investitionen in die Infrastruktur: Unternehmen wie DoorDash erkennen das Potenzial von LLMs und generativer KI und investieren in die notwendige Infrastruktur, um verschiedene Anwendungsfälle zu unterstützen und Datenwissenschaftler zu unterstützen.
Nutzung offener KI und interner Modelle: Verschiedene Anwendungsfälle erfordern möglicherweise unterschiedliche Hosting-Ansätze. Einige können offene KI-Modelle nutzen, während andere möglicherweise intern gehostete Modelle erfordern, die auf Faktoren wie Latenz, Datensatz, Umfang und Kosten basieren.
Ressourcenmanagement und Skalierbarkeit: Die effektive Verwaltung von Ressourcen und die Bewältigung der Herausforderung der Modellquantisierung sind wichtige Überlegungen für das skalierbare Hosten von LLMs.

Hier ist ein weiterer interessanter Blog, der vom Team von DoorDash rund um Generative KI geschrieben wurde:

‍

DoorDash identifies Five big areas for using Generative AI - DoorDash Engineering Blog

Discover how DoorDash plans to revolutionize the delivery experience with Generative AI and enhance the customer’s ordering journey.

DoorDash Engineering Blog Alok Gupta

‍

Lesen Sie unsere vorherigen Blogs in der True ML Talks-Reihe:

‍

True ML Talks # 8 - Machine Learning Platform @ Intuit

In this blog, we dive deep into Intuit’s Machine Learning Platform, and Numaflow. Understand Intuit’s ML architecture, how ML is used at Intuit.

TrueFoundry Blog TrueFoundry

‍

Schaue weiter TrueML YouTube-Serie und das TrueML lesen Blog-Serie.

Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo