True ML Talks #7 - Plattform für maschinelles Lernen @ Edge

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wir sind zurück mit einer weiteren Folge von True ML Talks. Darin tauchen wir tief ein Rand ML Platform, und wir sprechen mit Rahul Kulhari.

Wir stellen Rahul Kulhari vor, Mitbegründer und Leiter der Datenwissenschaft bei Edge. Rahul verfügt über einen starken Hintergrund in den Bereichen KI und maschinelles Lernen und ist für die Umsetzung der Unternehmensvision und den Aufbau seiner KI-Strategie verantwortlich. Er leitet ein Expertenteam, das hochmoderne KI-Systeme entwickelt, die die Produkte von Edge zur Talentgewinnung, Talentmobilität und zum internen Talentmarkt unterstützen. Sein Fachwissen und seine Erfahrung machen ihn zu einer wertvollen Ressource für die Branche und zu einer hervorragenden Ressource für alle, die sich für die neuesten Entwicklungen in den Bereichen Datenwissenschaft und KI interessieren.

📌

Unsere Gespräche mit Liming werden die folgenden Aspekte behandeln:
- ML-Anwendungsfälle in Edge
- Team für maschinelles Lernen bei Edge
- Innovation im Stack für maschinelles Lernen
- Quantisierung VS Destillation
- Herausforderungen bei der Operationalisierung des maschinellen Lernens
- Auswahl der MLOps-Tools

Sehen Sie sich die ganze Folge unten an:

ML-Anwendungsfälle @ Edge

Natürliche Sprachverarbeitung (NLP): wird von Edge verwendet, um Stellenbeschreibungen und Lebensläufe besser zu verstehen und die richtigen Kandidaten und potenziellen Kandidaten für Stellen zu empfehlen.
Wissensgraph: wird von Edge verwendet, um Mitarbeitern innerhalb des Unternehmens und den richtigen Kandidaten für Stellen ein Such- und Empfehlungssystem für personalisierte Stellenangebote bereitzustellen.
Verstärkendes Lernen: ein potenzieller zukünftiger Anwendungsfall für Edge, um es Benutzern zu ermöglichen, Entscheidungen auf der Grundlage des heutigen Verhaltens und der Transformation in der Branche zu treffen. Dabei wird ein dynamischerer Ansatz verfolgt, der Branchentrends und Veränderungen im Laufe der Zeit berücksichtigt.

Team für maschinelles Lernen bei Edge

Die Teamstruktur bei Edge ist in fünf Unterkategorien unterteilt. Jede Branche ist für einen bestimmten Aspekt des Lebenszyklus der KI-Produktentwicklung verantwortlich. Diese fünf Branchen lauten wie folgt:

Angewandte Wissenschaftler/Forschungswissenschaftler/Giga-Wissenschaftler: Diese Unterkategorie ist dafür verantwortlich, die Problemstellung zu verstehen und die komplette Komplettlösung zu erstellen, die Experimente, Datenbereinigung, Datenverarbeitung und Bereitstellung umfasst. Sie arbeiten eng mit anderen Teammitgliedern zusammen, um Modelle für maschinelles Lernen zu entwickeln und bereitzustellen.
Datenanalysten: Diese Vertikale ist für das Sammeln, Analysieren und Interpretieren großer, komplexer Datensätze verantwortlich. Sie arbeiten eng mit Datenwissenschaftlern zusammen, um sicherzustellen, dass die verwendeten Daten von hoher Qualität sind und für das zu lösende Problem relevant sind.
Ingenieure für maschinelles Lernen: Die Machine Learning Engineers ermöglichen es Datenwissenschaftlern, Teil der Machine-Learning-Pipelines zu werden, indem sie die Tools im Rahmen der Schulung, des Experimentierens, der Bereitstellung und der Überwachung einführen. Sie arbeiten eng mit den Applied Scientists zusammen, um die Modelle in der Produktion einzusetzen.
KI-Produktmanager: Die KI-Produktmanager sind für die Verbesserung und Entwicklung des KI-Produkts verantwortlich. Sie übersetzen die Problemstellung von den Stakeholdern im Team an die Datenwissenschaftler und andere Teammitglieder. Sie arbeiten eng mit den anderen Teammitgliedern zusammen, um sicherzustellen, dass das KI-Produkt den Anforderungen des Unternehmens entspricht und den Unternehmenszielen entspricht.
Domain-Experten: Diese Branche umfasst Personen mit Fachkenntnissen in bestimmten Bereichen wie Personal, Finanzen und Vertrieb. Sie arbeiten eng mit den Datenwissenschaftlern und Ingenieuren für maschinelles Lernen zusammen, um sicherzustellen, dass das KI-Produkt für den jeweiligen Bereich relevant ist und dem Unternehmen einen Mehrwert bietet.

📌

Die Rolle des KI-Produktmanagers:
Der KI-Produktmanager überbrückt die Geschäftslücke zwischen den Teams für Datenwissenschaft und ML, indem er sich mit den Produkt- und Kundenerfolgsteams zusammensetzt, um die Geschäftsziele zu verstehen. Sie organisieren Diskussionen, an denen Datenwissenschaftler, Forscher und das ML-Engineering-Team teilnehmen, um die erforderlichen Beiträge der einzelnen Teammitglieder zu ermitteln. Der KI-Produktmanager kommuniziert die Bedürfnisse und Richtlinien für den Beitrag jedes Teams, um sicherzustellen, dass alle an einem Strang ziehen. Sie bleiben während des gesamten Projekts involviert und stellen sicher, dass die Geschäftsziele erreicht werden und dass alle auf dasselbe Ziel hinarbeiten.

Innovationen im Machine Learning-Stack

Das ML-Team von Edge ist sich der erheblichen Herausforderung bewusst, die der Mangel an Daten im Arbeitsablauf für maschinelles Lernen darstellt. Um diesem Problem zu begegnen, haben sie verschiedene Tools, Prozesse und Algorithmen zur Datenerweiterung eingeführt. Sie haben Funktionen wie Algorithmen für Schüler und Lehrer entwickelt, mit denen ihre Modelle anhand verrauschter Daten trainiert werden können, die mit diesen Tools und Algorithmen erstellt wurden, und dann anhand einer großen Menge beschrifteter Daten eine Feinabstimmung vornehmen.

Ein wichtiges Tool, das sie zur Datenerweiterung verwenden, ist Eviently AI. Sie hilft ihnen dabei, Daten und Zielabweichungen zu erkennen, um sicherzustellen, dass die erstellten verrauschten Daten mit den beschrifteten oder Zieldaten übereinstimmen. Mit diesem Tool können sie sicherstellen, dass ihre kategorialen und kontinuierlichen Merkmale aufeinander abgestimmt sind, was bei der Erstellung genauer Modelle hilfreich ist.

Das Team hat auch in der Pipeline für maschinelles Lernen Innovationen eingeführt. Obwohl es im Laufe der Zeit ausgereift ist, stellten sie bei der Entwicklung fest, dass kein einzelnes Tool oder Produkt alle Aufgaben von Anfang bis Ende lösen konnte, und sie ineinander zu integrieren war eine Herausforderung. Sie haben verschiedene Tools wie Neptune, Comet und MLflow für die Modellregistrierung und -verwaltung verwendet.

Aus Sicht der Bereitstellung haben sie sich auf Skalierbarkeit, Latenz und Kosten konzentriert. Sie verwenden Tools wie TF Serving und Onyx zur Quantisierung für die Bereitstellung auf Kubernetes-Bereitstellungs-Pods. Sie verfügen in ihrer gesamten Pipeline für maschinelles Lernen über mehrere Tools, was sie als Innovation betrachten. Sie waren in der Lage, ihre Finanzen zu verwalten und gleichzeitig hochmoderne Lösungen zu entwickeln, sodass sie keine Notwendigkeit sahen, auf neuere Tools umzusteigen, die möglicherweise teurer sind. Sie ermutigen ihr Team jedoch, neue Technologien und Tools im Auge zu behalten, die in Zukunft nützlich sein könnten.

Quantisierung funktioniert besser als Destillation: Optimierung der Modelllatenz

Die Optimierung der Modelllatenz ist eine entscheidende Herausforderung im Bereich des maschinellen Lernens. Techniken wie Quantisierung, Modellbereinigung und Destillation wurden untersucht, um sie zu lösen. Laut einem aktuellen Bericht eines Edge-Teams funktioniert Quantisierung besser als Destillation, um die Modelllatenz zu reduzieren.

Das Team experimentierte mit verschiedenen Modellen wie DistilBert, RobertA und ALBERT und entschied sich letztendlich für ALBERT, da es bei der Interpretation von Jobs und Lebensläufen besser abschneidet. Sie führten auch eine Destillation sowohl bei ALBERT als auch bei RobertA durch.

In ihren Experimenten stellte das Team fest, dass die Quantisierung bemerkenswerte Ergebnisse lieferte und die Modelllatenz auf CPUs von etwa 1,2 Sekunden auf etwa 200 Millisekunden reduzierte. Das Team verwendete Onyx und Hugging Face Quantization für seine Modelle, die sie nur auf GPUs trainierten.

Bei der Auswahl des richtigen Modells berücksichtigte das Team verschiedene Faktoren wie Latenz, Modellgröße, Parallelität, CPU-Auslastung und Speicherauslastung. Sie arbeiteten mit Datenwissenschaftlern zusammen, die den Rahmen für den Quantisierungsprozess bereitstellten, während das Engineering-Team für maschinelles Lernen die Experimente durchführte und auf der Grundlage der Ergebnisse die beste Option auswählte.

Obwohl die Quantisierung einen Einfluss von 1% auf die Präzision hatte, hatte sie keinen Einfluss auf das Erinnerungsvermögen. Das Team betont, dass jeder die Quantisierung ausprobieren sollte, da es sich dabei um eine einfache, aber effektive Technik zur Reduzierung der Modelllatenz handelt.

Um die Daten zu erhalten, benötigte das Modell vor der Quantisierung ungefähr 1200 Millisekunden. Aber als Sie diese Quantisierung durchführten, reduzierte sie sich auf ungefähr 200 Millisekunden.

Herausforderungen bei der Operationalisierung des maschinellen Lernens

Herausforderungen:

Für das Training stehen begrenzte Daten zur Verfügung: Die Arbeit mit Anwendungsfällen wie Suchen, Empfehlungsmaschinen, Klassifizierungsproblemen und objektivem oder zielorientiertem maschinellem Lernen kann aufgrund der geringeren Datenverfügbarkeit eine Herausforderung sein. Es ist wichtig, Möglichkeiten zu finden, mit weniger Daten umzugehen und trotzdem die besten Ergebnisse zu erzielen.
Einführung von ML-Tools: Die Einführung von Tools wie MLflow ist eine Herausforderung, da Forscher und Datenwissenschaftler möglicherweise nicht verstehen, wie wichtig das Tool ist oder wie es ihnen hilft. Das ML-Team sollte sich bemühen, sie aufzuklären und das Bewusstsein für die Vorteile der Verwendung solcher Tools zu schärfen.

Lösungen:

Entwicklung deskriptiver oder präskriptiver Erkenntnisse: Das ML-Team sollte sich auf die Entwicklung von Tools konzentrieren, die beschreibende oder präskriptive Erkenntnisse liefern, die bei der Entscheidungsfindung helfen. Dadurch wird die Abhängigkeit vom Fachwissen der Forscher verringert, was zeitaufwändig und kostspielig sein kann.
Zusammenarbeit von Daten, Algorithmen und menschlichem Fachwissen: Um die besten Ergebnisse zu erzielen und die richtige Strategie zu entwickeln, sollten Daten, Algorithmen und menschliches Fachwissen zusammen genutzt werden.
Identifizierung der kritischsten Experimente, die durchgeführt werden müssen: Angesichts der begrenzten Infrastruktur ist es wichtig, die besten Experimente für die Durchführung zu identifizieren, da es beim maschinellen Lernen viele Hyperparameter gibt. Das ML-Team sollte sich darauf konzentrieren, einen Prozess zu entwickeln, um die kritischsten Experimente zu identifizieren und Hyperparameter zu optimieren, um die besten Ergebnisse zu erzielen.

MLOps Tooling: Ein paar wichtige Tools, um die gesamte Reise abzuschließen

Infrastruktur-Tools für die Schulung und Bereitstellung von MLOps

Wenn es um MLOps geht, ist die Infrastruktur eine wichtige Komponente. Eine zuverlässige Infrastruktur ist erforderlich, um die Rechenleistung zu unterstützen, die für das Training und den Einsatz von maschinellem Lernen erforderlich ist. Durch den Einsatz eines GPU-Anbieters wie E2E Networks können erschwingliche GPUs in Indien bereitgestellt werden.

Modelltraining und Bauwerkzeuge für MLOps

Für das Training und die Erstellung von Modellen kann die Verwendung von Tools wie Neptune, Comet ML oder TrueFoundry, die in Git integriert sind, die Reproduzierbarkeit und die Einhaltung gesetzlicher Vorschriften sicherstellen. Hugging Face, TensorFlow und PyTorch werden ebenfalls für die Erstellung von Modellen empfohlen. CatBoost ist eine gute Option für Regressionsprobleme oder Entscheidungsbäume.

Bereitstellungstools für MLOps

Wenn es um die Bereitstellung geht, ist ONNX ein empfohlenes Tool, oder es kann ein serverloser Ansatz mit Max.io, Banana.dev oder Infrrd gewählt werden. Bei der Entwicklung kann die Datenqualität durch benutzerdefinierte Tools oder Tools von Drittanbietern wie Great Expectations, Streamlit für die Visualisierung und Alibi Detect oder Eviently AI für Datendrift und Analyse sichergestellt werden. Während der Produktion können jedoch zusätzliche Tools für Datenqualität, Datenherkunft und andere Arten der Analyse erforderlich sein.

Lesen Sie unsere vorherigen Blogs in der TrueML-Serie

‍

‍True ML Talks #6 - Machine Learning Platform @ °Nomad Health

In this blog, we dive deep into Nomad.Health’s ML Platform. Understand their ML architecture, how ML is used in the healthcare staffing industry.

TrueFoundry Blog TrueFoundry

‍

Schaue weiter TrueML YouTube-Serie und lese das ganze TrueML Blog-Serie.

Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo