True ML Talks #5 - Plattform für maschinelles Lernen @ Simpl

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
Wir sind zurück mit einer weiteren Folge von True ML Talks. Darin tauchen wir tief ein Einfach ML Platform, und wir sprechen mit Sheekha.
Sheekha ist Direktorin für Datenwissenschaft bei Simpl. Simpl baut Indiens führendes erstes Tap-Checkout-Netzwerk auf, in dem das Unternehmen Händlern eine ganze Reihe von Produkten anbietet, angefangen von BNPL über Ratenzahlungen bis hin zu vielen anderen Mehrwertdiensten. Sie arbeiten mit mehr als 26.000 Händlern in ganz Indien zusammen, darunter JIO Platforms, das größte Telekommunikationsnetz, Zomato, einer der größten Lebensmittellieferdienste des Landes, und vieles mehr.
📌
Unsere Gespräche mit Sheekha werden die folgenden Aspekte behandeln:
- ML-Anwendungsfälle in Simpl
- Überblick über die Simpl ML-Infrastruktur
- Verwaltung der Kosten für ML-Schulungen
- Separate Verwaltung von Schulungs- und Inferenz-Pipelines
- Automatisierung bei der Umschulung von ML-Modellen
- Simpls Ausflug ins hauseigene Gebäude
- Überlegungen zu Echtzeitsystemen und datenwissenschaftlichen Modellen
- Die ML-Bereitstellung so einfach wie Software machen
- Verankerung technischer Prinzipien in der Datenwissenschaft
Sehen Sie sich die ganze Folge unten an:
ML-Anwendungsfälle @Simpl
- Betrugsprävention und Risikobewertung: Das ML-System von Simpl analysiert jede Transaktion und verwendet einfache Regeln, Filter, Modelle für maschinelles Lernen und neuronale Netzwerksysteme, um risikoreiche Transaktionen wie Kontoübernahmen, Identitätsdiebstahl oder andere verdächtige Aktivitäten zu identifizieren. Das System kann betrügerische Transaktionen verhindern, die zu Geldverlusten und der Unfähigkeit führen können, gute Kunden zu bedienen.
- Underwriting: Das ML-System von Simpl hilft dem Unternehmen, versicherungstechnische Entscheidungen zu treffen, indem es die von den Benutzern bereitgestellten Onboarding-Daten analysiert. Das System bestimmt, für wie viel Guthaben ein Benutzer in Frage kommt und wie hoch sein Ausgabenlimit sein sollte. Die Teams von Simpl sind in den Underwriting-Prozess eingebunden und setzen zunehmend auf Pipelines und Systeme in Echtzeit.
- Kundenbetreuung: Das ML-System von Simpl hilft dem Unternehmen bei der Zusammenarbeit mit Kunden, die Probleme haben, pünktlich zu bezahlen. Das System kann Kunden an bevorstehende Zahlungen erinnern oder alternative Zahlungspläne anbieten, die für beide Parteien funktionieren. Die Teams von Simpl arbeiten mit den Kunden zusammen, um den besten Weg in die Zukunft zu finden und ein positives Kundenerlebnis zu gewährleisten.
Wir haben dieses interessante Nachrichtencover darüber gefunden, wie Simpl ML zur Betrugserkennung nutzt:
Das Data-Science-Team bei Simpl
Das Data-Science-Team von Simpl besteht aus 28 Datenwissenschaftlern und 16 Dateningenieuren. Das Team ist zusammen mit anderen Entwicklungsteams ein zentraler Bestandteil von Simpl, und sie haben ein separates DevOps-Team. Das Team arbeitet an ML, neuronalen Netzwerksystemen, Regeln, Graphdatenbanken und Modellen für grafisches maschinelles Lernen, um Gemeinschaften von Betrugsnutzern zu untersuchen.
Der Tech-Stack und der Arbeitsablauf des Data-Science-Teams von Simpl
Aus aktueller Sicht des Tech-Stacks hat das Unternehmen alles in der Cloud, ohne dass lokale Systeme vorhanden sind.
Das Data-Science-Team von Simpl verwendet einen Remote-Computer mit Python-Notebook und Bibliotheken, die vom Data Engineering-Team erstellt wurden, um eine Verbindung zu Datenbanken herzustellen und explorative Datenanalysen (EDA) durchzuführen. Sobald die Datenanalyse abgeschlossen ist, richtet das Team mit Hilfe des Datentechnikteams eine Pipeline ein, um das Modell bereitzustellen. Bei Batch-Modellen verwendet das Team Airflow für die Planung.
Die Modellüberwachung erfolgt mithilfe der Dashboards von Simpl, um Ausgabeänderungen zu verfolgen. In Bezug auf MLOps investiert Simpl derzeit in das Gebiet. Im Bereich der Betrugsbekämpfungssysteme verfügt das Unternehmen über ein Modell, das Batch-Systeme zur Analyse ähnlicher E-Mail-IDs und Telefonnummern verwendet. Das Team verfügt auch über einige Tools, die in Echtzeit ausgeführt werden, um Transaktionen auf der Grundlage der Geschwindigkeit der Transaktion und des Transaktionsbetrags zu überwachen.
Simpl setzte auch ein neuronales Netzwerkmodell für die Transaktionsüberwachung ein. Das Modell kombiniert die aktuelle Nutzlast mit historischen Daten aus dem letzten Jahr und überträgt sie in das neuronale Netzmodell, um zu entscheiden, ob die Transaktion zugelassen oder abgelehnt werden soll. Das Datentechnikteam baute eine Flink-Pipeline, um den Spitzenverkehr zu bewältigen und ein niedriges SLA von 70 bis 80 Millisekunden sicherzustellen.
📌
Feature-Store:
Ein Feature-Store ist ein zentrales Repository zum Speichern und Verwalten von Features, bei denen es sich um einzelne messbare Eigenschaften oder Merkmale von Daten handelt, die zum Trainieren von Modellen für maschinelles Lernen verwendet werden.
Simpl verwendet derzeit DynamoDB als Feature-Store für Verfügbarkeit in Echtzeit. Dies ist jedoch teuer, und es gibt Bestrebungen, einen internen Feature Store aufzubauen, um die Kosten langfristig zu senken.
Wir haben diesen interessanten Blog darüber gefunden, wie sich Data Science bei Simpl entwickelt hat:
Kostenmanagement für ML-Modelle: Herausforderungen und Lösungen
Die Verwaltung der Kosten, die mit der Implementierung und Skalierung von Modellen für maschinelles Lernen (ML) verbunden sind, ist eine entscheidende Herausforderung. Dies ist besonders wichtig für Modelle, die erhebliche Datenmengen benötigen und teure Ressourcen wie Flink-Pipelines und virtuelle Maschinen verwenden.
Das ML-Team befasst sich mit Terabytes an Daten, was den Einsatz virtueller Maschinen für Trainingsjobs erfordert. Es ist entscheidend, die Kosten gegen die Vorteile der Modelle abzuwägen.
Um die Kosten zu senken, arbeitet das Team mit DevOps- und Data-Engineering-Teams zusammen, um kostengünstige Optionen zu erkunden. Sie haben auch daran gearbeitet, einen internen Feature Store aufzubauen, um die Kosten für die Nutzung von DynamoDB zu senken. Eine weitere Maßnahme zur Kosteneinsparung ist die Verwendung von Instances vor Ort für unkritische Aufgaben.
Das Kostenmanagement ist jedoch ein fortlaufender Prozess, der eine kontinuierliche Bewertung der Wirtschaftlichkeit des Modells erfordert. Bei der Entscheidung über die beste Maßnahme zur Kosteneinsparung spielen auch Faktoren wie das Precision-Recall-Gleichgewicht und die Kosten guter Nutzer eine Rolle
📌
Interaktion zwischen dem ML und dem DevOps-Team:
Die Zusammenarbeit zwischen DevOps- und Data-Science-Teams ist erforderlich, um virtuelle Maschinen für Machine-Learning-Projekte bereitzustellen. In der Regel ist eine Vorlaufzeit von mindestens drei Tagen erforderlich. Das DevOps-Team erhält mehrere Anfragen, einschließlich solcher vom Data-Science-Team, für deren Erfüllung die Kosten und die Zusammenarbeit mit dem Dateningenieurteam abgewogen werden müssen. Im Falle einer dringenden Anfrage kann das DevOps-Team den Bereitstellungsprozess beschleunigen, ohne die Auswirkungen auf die Kosten zu berücksichtigen. Das Data-Science-Team berücksichtigt die dreitägige Zeitverzögerung im Projektbereitstellungsplan.
Separate Verwaltung von Schulungs- und Inferenz-Pipelines: Vor- und Nachteile
Die getrennte Verwaltung der Trainings- und Inferenz-Pipelines kann zu einer Reihe von Problemen führen, die sich auf die Gesamteffizienz des Systems auswirken können. Der Hauptgrund dafür ist, dass es schwierig sein kann, die Ursprünge der Modelle nachzuverfolgen, die Codes beizubehalten und die Ergebnisse zu replizieren. Dies kann auch zu menschlichem Versagen und der Zunahme von Problemen führen, insbesondere bei Start-ups.
Andererseits kann die separate Verwaltung dieser Pipelines für mehr Flexibilität und Kontrolle über das System sorgen, sodass Sie jeden Prozess unabhängig optimieren können. Sie können das System auch einfacher skalieren, indem Sie den Schulungs- oder Inferenz-Pipelines bei Bedarf neue Ressourcen hinzufügen.
Idealerweise sollten Sie diese Pipelines jedoch zusammenführen und die Umschulung in denselben Prozess integrieren. Auf diese Weise können Sie die Probleme vermeiden, die mit der getrennten Verwaltung dieser Pipelines verbunden sind. Sie werden weiterhin in der Lage sein, die Flexibilität und Kontrolle beizubehalten, die mit einer unabhängigen Verwaltung einhergehen. Insgesamt hängt die Entscheidung, diese Pipelines getrennt oder zusammen zu verwalten, von den spezifischen Anforderungen Ihrer Organisation und den Ihnen zur Verfügung stehenden Ressourcen ab.
Die Bedeutung der Automatisierung bei der Umschulung von ML-Modellen
Die Umschulung von ML-Modellen ist ein entscheidender Bestandteil der Aufrechterhaltung ihrer Genauigkeit und Relevanz. Eine manuelle Umschulung kann jedoch zeitaufwändig und fehleranfällig sein. Aus diesem Grund spielt die Automatisierung eine entscheidende Rolle, um sicherzustellen, dass der Prozess effizient, zuverlässig und skalierbar ist.
Die Automatisierung von Umschulungen kann Unternehmen dabei helfen, bestimmte Intervalle für die Auslösung von Umschulungen festzulegen und so sicherzustellen, dass die Modelle regelmäßig aktualisiert werden. Dies kann auch dazu beitragen, Zeit und Ressourcen zu sparen, da durch die Automatisierung manuelle Eingriffe überflüssig werden.
Bei der Automatisierung der Umschulung komplexer Modelle, für die spezielle Hard- oder Software erforderlich ist, kann es jedoch zu Herausforderungen kommen. In solchen Fällen kann eine manuelle Umschulung erforderlich sein, bis eine automatisierte Lösung implementiert werden kann.
Simpls Ausflug ins hauseigene Bauen
Herausforderungen bei der Verwendung von SageMaker für Machine-Learning-Projekte
Der Einsatz von SageMaker war für Data-Science-Teams ein Wendepunkt, wenn es um den Umgang mit großen Datensätzen für Machine-Learning-Projekte geht. Die Plattform birgt jedoch immer noch einige Herausforderungen, die sich auf die Produktivität des Teams auswirken können.
- Zuteilung von Ressourcen: Wenn sich mehrere Personen gleichzeitig bei SageMaker anmelden, kann das Laden einer großen Datei oder eines Modells das System für alle zum Absturz bringen. Dies betrifft nicht nur die Person, die die Anfrage initiiert hat, sondern alle anderen. Dies unterstreicht die Notwendigkeit eines Systems, das solche Probleme auf Teamseite bewältigen kann.
- Kosten für den Betrieb der GPU: Die Kosten für den Betrieb von GPU-Instances für neuronale Netzwerkmodelle, die für die Verarbeitung großer Datenmengen unerlässlich sind, können sehr teuer sein, und das Team muss vorsichtig sein, wenn es darum geht, sie zu verwenden. Um Kosten zu sparen, haben sie ein System eingerichtet, das das Notebook herunterfährt, wenn es für einen bestimmten Zeitraum inaktiv ist. Sie hoffen jedoch, auf ein automatisierteres System umsteigen zu können, das je nach Nutzung hoch- und herunterskaliert wird.
Obwohl SageMaker eine nützliche Plattform für das Team war, gibt es noch andere Optionen wie Kubernetes, die sie noch nicht ausprobiert haben. Die Entscheidung, SageMaker zu verwenden, war jedoch hauptsächlich auf die Notwendigkeit eines schnelleren Systems zurückzuführen, das große Datenmengen verarbeiten konnte.
Pläne zur Entwicklung einer besseren Version von SageMaker
Das Unternehmen plant, eine verbesserte Version von SageMaker, seiner eigenen Plattform für maschinelles Lernen, zu entwickeln. Ursprünglich ein Forschungs- und Entwicklungsexperiment, profitiert das Projekt nun von einem größeren Team, das in der Lage ist, intern zu entwickeln. Ihr virtuelles System verfügte zwar über einige SageMaker-Funktionen, es fehlte jedoch an verteilter Datenverarbeitung. Das Hinzufügen von verteilter Datenverarbeitung zu ihrer aktuellen virtuellen Maschine über die Py-Konsolenintegration bietet die erforderliche Lösung.
Für die Verwaltung der Benutzerzugriffskontrolle und den Datenzugriff hat das Unternehmen verschiedene IAM-Rollen eingerichtet und seinem Datenteam ein untergeordnetes Konto für das Kostenmanagement zugewiesen. Sie müssen jedoch noch weiter arbeiten, insbesondere angesichts der sensiblen Daten, mit denen sie als FinTech-Unternehmen umgehen, und der regelmäßigen Prüfungen durch RBI.
Sie könnten zwar eine externe Plattform verwenden, das Unternehmen hat sich jedoch dafür entschieden, ihre Version von SageMaker intern zu entwickeln. Ihre Entscheidung ist strategisch und basiert nicht auf Einschränkungen im Zusammenhang mit der Datenverfügbarkeit oder den Kosten. Da sie mehr Kontrolle über die Plattform haben, können sie effizienter skalieren und wachsen. Das Unternehmen hat in einigen Systemen bereits verteiltes Rechnen über DAS eingesetzt.
Wir skalieren und das Team wird größer, wenn Sie das intern machen können, warum nicht?
- Schekha
Überlegungen zu Echtzeitsystemen und Data-Science-Modellen
- Bei Echtzeitsystemen müssen strenge SLAs eingehalten werden, und die Lastverteilung kann ungleichmäßig sein, mit bestimmten Spitzenzeiten, in denen die Arbeitslast hoch sein kann.
- Bei der Bereitstellung eines Echtzeitsystems müssen Latenz und Lastenausgleich unbedingt berücksichtigt werden.
- Data-Science-Modelle sollten für die tatsächlichen Auswirkungen auf das Geschäft entwickelt werden, nicht um „schick“ zu sein.
- Metriken werden verwendet, um die Wirkung eines Modells zu messen, z. B. das Ausmaß des Betrugs, das es verhindern kann, und die Anzahl der guten Nutzer, die es betreffen kann.
- Das Risikoteam und der CFO treffen eine Entscheidung darüber, mit welchem Punkt sie in Bezug auf die Kosten und die Auswirkungen auf das Geschäft zufrieden sind.
- Backend-Kosten, wie z. B. die Anzahl der DynamoDB-Schreib- und -Lesevorgänge, müssen berücksichtigt und an die Geschäftsmetriken des Modells gebunden werden, um sicherzustellen, dass sie den gewünschten Auswirkungen entsprechen.
ML-Bereitstellung so einfach wie Software machen: Verbesserung der Entwicklerproduktivität
Die Entwicklung von ML-Modellen ist mit Bibliotheken wie Scikit-Learn einfacher geworden, aber die Zeit, ein Projekt zu starten und live zu gehen, ist immer noch hoch, insbesondere für kleinere Unternehmen ohne Pipelines und MLOps-Systeme. Das Einrichten von Pipelines, das Bereinigen von Daten, das Validieren von Tests und das Bereitstellen von Modellen können zwei bis drei Monate dauern. Darüber hinaus ist das Auffinden von Fehlern in einem Modell eine Herausforderung, da es keine Standardisierung für den Prozess gibt. Daher benötigen Unternehmen Systeme, die die Modellentwicklung so reibungslos wie die Softwareentwicklung ermöglichen, um die Produktivität der Entwickler zu verbessern. Das System sollte Flexibilität und einfache Integration ermöglichen und auf dem bestehenden System aufbauen. Es sollte auch standardisiert sein, um Fehler zu finden, ein- und ausgehende Daten zu überwachen und Feedback-Schleifen durchzuführen.
Die Bedeutung der Verankerung technischer Prinzipien in der Datenwissenschaft
Im Bereich der Datenwissenschaft wird zunehmend betont, dass Datenwissenschaftler über technische Fähigkeiten verfügen müssen, um den erfolgreichen und effizienten Einsatz von ML-Modellen sicherzustellen.
- Datenwissenschaftler müssen über technische Fähigkeiten verfügen, um einen effizienten Einsatz von ML-Modellen zu gewährleisten. Datenwissenschaftler sollten in guten Programmierpraktiken verankert sein, um Fehler zu identifizieren, die sich auf das SLA des Modells auswirken könnten.
- Die Vorliebe von Datenwissenschaftlern für bestimmte Tools wie Pandas kann zu einer langsameren Leistung führen, wenn sie in Echtzeit eingesetzt werden. Datenwissenschaftler müssen sich der effizientesten Tools und ihrer Verwendung bewusst sein, um den effizienten Einsatz von ML-Modellen sicherzustellen.
Sie möchten, dass unsere Datenwissenschaftler alles und sogar Filter einsetzen.
- Schekha
Weitere Gedanken von Sheekha
MLOps: Bauen gegen Kaufen
- Anpassung: Umfassende Anpassungen erfordern möglicherweise eine Neuentwicklung, anstatt eine ML-Plattform eines Drittanbieters zu verwenden.
- Datensensibilität: Eine strenge Verwaltung der Benutzerzugriffskontrolle ist für Unternehmen, die mit sensiblen Daten umgehen, von entscheidender Bedeutung und erfordert möglicherweise ein internes System, das an bestimmte Sicherheitsanforderungen angepasst werden kann.
- Kostenbewusstsein: Der Aufbau eines internen MLOps-Systems mag für kleinere Unternehmen kostengünstiger sein, aber sie könnten irgendwann in Plattformen von Drittanbietern investieren, um einen besseren ROI zu erzielen, wenn der Markt reift.
LLMS
Sheekha bekundete ihr Interesse an großen Sprachmodellen (LLMs) und den neuen Entwicklungen, die sie umgeben, aber derzeit verwenden sie sie nicht in ihrer Arbeit. Sie räumte jedoch ein, dass sie interessante Anwendungsfälle für LLMs untersuchen, insbesondere im Hinblick auf ihre Chatbot-Integration.
Ich sehe definitiv viele interessante Anwendungsfälle für LLMs voraus
- Schekha
Lesen Sie unsere vorherigen Blogs in der TrueML-Serie
Schaue weiter TrueML YouTube-Serie und lese das ganze TrueML Blog-Serie.
Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren













.png)




.png)






.webp)

.webp)



