True ML Talks #1 - Arbeitsablauf für maschinelles Lernen @ Gong

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
Heute Wahre Gießerei startet eine Deep Dive-Serie für maschinelles Lernen, in der wir mit ML- und Data-Science-Führungskräften aus Unternehmen sprechen, die ML verwenden, um die Anwendungsfälle und Workflows von ML in ihren Organisationen zu untersuchen. Im Rahmen dieser Reihe werden wir den ML-Stack von Unternehmen wie diesen hosten und tiefer in sie eintauchen Gong, Stich Fix, SalesForce, Gusto, Einfach, und viele mehr.
📌
In dieser Serie tauchen wir in die Welt des maschinellen Lernens ein, um das Spektrum an ML-Anwendungen und Infrastruktur-Setups branchenübergreifend zu enthüllen.
Unsere Gespräche werden sich um vier Hauptthemen drehen:
1. Anwendungsfälle des maschinellen Lernens für das Unternehmen
2. Wie haben sie ihren Machine-Learning-Stack aufgebaut, einschließlich der Schulungs- und Experimentier-Pipeline, Bereitstellung und Bereitstellung, Überwachung, und sie dabei im Hinblick auf Kosten und Latenz optimiert
3. Herausforderungen beim Aufbau des ML-Stacks mit spezifischen Herausforderungen, die sich auf die Branche beziehen
4. Ein Überblick über die neuesten Innovationen, die beim Aufbau und der Skalierung der ML-Infrastruktur zum Einsatz kamen.
Zum Auftakt der ersten Diskussion der Reihe sprachen wir mit Noam Lotner von Gong. Gong ist eine Revenue Intelligence-Plattform. Sie ermöglicht es den Vertriebsteams, ihr volles Potenzial auszuschöpfen, indem sie die Kundenrealität aus den Gesprächen des Vertriebsteams enthüllt. Gong analysiert die Kundeninteraktionen per Telefon, E-Mail, Internet usw., um den Vertriebsteams die besten Erkenntnisse zu liefern, sodass sie diese nutzen können, um mehr Geschäfte abzuschließen.
Noam Lotner leitet das Research Operations Team bei Gong. Er baut die operative Plattform für die KI/ML-Forschungsgruppe auf. Er automatisiert Modellfreigabeprozesse, Experimentmanagement und Leistungstests, entwickelt Tools für die Kennzeichnung und Datensatzerstellung und ermöglicht den sicheren Zugriff auf Produktionsdatenquellen.
Schauen Sie sich unser Gespräch unten an:
Warum ist ML wichtig für Gong: Eine Sales Intelligence-Plattform
Gong analysiert Kundeninteraktionen per Telefon, E-Mail, Internet usw. Maschinelles Lernen wird immer wichtiger, um Verkaufsinteraktionen zu analysieren und den Vertriebsteams Einblicke zu geben. ML-Algorithmen können Aufgaben automatisieren, die zuvor manuell erledigt wurden, wie z. B. die Analyse von Videoanrufen, das Transkribieren und Analysieren von Verkaufstelefonanrufen. Das spart Zeit und verbessert die Effizienz des Verkaufsprozesses.
- Pipeline zur Analyse von Videoanrufen → Um Anrufe zu analysieren, verarbeitet das Team das Video, klassifiziert die Frames und verarbeitet bestimmte Arten von Videosegmenten.
- Pipeline zur Analyse von Audiotranskripten → Die Stimme wird tatsächlich automatisch transkribiert, zusammen mit einer weiteren Pipeline, an der eine ganze Reihe von Modellen beteiligt sind. Sie überprüfen, wo sich die Sprache befindet, und erkennen, welcher Sprecher wann spricht, zusammen mit dem Inhalt der Konversation.
- NLP-basierte Textpipeline → Es gibt eine Pipeline zum Extrahieren von Informationen aus den Folien und Gesprächsnotizen. Für E-Mails wird eine andere Pipeline für NLP-Verarbeitung, Nachrichtenübermittlung und Kommentare verwendet.
Wie sind diese Modelle nach Kunden segmentiert?
Dies ist zwar eine Frage, die wir Gong gestellt haben, aber wir sehen, dass ausnahmslos alle SaaS-Unternehmen:
- Modelle, die allen Kunden gemeinsam sind: Es gibt einige Modelle wie die ASR-Modelle, die Sprache automatisch erkennen. Dies hilft bei einem standardisierten Service und der Aufrechterhaltung der Konsistenz auf der gesamten Plattform
- Modelle, die für jeden Kunden einzigartig sind: Bei SaaS-Startups, insbesondere bei einer Sales-Intelligence-Plattform wie Gong, muss jedes Modell einzigartig sein. Dies geschieht, um Datenschutz und Sicherheit zu gewährleisten sowie Anpassungen oder Personalisierungen anzubieten, indem das Modell anhand des Kundendatensatzes trainiert wird. Dies bringt zwei Herausforderungen mit sich: Service und Datenschutz. Da Gong es den Kunden ermöglicht, anhand ihrer eigenen Daten Schulungen zu den Modellen durchzuführen, müssen sie ML-Schnittstellen auf ihrer Plattform bereitstellen. Daher wird die Trennung der Daten für jeden Kunden zu einer Herausforderung.
📌
Anzahl der Modelle: Anzahl der Kunden X Modelle Typen
📌
„Wir verwenden für alle das gleiche Basismodell. Wir lassen die Kunden auch tatsächlich Schulungen für bestimmte Modelle für ihre eigenen Inhalte durchführen.“
Um die Kosten zu optimieren, verwendet Gong die Bereitstellung mehrerer Modelle in der Inferenzschicht, da die Ausführung separater Modelle auf separaten Maschinen ein kostenintensives System bedeuten würde.
Hier ist ein ausführlicher Blog von Gong, der über den Einsatz von ML im B2B-Vertrieb spricht
ML-System-Arbeitsablauf bei Gong
Bei Gong ist das ML-System gemäß der ML-Organisation strukturiert.
- Recherche: Es gibt eine separate Umgebung für die Forschung. Das Team arbeitet getrennt — die Daten abrufen, das Training durchführen, das Training beenden, das Modell veröffentlichen, und dann wird das Modell an die Bereitstellungspipeline gesendet, die von den Ingenieuren bearbeitet wird.
- Produktionseinsatz (Teil des Engineerings): Das trainierte Modell wird vom Engineering-Team für die Produktion eingesetzt.
In diesem Blog (und in der Chat-Serie) werden wir uns eingehender mit den Herausforderungen von Research Side Infra for Gong befassen
Wie ist der ML Researcher Workflow bei Gong eingerichtet?

- Grundlegende Testphase: Forscher nehmen Daten auf und trainieren auf ihren eigenen Maschinen oder mithilfe virtueller Maschinen, indem sie Daten aus der Produktion auf ihre Maschine übertragen
- Automatisierungsphase: Sobald das Modell fertiggestellt ist, wird eine automatische Pipeline für die Verarbeitung der Daten erstellt, um dem Forscher die große Datenmenge zur Verfügung zu stellen.
Um es Forschern zu ermöglichen, Maschinen einfach hochzufahren, ist der gesamte Stack auf Kubernetes for the Research Infra eingerichtet. Die meisten Modelle im Forschungsteam verwenden keine Online-Funktionen.
Wolke: Der Großteil der Infrastruktur befindet sich auf AWS und funktioniert auch mit anderen Cloud-Anbietern in etwas geringerer Kapazität zusammen.
Verwaltung der Infrastruktur: In den Pipelines werden die Modelle tatsächlich speziell für jeden Kunden ausgeführt. Es gibt eine Maschine, die alle Anrufe dieser Firma bearbeitet
Andere Herausforderungen, die ML zu einem komplexen Problem machen, das es bei Gong zu lösen gilt
- Kosten: Wir haben es oben auch behandelt. Die Kosten sind eine große Herausforderung für Gong, da riesige Datenmengen erforderlich sind, um das Modell zu trainieren und dann erneut zu trainieren. Die Sprachdatensätze sind sehr groß (ein paar hundert Stunden Sprache entsprechen ein paar hundert Gigabyte an Daten). NLP-Datensätze sind kleiner, können aber aus vielen Zeilen bestehen. Da die Forschung von der Produktion getrennt ist, kann das Forschungsteam flexibel mit der Datenmenge umgehen, die für das Modelltraining verwendet werden soll. Das Forschungsteam arbeitet daran, die Datenmenge, die im Training verwendet werden soll, optimieren zu können.
- Vereinfachung der ML-Plattform: Ein wichtiger Aspekt der Vereinfachung des Prozesses besteht darin, die Komplexität der Auswahl der Datentypen, die für das Training verwendet werden sollen, tatsächlich zu verbergen und die richtigen Zugriffskontrollen hinter den Tools zu verwenden.
Es wird für verschiedene Datenquellen unterschiedlich gemacht. Bei einer großen Anzahl von Datenbanken (jede enthält eine andere Art von Informationen und jede ist unterschiedlich zugänglich) wird viel Arbeit geleistet, um sichere Pipelines zu erstellen, die es nur autorisierten Personen ermöglichen, Daten zu verwenden und ein Protokoll darüber zu erstellen, wer zu welchem Zweck auf die Daten zugegriffen hat. Dazu gehört auch, dass Forscher Ergebnisse aus verschiedenen Datenquellen kombinieren und abgleichen können. - Datensicherheit und Datenschutz: Eines der Hauptanliegen von Gong sind Sicherheit und Datenschutz, d. h. sicherzustellen, dass es keine Lecks gibt und dass niemand, der keine Autorität hat, auf die Daten zugreifen kann und kein Kunde die Daten von einem anderen Kunden erhält. Dies ist aufgrund einer großen Datenmenge sehr kompliziert.
Wie Gong es gelöst hat: Die Daten an sicheren Orten speichern und jeden Datenpunkt mit Anmerkungen versehen lassen und Zugriffsrechte entsprechend der Mandanten-ID des Kunden haben. Der Zugriff erfolgt über kontrollierte Anmeldemechanismen, und alles, was automatisiert werden kann, ist automatisiert - Sicherstellen, dass die Daten eines Kunden auf keinen Fall in ein anderes Modell einfließen - Bei Verwendung eines großen Sprachmodells ist es möglich, auf etwas von einem Kunden zu schließen, und ein anderer Kunde erhält die privaten Informationen. Dies ist etwas, das berücksichtigt werden muss.
- Automatische Umschulung ist nicht einfach: Eine erneute Schulung erfolgt nur, wenn es eine wirklich versierte Methode gibt, mit der alle Pipeline-Phasen durchgeführt werden können. Es ist sehr selten. Der Umschulungsaufwand hängt von der Art des Modells ab, z. B. im Fall eines Spracherkennungsmodells für eine bestimmte Sprache ist es ziemlich einfach, ein erneutes Training mit den gleichen Parametern anhand neuer Daten durchzuführen.
Die Datenaktualisierung verändert auch viele Inhalte und erfordert auch, dass ein Forscher erneut einige Nachforschungen anstellt, um sicherzustellen, dass das neue Modell tatsächlich besser abschneidet als das, was wir zuvor hatten.
Weitere Gedanken von Noam
Kubernetes ist der richtige Weg
Alles, was im Forschungsteam getan wird, wird jetzt auf Kubernetes verschoben. Ein Teil von Noams Arbeit besteht darin, seinem Team zu helfen, automatisch auf Ressourcen aus der Kubernetes-Cloud zuzugreifen. Es ist derzeit ein laufendes Projekt.
📌
„Ich würde jedem, der sich damit beschäftigt, empfehlen, dass Sie schon zu Beginn Ihrer Reise an die Skalierung denken und darüber nachdenken müssen, wie Ihre Gruppe arbeiten wird.“
„Ich denke, die meisten MLOps-Systeme benötigen Kubernetes für die Verwaltung der Ressourcen. Ich sehe in Zukunft keine Plattform, die etwas mit MLOps zu tun hat, ohne Kubernetes zu verwenden.“
Wenige wichtige Dinge, die es zu beachten gilt:
- Scale to Zero ist im Hinblick auf das Kostenmanagement wirklich wichtig. Es ist eine enorme Kostensenkung, Maschinen zu haben, die in Betrieb sind und nichts tun.
- Das System muss agil sein, um Sicherheits- und Datenschutzprobleme effizient lösen zu können. Die Daten müssen dort bleiben, wo sie sind, und Sie müssen Ihren Code dorthin bringen.
MLOps: Bauen gegen Kaufen
📌
„Meiner Ansicht nach musste bei Gong diese Plattform aufgebaut werden.“
- Beginnen Sie beim Erstellen mit Kubernetes, einer skalierbaren und flexiblen Plattform.
- Konfigurieren Sie alle Systeme so, dass Sie für die Trennung von Mandanten und für die Anwendung der DSGVO bereit sind. Wenn jemand die Daten löschen möchte, müssen Sie die Daten löschen.
- Es ist sehr wichtig, frühzeitig über die Skalierung nachzudenken. Machen Sie Ihre Infrastruktur agil und flexibel, stellen Sie sicher, dass Sie über Skalierungsfunktionen verfügen und so viele Maschinen bereitstellen und in Betrieb nehmen können, wie Sie möchten, wenn Sie sie benötigen. Aber lass sie auslöschen, sobald ihr Idol da ist.
Sicherheit, Sicherheit, Sicherheit
Nichts kann für ein SaaS-Unternehmen mehr sein als Sicherheit. Die ML-Pipeline muss der Sicherheit aus Datenschutzgründen beim Umgang mit sensiblen Kundendaten sowie bei der Kontrolle unbefugter Zugriffe Priorität einräumen.
Ich hoffe, die erste Blogserie der TrueML Talks konnte Ihnen wertvolle Einblicke geben, wie Sie Ihre Forschungsinfrastruktur für maschinelles Lernen aufbauen können, um Ihre ML-Teams zu unterstützen. #MLOps #MachineLearning #DataScience #DevOps #ModelOps #AIInfrastructure
Lesen Sie unsere neuen Blogs in der Serie
Gehe zu unserem zweite Folge der TrueML-Vorträge, bei denen wir mit Platform Lead bei Stitch sprechen. Schauen Sie sich die TrueML weiter an YouTube-Serie und alle Folgen der TrueML-Blogserie finden Sie hier -
Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren













.png)




.png)






.webp)

.webp)



