TrueML Talks #26 - Enterprise GenAI und LLMOPs mit Labhesh Patel

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wir sind zurück mit einer weiteren Folge von True ML Talks. In dieser Ausgabe befassen wir uns erneut eingehend mit MLOps-Pipelines und LLMS-Anwendungen in Unternehmen, mit denen wir gerade sprechen Labhesh Patel.

Labhesh war CTO und Chief Scientist bei der Jumio Corporation, wo er an der Nutzung von ML/KI im Bereich der Identitätsprüfung arbeitete. In der Vergangenheit hatte er mehrere Führungspositionen in führenden Organisationen inne, sowohl in technischen als auch in wissenschaftlichen Funktionen.

📌

Unsere Gespräche mit Labhesh werden die folgenden Aspekte behandeln:
- Interessante Forschungsarbeiten und Patente
- Einsatz von KI zur Lösung von Geschäftsproblemen
- Aufbau der MLOps-Pipeline
- Silos aufbrechen: Zusammenhaltende MLOps-Teams für den Erfolg aufbauen
- Umgehen von Hindernissen bei Cloud-Anbietern
- Zukunft der generativen KI

Sehen Sie sich die ganze Folge unten an:

Interessante Forschungsarbeiten und Patente

Forschungsarbeiten

Aufmerksamkeit ist alles was du brauchst: In diesem Artikel wurde das Transformer-Netzwerk vorgestellt, das die Verarbeitung natürlicher Sprache revolutionierte und den Grundstein für viele LLMs wie ChatGPT legte.

‍

Attention Is All You Need

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.arXiv.orgAshish Vaswani

arXiv.org Ashish Vaswani

‍

Visuelle Beantwortung von Fragen mit segmentierten geführten Aufmerksamkeitsnetzwerken: In diesem Artikel wurde eine neuartige Methode zur Beantwortung von Fragen zu Bildern unter Verwendung von Segmentierungskarten und Aufmerksamkeitsmechanismen vorgeschlagen. Es wurde zwar durch neuere Techniken ersetzt, betont aber, wie wichtig es ist, sich auf bestimmte Bereiche eines Bildes zu konzentrieren, um genaue Antworten zu erhalten.

‍

Segmentation Guided Attention Networks for Visual Question Answering

Vasu Sharma, Ankita Bishnu, Labhesh Patel. Proceedings of ACL 2017, Student Research Workshop. 2017.

ACL Anthology

‍

ZyklusGen: In diesem Artikel wird die Idee untersucht, Textzusammenfassungen auf der Grundlage von Nutzerrezensionen und Produkteigenschaften zu erstellen. Es ist älter als ChatGPT und zeigt das Potenzial von LLMs, bei Schreibaufgaben zu helfen.

‍

Cyclegen: Cyclic consistency based product review generator from attributes

Vasu Sharma, Harsh Sharma, Ankita Bishnu, Labhesh Patel. Proceedings of the 11th International Conference on Natural Language Generation. 2018.

ACL Anthology

‍

Patente

Voice-over-IP-Puffer- und Verhandlungsprotokoll: Dieses Patent entstand aus einem einfachen Bugfix, der die Sprachqualität bei VoIP-Anrufen verbesserte. Es unterstreicht das Innovationspotenzial scheinbar banaler Lösungen und wie wichtig es ist, defensive Patentierungsstrategien in Betracht zu ziehen.

Einsatz von KI zur Lösung von Geschäftsproblemen

Die Transformation manueller Prozesse mit KI birgt viele Herausforderungen und Chancen. Hier sind einige wichtige Erkenntnisse:

Fangen Sie mit dem Geschäft an, nicht mit dem Buzz

Identifizieren Sie das Kerngeschäftsproblem: Warum automatisieren? Was sind die quantifizierbaren Vorteile (Skalierbarkeit, Kostenreduzierung, Geschwindigkeit)?
Erwartungen verwalten: KI ist keine Magie. Kommunizieren Sie, was erreichbar ist, und legen Sie realistische Leistungskennzahlen fest.
Verstehen Sie die Rolle von Daten: 90% der Arbeit entfallen auf Datenmanagement, Erfassung und Qualitätssicherung. Saubere Daten sind für genaue Modelle unerlässlich.

Den richtigen Weg beschreiten

Ein Schritt nach dem anderen: Konzentrieren Sie sich auf einen einzigen, wirkungsvollen Anwendungsfall, um das Konzept zu testen und Ihre Pipeline aufzubauen.
Compliance steht an erster Stelle: Stellen Sie sicher, dass die Daten korrekt eingegeben und verwendet werden, bevor Sie auch nur ein einziges Byte berühren.
Metriken sind wichtig: Verfolgen Sie relevante Kennzahlen (Präzision, Erinnerung, Fehlerraten), um den Erfolg zu bewerten und weitere Entscheidungen zu treffen.
Teamwork ist der Schlüssel: Stellen Sie ein Team mit Fachkenntnissen in ML-Engineering, Datenmanagement und Produktentwicklung zusammen.

Über den ersten Schritt hinaus

Iterieren und weiterentwickeln: Evaluieren, verbessern und erweitern Sie Ihre KI-Lösungen kontinuierlich auf der Grundlage von Daten und Feedback.
Machen Sie sich die Lernkurve zu eigen: Seien Sie bereit, in Talente und Bildung zu investieren, um in Ihrem Unternehmen eine Kultur des KI-Verständnisses aufzubauen.

Wichtige Dinge, die Sie beachten sollten

Vorsicht vor der 99% -Falle: Eine hohe Genauigkeit in Einzelfällen kann größere Probleme maskieren. Achten Sie auf die Gesamtleistung und die Fehlerraten.
Denken Sie statistisch: Metriken wie Präzision und Erinnerung vermitteln ein differenzierteres Bild der KI-Leistung als einfache Genauigkeitsprozentsätze.

Indem Sie Geschäftsanforderungen priorisieren, sich auf die Datenqualität konzentrieren und ein starkes Team aufbauen, können Sie die Komplexität bewältigen und das wahre Potenzial der KI zur Transformation Ihrer Abläufe ausschöpfen.

Aufbau der MLOps-Pipeline

Für jeden, der komplexe ML-Systeme baut, gibt es einige Dinge, die Sie beachten sollten.

Nutzen Sie zuerst die Cloud, bleiben Sie aber agil

Nutzen Sie die integrierten MLOps-Tools Ihres Cloud-Anbieters wie AWS SageMaker für eine schnelle Ersteinrichtung.
Vermeiden Sie Hürden in Bezug auf Lieferantenmanagement und Compliance, indem Sie innerhalb des Cloud-Ökosystems bleiben.
Gehen Sie über native Angebote hinaus, wenn Einschränkungen auftreten, und suchen Sie nach speziellen Lösungen wie Open-Source-Plattformen oder Anbietern.

Bedeutung der Datenqualität

Beachten Sie, dass Cloud-Anbieter die Datenqualität häufig vernachlässigen und zusätzliche interne Systeme oder Dienste von Drittanbietern benötigen.
Priorisieren Sie die automatische Datenbereinigung und -validierung, um die Genauigkeit und Leistung des Modells sicherzustellen.

Architektonische Überlegungen

Modellbau versus Produktion: Ziehen Sie separate Teams für die Modellentwicklung und -bereitstellung in Betracht, die über unterschiedliche Fähigkeiten und Zuständigkeiten verfügen.
Struktur für Skalierbarkeit und Agilität: Entwerfen Sie eine flexible Architektur, die neue Tools und Integrationen aufnehmen kann, wenn sich die Pipeline weiterentwickelt.

Silos durchbrechen: Aufbau kohärenter MLOps-Teams für den Erfolg

In der schnelllebigen Welt der MLOps ist Zusammenarbeit das A und O. Aber allzu oft sind Teams fragmentiert, da Datenwissenschaftler Modelle isoliert erstellen und Ingenieure Schwierigkeiten haben, sie bereitzustellen und zu warten. Das Ergebnis? Langsame Fortschritte, verpasste Chancen und frustrierte Stakeholder.

Wie brechen wir also diese Silos auf und bauen erfolgreiche MLOps-Teams auf?

Wir bringen alle zusammen

Stellen Sie sich ein funktionsübergreifendes Team von 8 bis 10 Personen vor, von denen jede über ein einzigartiges Fachwissen verfügt: Produktmanager, Dateningenieure, DevOps, Sicherheit, ML-Ingenieure, QA und sogar Kundensupport. Diese vielfältige Gruppe, die ein gemeinsames Ziel verfolgt (z. B. Betrugsbekämpfung), wird zu einer starken Kraft für Innovation und Effizienz.

Hier ist der Grund, warum dieser Ansatz funktioniert:

Geteiltes Eigentum: Wenn sich jeder für den gesamten Lebenszyklus eines Modells verantwortlich fühlt, gibt es keine „über den Zaun“ -Mentalität. Probleme werden gemeinsam angegangen, und die Lösungen sind für den Einsatz und die Wartung in der Praxis optimiert.
Informierte Entscheidungen: Dateningenieure verstehen die ML-Anforderungen, und ML-Techniker wissen, wie es bei der Implementierung aussieht. Dieser Erfahrungsaustausch führt zu einer besseren Modellauswahl und besseren Feature-Entwicklung, wodurch die Fallstricke „perfekt für die Forschung“ geeigneter Modelle vermieden werden, die unmöglich eingesetzt werden können.
Schnellere Iterationen: Eine enge Zusammenarbeit fördert Kommunikation und Agilität. Das Team kann schnell mit Modellen experimentieren, sie verfeinern und iterieren und so die Wirkung ihrer Bemühungen maximieren.

Beseitigung von Qualifikationslücken beim Aufbau eines solchen Teams

Es ist von größter Bedeutung, gezielte Einstellungen vorzunehmen. Sie benötigen Dateningenieure mit fundierten Kenntnissen von ML-Pipelines und ML-Ingenieure, die die Prinzipien der Softwareentwicklung zu schätzen wissen. Diese Kombination verschiedener Fähigkeiten ist das Geheimnis eines leistungsstarken MLOps-Teams.

Beim Abbau von Silos geht es nicht nur um Struktur, sondern auch um Kultur. Fördern Sie eine offene Kommunikation, feiern Sie unterschiedliche Sichtweisen und schaffen Sie ein Umfeld, in dem sich jeder befähigt fühlt, seinen Beitrag zu leisten. Auf diese Weise baust du ein geschlossenes MLOps-Team auf, das deine ML-Träume in die Realität umsetzen kann.

Umgehen von Hindernissen bei Cloud-Anbietern

Es gibt viele potenzielle Hindernisse, auf die Sie stoßen können, wenn Sie sich stark auf einen Cloud-Anbieter verlassen. In solchen Szenarien ist es sehr wichtig, flexibel reagieren zu können, wenn ein solches Hindernis auftritt.

Scheuen Sie sich nicht, Alternativen zu erkunden: Wenn Cloud-Anbieter an Grenzen stoßen, suchen Sie nach spezialisierten Anbietern oder Open-Source-Lösungen, um die Lücken zu schließen.
Proaktive Kommunikation ist wichtig: Zögern Sie nicht, Ihre Bedenken direkt an Cloud-Anbieter zu richten. Feedback kann zu einer verbesserten Zusammenarbeit und dem Zugang zu exklusiven Lösungen führen.
Anpassungsfähigkeit ist entscheidend: Seien Sie bereit, Ihren Ansatz an neue Technologien und sich ändernde Anbieterangebote anzupassen.

Hier sind einige häufige Herausforderungen, die auftreten können

Herausforderung 1: Superregulierter Datenzugriff

Beim Umgang mit sensiblen Daten (PII, Patientenakten) kommen strenge Vorschriften wie GDPR und CCPA ins Spiel. Cloud-Anbieter halten sich zwar an allgemeine Standards, bieten aber möglicherweise keine spezifischen Tools für sicheren Zugriff und Prüfprotokolle an.

Die möglichen Lösungen für diese sind:

Alternative Anbieter: Suchen Sie nach Unternehmen, die sich auf stark regulierte Umgebungen spezialisiert haben und detaillierte Zugriffskontroll- und Überprüfbarkeitsfunktionen anbieten.
Open-Source-Lösungen: Ziehen Sie Open-Source-Tools in Betracht und passen Sie sie an spezifische Compliance-Anforderungen an.

Herausforderung 2: Proprietäre Funktionen und eingeschränkter Zugriff

Manchmal halten Cloud-Anbieter bestimmte Funktionen zurück oder veröffentlichen sie nach ihrem Zeitplan, sodass Kunden auf wichtige Funktionen warten müssen.

Die mögliche Lösung hierfür besteht darin, proaktiv mit Ihrem Ansprechpartner für diesen Cloud-Anbieter zu kommunizieren.

Wenn Sie dem POC direktes Feedback geben und die Hindernisse mitteilen, mit denen Sie konfrontiert sind, können Sie und Ihr Team manchmal frühzeitig Zugang zu privaten Betaprogrammen erhalten und sicherstellen, dass Sie keine zukünftigen Lösungen verpassen.

Denken Sie daran, dass selbst bei Hindernissen eine proaktive und anpassungsfähige Denkweise Herausforderungen in der sich ständig weiterentwickelnden Welt der Cloud-basierten MLOPs in Chancen verwandeln kann.

Die Zukunft der generativen KI

Generative KI, insbesondere LLMs (Large Language Models), liegt voll im Trend. Derzeit befinden sich LLMs jedoch in einer „Hype-Phase“ und werden für ihre magischen Fähigkeiten zur Bewältigung verschiedener Aufgaben gelobt. Entwickler greifen darauf zurück, API-Aufrufe an LLMs zu senden, was zu Problemen wie Ratenbegrenzung und hohen Kosten führt.

Herausforderungen bei der Einführung in Unternehmen

Kosten und Skalierbarkeit: Große Modelle sind teuer und rechenintensiv, weshalb sie für den weit verbreiteten Einsatz in Unternehmen ungeeignet sind.
Modellsicherheit und Vorurteile: Unternehmensumgebungen erfordern Modellsicherheit und Kontrolle über potenzielle Verzerrungen, was bei LLMs schwierig sein kann.
Inferenzzeit: LLMs haben mit Latenz zu kämpfen, was zu Verzögerungen führt, die die Produktivität und das Benutzererlebnis beeinträchtigen.

Die Zukunft: Kleine Sprachmodelle als Rettung?

Es könnte eine Verlagerung hin zu SLMs geben, die für bestimmte Aufgaben und Bereiche innerhalb von Unternehmen geschult sind.

Diese „Router-Architektur“ würde Anfragen an das entsprechende SLM weiterleiten, um schnellere und effizientere Antworten zu erhalten.

Kleinere Modelle berücksichtigen auch Kosten- und Skalierbarkeitsprobleme und machen sie für Unternehmen zugänglicher.

Auslöser und Überlegungen zur Umstellung

Der Übergang wird wahrscheinlich schrittweise erfolgen, was auf die praktischen Einschränkungen von LLMs und die zunehmende Verfügbarkeit effektiver SLMs zurückzuführen ist.

Kostensenkung und verbesserte Latenz werden eine wichtige Rolle bei der Beschleunigung der Einführung von SLMs spielen.

Lesen Sie unsere vorherigen Blogs in der True ML Talks-Reihe:

‍

GenAI and LLMOps for GTM (Go-To-Market) @ Twilio‍

Dive deep into Twilio’s GenAI applications like XGPT, and RFP Genie for revolutionizing GTM (Go-To-Market) Strategies. Deep dive into the Backend for these applications.

TrueFoundry Blog TrueFoundry

‍

Schaue weiter TrueML YouTube-Serie und das TrueML lesen Blog-Serie.

Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo