TrueML Talks #26 - Enterprise GenAI und LLMOPs mit Labhesh Patel

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
Wir sind zurück mit einer weiteren Folge von True ML Talks. In dieser Ausgabe befassen wir uns erneut eingehend mit MLOps-Pipelines und LLMS-Anwendungen in Unternehmen, mit denen wir gerade sprechen Labhesh Patel.
Labhesh war CTO und Chief Scientist bei der Jumio Corporation, wo er an der Nutzung von ML/KI im Bereich der Identitätsprüfung arbeitete. In der Vergangenheit hatte er mehrere Führungspositionen in führenden Organisationen inne, sowohl in technischen als auch in wissenschaftlichen Funktionen.
📌
Unsere Gespräche mit Labhesh werden die folgenden Aspekte behandeln:
- Interessante Forschungsarbeiten und Patente
- Einsatz von KI zur Lösung von Geschäftsproblemen
- Aufbau der MLOps-Pipeline
- Silos aufbrechen: Zusammenhaltende MLOps-Teams für den Erfolg aufbauen
- Umgehen von Hindernissen bei Cloud-Anbietern
- Zukunft der generativen KI
Sehen Sie sich die ganze Folge unten an:
Interessante Forschungsarbeiten und Patente
Forschungsarbeiten
- Aufmerksamkeit ist alles was du brauchst: In diesem Artikel wurde das Transformer-Netzwerk vorgestellt, das die Verarbeitung natürlicher Sprache revolutionierte und den Grundstein für viele LLMs wie ChatGPT legte.
- Visuelle Beantwortung von Fragen mit segmentierten geführten Aufmerksamkeitsnetzwerken: In diesem Artikel wurde eine neuartige Methode zur Beantwortung von Fragen zu Bildern unter Verwendung von Segmentierungskarten und Aufmerksamkeitsmechanismen vorgeschlagen. Es wurde zwar durch neuere Techniken ersetzt, betont aber, wie wichtig es ist, sich auf bestimmte Bereiche eines Bildes zu konzentrieren, um genaue Antworten zu erhalten.
- ZyklusGen: In diesem Artikel wird die Idee untersucht, Textzusammenfassungen auf der Grundlage von Nutzerrezensionen und Produkteigenschaften zu erstellen. Es ist älter als ChatGPT und zeigt das Potenzial von LLMs, bei Schreibaufgaben zu helfen.
Patente
- Voice-over-IP-Puffer- und Verhandlungsprotokoll: Dieses Patent entstand aus einem einfachen Bugfix, der die Sprachqualität bei VoIP-Anrufen verbesserte. Es unterstreicht das Innovationspotenzial scheinbar banaler Lösungen und wie wichtig es ist, defensive Patentierungsstrategien in Betracht zu ziehen.
Einsatz von KI zur Lösung von Geschäftsproblemen
Die Transformation manueller Prozesse mit KI birgt viele Herausforderungen und Chancen. Hier sind einige wichtige Erkenntnisse:
Fangen Sie mit dem Geschäft an, nicht mit dem Buzz
- Identifizieren Sie das Kerngeschäftsproblem: Warum automatisieren? Was sind die quantifizierbaren Vorteile (Skalierbarkeit, Kostenreduzierung, Geschwindigkeit)?
- Erwartungen verwalten: KI ist keine Magie. Kommunizieren Sie, was erreichbar ist, und legen Sie realistische Leistungskennzahlen fest.
- Verstehen Sie die Rolle von Daten: 90% der Arbeit entfallen auf Datenmanagement, Erfassung und Qualitätssicherung. Saubere Daten sind für genaue Modelle unerlässlich.
Den richtigen Weg beschreiten
- Ein Schritt nach dem anderen: Konzentrieren Sie sich auf einen einzigen, wirkungsvollen Anwendungsfall, um das Konzept zu testen und Ihre Pipeline aufzubauen.
- Compliance steht an erster Stelle: Stellen Sie sicher, dass die Daten korrekt eingegeben und verwendet werden, bevor Sie auch nur ein einziges Byte berühren.
- Metriken sind wichtig: Verfolgen Sie relevante Kennzahlen (Präzision, Erinnerung, Fehlerraten), um den Erfolg zu bewerten und weitere Entscheidungen zu treffen.
- Teamwork ist der Schlüssel: Stellen Sie ein Team mit Fachkenntnissen in ML-Engineering, Datenmanagement und Produktentwicklung zusammen.
Über den ersten Schritt hinaus
- Iterieren und weiterentwickeln: Evaluieren, verbessern und erweitern Sie Ihre KI-Lösungen kontinuierlich auf der Grundlage von Daten und Feedback.
- Machen Sie sich die Lernkurve zu eigen: Seien Sie bereit, in Talente und Bildung zu investieren, um in Ihrem Unternehmen eine Kultur des KI-Verständnisses aufzubauen.
Wichtige Dinge, die Sie beachten sollten
- Vorsicht vor der 99% -Falle: Eine hohe Genauigkeit in Einzelfällen kann größere Probleme maskieren. Achten Sie auf die Gesamtleistung und die Fehlerraten.
- Denken Sie statistisch: Metriken wie Präzision und Erinnerung vermitteln ein differenzierteres Bild der KI-Leistung als einfache Genauigkeitsprozentsätze.
Indem Sie Geschäftsanforderungen priorisieren, sich auf die Datenqualität konzentrieren und ein starkes Team aufbauen, können Sie die Komplexität bewältigen und das wahre Potenzial der KI zur Transformation Ihrer Abläufe ausschöpfen.
Aufbau der MLOps-Pipeline
Für jeden, der komplexe ML-Systeme baut, gibt es einige Dinge, die Sie beachten sollten.
Nutzen Sie zuerst die Cloud, bleiben Sie aber agil
- Nutzen Sie die integrierten MLOps-Tools Ihres Cloud-Anbieters wie AWS SageMaker für eine schnelle Ersteinrichtung.
- Vermeiden Sie Hürden in Bezug auf Lieferantenmanagement und Compliance, indem Sie innerhalb des Cloud-Ökosystems bleiben.
- Gehen Sie über native Angebote hinaus, wenn Einschränkungen auftreten, und suchen Sie nach speziellen Lösungen wie Open-Source-Plattformen oder Anbietern.
Bedeutung der Datenqualität
- Beachten Sie, dass Cloud-Anbieter die Datenqualität häufig vernachlässigen und zusätzliche interne Systeme oder Dienste von Drittanbietern benötigen.
- Priorisieren Sie die automatische Datenbereinigung und -validierung, um die Genauigkeit und Leistung des Modells sicherzustellen.
Architektonische Überlegungen
- Modellbau versus Produktion: Ziehen Sie separate Teams für die Modellentwicklung und -bereitstellung in Betracht, die über unterschiedliche Fähigkeiten und Zuständigkeiten verfügen.
- Struktur für Skalierbarkeit und Agilität: Entwerfen Sie eine flexible Architektur, die neue Tools und Integrationen aufnehmen kann, wenn sich die Pipeline weiterentwickelt.
Silos durchbrechen: Aufbau kohärenter MLOps-Teams für den Erfolg
In der schnelllebigen Welt der MLOps ist Zusammenarbeit das A und O. Aber allzu oft sind Teams fragmentiert, da Datenwissenschaftler Modelle isoliert erstellen und Ingenieure Schwierigkeiten haben, sie bereitzustellen und zu warten. Das Ergebnis? Langsame Fortschritte, verpasste Chancen und frustrierte Stakeholder.
Wie brechen wir also diese Silos auf und bauen erfolgreiche MLOps-Teams auf?
Wir bringen alle zusammen
Stellen Sie sich ein funktionsübergreifendes Team von 8 bis 10 Personen vor, von denen jede über ein einzigartiges Fachwissen verfügt: Produktmanager, Dateningenieure, DevOps, Sicherheit, ML-Ingenieure, QA und sogar Kundensupport. Diese vielfältige Gruppe, die ein gemeinsames Ziel verfolgt (z. B. Betrugsbekämpfung), wird zu einer starken Kraft für Innovation und Effizienz.
Hier ist der Grund, warum dieser Ansatz funktioniert:
- Geteiltes Eigentum: Wenn sich jeder für den gesamten Lebenszyklus eines Modells verantwortlich fühlt, gibt es keine „über den Zaun“ -Mentalität. Probleme werden gemeinsam angegangen, und die Lösungen sind für den Einsatz und die Wartung in der Praxis optimiert.
- Informierte Entscheidungen: Dateningenieure verstehen die ML-Anforderungen, und ML-Techniker wissen, wie es bei der Implementierung aussieht. Dieser Erfahrungsaustausch führt zu einer besseren Modellauswahl und besseren Feature-Entwicklung, wodurch die Fallstricke „perfekt für die Forschung“ geeigneter Modelle vermieden werden, die unmöglich eingesetzt werden können.
- Schnellere Iterationen: Eine enge Zusammenarbeit fördert Kommunikation und Agilität. Das Team kann schnell mit Modellen experimentieren, sie verfeinern und iterieren und so die Wirkung ihrer Bemühungen maximieren.
Beseitigung von Qualifikationslücken beim Aufbau eines solchen Teams
Es ist von größter Bedeutung, gezielte Einstellungen vorzunehmen. Sie benötigen Dateningenieure mit fundierten Kenntnissen von ML-Pipelines und ML-Ingenieure, die die Prinzipien der Softwareentwicklung zu schätzen wissen. Diese Kombination verschiedener Fähigkeiten ist das Geheimnis eines leistungsstarken MLOps-Teams.
Beim Abbau von Silos geht es nicht nur um Struktur, sondern auch um Kultur. Fördern Sie eine offene Kommunikation, feiern Sie unterschiedliche Sichtweisen und schaffen Sie ein Umfeld, in dem sich jeder befähigt fühlt, seinen Beitrag zu leisten. Auf diese Weise baust du ein geschlossenes MLOps-Team auf, das deine ML-Träume in die Realität umsetzen kann.
Umgehen von Hindernissen bei Cloud-Anbietern
Es gibt viele potenzielle Hindernisse, auf die Sie stoßen können, wenn Sie sich stark auf einen Cloud-Anbieter verlassen. In solchen Szenarien ist es sehr wichtig, flexibel reagieren zu können, wenn ein solches Hindernis auftritt.
- Scheuen Sie sich nicht, Alternativen zu erkunden: Wenn Cloud-Anbieter an Grenzen stoßen, suchen Sie nach spezialisierten Anbietern oder Open-Source-Lösungen, um die Lücken zu schließen.
- Proaktive Kommunikation ist wichtig: Zögern Sie nicht, Ihre Bedenken direkt an Cloud-Anbieter zu richten. Feedback kann zu einer verbesserten Zusammenarbeit und dem Zugang zu exklusiven Lösungen führen.
- Anpassungsfähigkeit ist entscheidend: Seien Sie bereit, Ihren Ansatz an neue Technologien und sich ändernde Anbieterangebote anzupassen.
Hier sind einige häufige Herausforderungen, die auftreten können
Herausforderung 1: Superregulierter Datenzugriff
Beim Umgang mit sensiblen Daten (PII, Patientenakten) kommen strenge Vorschriften wie GDPR und CCPA ins Spiel. Cloud-Anbieter halten sich zwar an allgemeine Standards, bieten aber möglicherweise keine spezifischen Tools für sicheren Zugriff und Prüfprotokolle an.
Die möglichen Lösungen für diese sind:
- Alternative Anbieter: Suchen Sie nach Unternehmen, die sich auf stark regulierte Umgebungen spezialisiert haben und detaillierte Zugriffskontroll- und Überprüfbarkeitsfunktionen anbieten.
- Open-Source-Lösungen: Ziehen Sie Open-Source-Tools in Betracht und passen Sie sie an spezifische Compliance-Anforderungen an.
Herausforderung 2: Proprietäre Funktionen und eingeschränkter Zugriff
Manchmal halten Cloud-Anbieter bestimmte Funktionen zurück oder veröffentlichen sie nach ihrem Zeitplan, sodass Kunden auf wichtige Funktionen warten müssen.
Die mögliche Lösung hierfür besteht darin, proaktiv mit Ihrem Ansprechpartner für diesen Cloud-Anbieter zu kommunizieren.
Wenn Sie dem POC direktes Feedback geben und die Hindernisse mitteilen, mit denen Sie konfrontiert sind, können Sie und Ihr Team manchmal frühzeitig Zugang zu privaten Betaprogrammen erhalten und sicherstellen, dass Sie keine zukünftigen Lösungen verpassen.
Denken Sie daran, dass selbst bei Hindernissen eine proaktive und anpassungsfähige Denkweise Herausforderungen in der sich ständig weiterentwickelnden Welt der Cloud-basierten MLOPs in Chancen verwandeln kann.
Die Zukunft der generativen KI
Generative KI, insbesondere LLMs (Large Language Models), liegt voll im Trend. Derzeit befinden sich LLMs jedoch in einer „Hype-Phase“ und werden für ihre magischen Fähigkeiten zur Bewältigung verschiedener Aufgaben gelobt. Entwickler greifen darauf zurück, API-Aufrufe an LLMs zu senden, was zu Problemen wie Ratenbegrenzung und hohen Kosten führt.
Herausforderungen bei der Einführung in Unternehmen
- Kosten und Skalierbarkeit: Große Modelle sind teuer und rechenintensiv, weshalb sie für den weit verbreiteten Einsatz in Unternehmen ungeeignet sind.
- Modellsicherheit und Vorurteile: Unternehmensumgebungen erfordern Modellsicherheit und Kontrolle über potenzielle Verzerrungen, was bei LLMs schwierig sein kann.
- Inferenzzeit: LLMs haben mit Latenz zu kämpfen, was zu Verzögerungen führt, die die Produktivität und das Benutzererlebnis beeinträchtigen.
Die Zukunft: Kleine Sprachmodelle als Rettung?
Es könnte eine Verlagerung hin zu SLMs geben, die für bestimmte Aufgaben und Bereiche innerhalb von Unternehmen geschult sind.
Diese „Router-Architektur“ würde Anfragen an das entsprechende SLM weiterleiten, um schnellere und effizientere Antworten zu erhalten.
Kleinere Modelle berücksichtigen auch Kosten- und Skalierbarkeitsprobleme und machen sie für Unternehmen zugänglicher.
Auslöser und Überlegungen zur Umstellung
Der Übergang wird wahrscheinlich schrittweise erfolgen, was auf die praktischen Einschränkungen von LLMs und die zunehmende Verfügbarkeit effektiver SLMs zurückzuführen ist.
Kostensenkung und verbesserte Latenz werden eine wichtige Rolle bei der Beschleunigung der Einführung von SLMs spielen.
Lesen Sie unsere vorherigen Blogs in der True ML Talks-Reihe:
Schaue weiter TrueML YouTube-Serie und das TrueML lesen Blog-Serie.
Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren













.png)




.png)






.webp)

.webp)



