TrueML #22 - Plattform für maschinelles Lernen und @ Voiceflow von LLM

Published: April 27, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wir sind zurück mit einer weiteren Folge von True ML Talks. Darin tauchen wir tief ein SprachflussDie ML-Plattform sowie die von LLM und wir sprechen mit Denis Linkow

Denys leitet das Team für maschinelles Lernen hier bei Voiceflow. Er trat als ML-Gründungsingenieur bei. Davor arbeitete er als leitender Cloud-Architekt für eine globale Bank und arbeitete an Datensystemen, MLOps und Kerninfrastruktur.

📌

Unsere Gespräche mit Adhitihya werden die folgenden Aspekte behandeln:
- Maschinelles Lernen bei Voiceflow
- Die MOPs-Reise von Voiceflow
- Automatisierung der Modellbereitstellung und Beobachtbarkeit, um Kontextwechsel zu reduzieren und die Effizienz zu verbessern
- Inferenz-Pipeline in Echtzeit: Vorteile und Herausforderungen
- Der Ansatz von Voiceflow zur generativen KI

Sehen Sie sich die ganze Folge unten an:

Maschinelles Lernen @ Voiceflow

Voiceflow ist eine No-Code-Plattform, die es Unternehmen ermöglicht, dialogorientierte KI-Anwendungen zu entwickeln und bereitzustellen. Es kann verwendet werden, um Chatbots, virtuelle Assistenten und andere Konversationsschnittstellen für eine Vielzahl von Branchen zu erstellen, darunter:

Elektronischer Handel
Immobilien
Bankwesen
Automobilbranche
Versorgungsunternehmen
Regierung

Das NLU-Modell von Voiceflow ist in der Lage, eine Vielzahl von Branchen abzudecken, da es auf einem riesigen Datensatz von Text und Code aus einer Vielzahl von Quellen trainiert wird. Dadurch kann Voiceflow unabhängig von der Branche eine Vielzahl von Anfragen in natürlicher Sprache verstehen und beantworten.

Zum Beispiel: Ein Voiceflow-Chatbot könnte von einem E-Commerce-Unternehmen verwendet werden, um Kunden dabei zu helfen, Produkte zu finden, Fragen zu Produkten zu beantworten und Bestellungen aufzugeben. Ein Voiceflow-Chatbot könnte auch von einem Immobilienunternehmen verwendet werden, um potenziellen Käufern zu helfen, Häuser zu finden, Termine mit Maklern zu vereinbaren und mehr über den Kaufprozess von Eigenheimen zu erfahren.

Eine der Herausforderungen beim Aufbau eines NLU-Modells, das all diese Branchen abdecken kann, besteht darin, dass jede Branche ihre eigene Sprache und ihren eigenen Jargon hat. Das NLU-Modell von Voiceflow ist jedoch in der Lage, diese Unterschiede im Laufe der Zeit zu erkennen, da es mit mehr Daten aus verschiedenen Branchen konfrontiert ist.

Die MLOps-Reise von Voiceflow: Entwicklung und Einsatz von Modellen für maschinelles Lernen für dialogorientierte KI

Eine der ersten Herausforderungen, mit denen Voiceflow konfrontiert war, war die Entscheidung, ob eigene Modelle gebaut oder externe Modelle verwendet werden sollten. Voiceflow beschloss, beide Optionen zu prüfen, und erstellte eine Reihe von Machbarkeitsstudien. Die erste Funktion, die Voiceflow entwickelte, war die Generierung von Äußerungen. Dabei werden mithilfe von maschinellem Lernen Beispiele generiert, die ein Benutzer hinzufügen muss, um sein eigenes Datenmodell zu erweitern.

Um das Modell der Äußerung in der Produktion einzusetzen, baute Voiceflow seine MLOps-Plattform aus. Das Ziel der Plattform bestand darin, mehrere Experimente sehr schnell in der Produktion einsetzen und die Umgebungen verwalten zu können.

Das Modell zur Generierung von Äußerungen war das erste, das durch die Veröffentlichung von ChatGPT, einem fortschrittlicheren generativen Modell, zunichte gemacht wurde. Dies hat Voiceflow gelehrt, wie wichtig es ist, flexibel zu sein und bereit zu sein, seine eigenen Entwicklungen bei Bedarf abzubrechen, um sich auf das zu konzentrieren, was für das Kundenerlebnis am besten ist.

Voiceflow erörtert auch den massiven Wandel, der sich im Bereich der Konversations-KI seit der Einführung von auf Anweisungen abgestimmten GPT-basierten Modellen vollzogen hat. Voiceflow räumt ein, dass es damals ein strategischer Fehler war, nicht über den Einsatz von GPT-3 nachzudenken, hat aber auch gelernt, dass es wichtig ist, anpassungsfähig und bereit zu sein, seinen Ansatz zu ändern, wenn sich das Feld weiterentwickelt.

Hier ist ein Blog, den du lesen kannst über Die Voiceflow-NLU erstellen:

‍

Inside Voiceflow | Voiceflow

Allow us to regale you with product announcements, an exclusive peek behind the Voiceflow curtain, and product tips and tricks from our communit.

Voiceflow

‍

Automatisierung der Modellbereitstellung und Beobachtbarkeit, um Kontextwechsel zu reduzieren und die Effizienz zu verbessern

Im traditionellen Entwicklungsprozess für maschinelles Lernen trainieren Datenwissenschaftler Modelle in Jupyter-Notebooks und übergeben sie dann an Ingenieure für maschinelles Lernen oder Backend-Ingenieure, um sie in der Produktion einzusetzen. Dies kann zu Kontextwechsel und Verzögerungen führen, da die Ingenieure das Modell und die Daten verstehen müssen, um es erfolgreich einsetzen zu können.

Automatisieren Sie die Modellbereitstellung und Beobachtbarkeit

Eine Möglichkeit, dieser Herausforderung zu begegnen, besteht darin, die Modellbereitstellung und Beobachtbarkeit zu automatisieren. Dies kann durch die Entwicklung einer Reihe von Tools und Prozessen erreicht werden, mit denen Datenwissenschaftler ihre Modelle in der Produktion einsetzen und überwachen können, ohne dass andere Techniker hinzugezogen werden müssen.

Ein Beispiel hierfür ist die Verwendung einer Cloud-basierten Plattform, die verwaltete Dienste für die Modellbereitstellung und Beobachtbarkeit bereitstellt. Diese Plattformen können eine Vielzahl von Funktionen bieten, wie z. B.:

Automatische Modellbereitstellung und Skalierung
Modellüberwachung in Echtzeit
Drift-Erkennung und Alarmierung
Modellversionierung und Rollback

Entwickeln Sie Ihre eigenen maßgeschneiderten Tools und Prozesse

Ein weiterer Ansatz zur Automatisierung der Modellbereitstellung und Beobachtbarkeit besteht darin, eigene benutzerdefinierte Tools und Prozesse zu entwickeln. Dies kann Ihnen mehr Flexibilität und Kontrolle bieten, erfordert aber auch mehr Investitionen.

Hier ist ein konkretes Beispiel dafür, wie ein Unternehmen die Modellbereitstellung und Beobachtbarkeit mithilfe dieses Ansatzes automatisiert hat:

Erstellen Sie eine Reihe automatisierter Skripts, die eine Cloud-Umgebung mit allen erforderlichen Diensten für die Bereitstellung und Überwachung ihrer Modelle einrichten würden.
Entwickeln Sie ein CLI-Tool, das die Bereitstellung neuer Modelle in der Cloud-Umgebung einfach machte.
Das CLI-Tool würde automatisch alle erforderlichen Ordner und Terraform-Dateien erstellen, um das Modell bereitzustellen.
Das CLI-Tool würde auch die Umgebung angeben, in der das Modell bereitgestellt werden soll.

Diese Automatisierung ermöglichte es den Datenwissenschaftlern des Unternehmens, ihre Modelle in der Produktion einzusetzen und zu überwachen, ohne dass andere Ingenieure hinzugezogen werden mussten.

Herausforderungen bei der Entwicklung eigener maßgeschneiderter Tools und Prozesse

Es gibt auch einige Herausforderungen, die bei der Entwicklung Ihrer eigenen benutzerdefinierten Tools und Prozesse für die Modellbereitstellung und Beobachtbarkeit berücksichtigt werden müssen:

Komplexität: Die Entwicklung eigener maßgeschneiderter Tools und Prozesse kann komplex und zeitaufwändig sein.
Debuggen: Es kann schwierig sein, Probleme zu debuggen, wenn sie auftreten, insbesondere wenn Datenwissenschaftler keinen vollständigen Einblick in die erstellten Pipelines haben.
Wartung: Maßgeschneiderte Tools und Prozesse erfordern kontinuierliche Wartung und Support.

Wie können die Herausforderungen gemeistert werden

Es gibt ein paar Dinge, die getan werden können, um die Herausforderungen zu verringern, die mit der Entwicklung eigener benutzerdefinierter Tools und Prozesse für die Modellbereitstellung und Beobachtbarkeit verbunden sind:

Fangen Sie klein an: Entwickeln Sie zunächst eine Reihe grundlegender Tools und Prozesse, die Ihren unmittelbaren Anforderungen entsprechen. Im Laufe der Zeit können Sie dann weitere Features und Funktionen hinzufügen.
Verwenden Sie Open-Source-Tools und -Bibliotheken: Es gibt eine Reihe von Open-Source-Tools und -Bibliotheken, die Ihnen helfen können, Ihre eigenen benutzerdefinierten Tools und Prozesse zu entwickeln. Durch die Verwendung dieser Tools und Bibliotheken kann der erforderliche Entwicklungsaufwand reduziert werden.
Dokumentieren Sie Ihre Tools und Prozesse: Dokumentieren Sie Ihre Tools und Prozesse gründlich, damit Datenwissenschaftler und andere Techniker sie leicht verstehen und verwenden können.
Bieten Sie Schulungen und Unterstützung an: Bieten Sie Datenwissenschaftlern und anderen Ingenieuren Schulungen und Unterstützung zur Verwendung Ihrer maßgeschneiderten Tools und Prozesse an.

Pipeline für Inferenzanalysen in Echtzeit: Vorteile und Herausforderungen

Pipelines zur Echtzeit-Inferenzierung bieten eine Reihe von Vorteilen, darunter:

Niedrigere Latenz: Inferenz-Pipelines in Echtzeit können Benutzern Prognosen mit minimaler Verzögerung liefern.
Höhere Skalierbarkeit: Echtzeit-Inferenz-Pipelines können je nach Bedarf nach oben oder unten skaliert werden, sodass sie sich ideal für Anwendungen mit hohem Volumen eignen.
Verbesserte Flexibilität: Echtzeit-Inferenz-Pipelines können verwendet werden, um eine Vielzahl von Modellen für maschinelles Lernen zu implementieren, einschließlich Klassifizierung, Regression und Objekterkennung.

Pipelines zur Echtzeit-Inferenzierung stellen jedoch auch einige Herausforderungen dar, wie z. B.:

Höhere Komplexität: Echtzeit-Inferenz-Pipelines können komplex zu entwerfen und zu implementieren sein und erfordern Fachwissen in den Bereichen maschinelles Lernen, verteilte Systeme und Infrastruktur.
Höhere Kosten: Der Betrieb von Echtzeit-Inferenz-Pipelines kann aufgrund des Bedarfs an leistungsfähigerer Hardware und Infrastruktur teurer sein als Batch-Inferenz-Pipelines.
Erhöhtes Fehlerrisiko: Pipelines für Echtzeit-Inferenzanalysen können anfälliger für Fehler sein als Pipelines für Batch-Inferenzen, da Daten verarbeitet und Vorhersagen in Echtzeit generiert werden müssen.

Autoscaling in einer Pipeline für maschinelles Lernen in Echtzeit

Eine der Herausforderungen beim Aufbau und der Bereitstellung einer Echtzeit-Pipeline für maschinelles Lernen besteht darin, das System automatisch zu skalieren, um Verkehrsänderungen zu bewältigen. Dabei müssen eine Reihe von Faktoren berücksichtigt werden, wie z. B. die Vorhersagbarkeit der Verkehrsmuster, die Latenzanforderungen der Modelle und die Komplexität des Auto-Scaling-Algorithmus.

Ein Ansatz zur automatischen Skalierung einer Echtzeit-Pipeline für maschinelles Lernen ist die Verwendung eines Warteschlangensystems. Auf diese Weise können Sie die Produzenten (die die Inferenzanforderungen generieren) von den Verbrauchern (die die Inferenzanforderungen verarbeiten) entkoppeln. Dies gibt Ihnen mehr Flexibilität bei der Skalierung des Systems.

Um ein warteschlangenbasiertes System automatisch zu skalieren, können Sie eine Vielzahl von Metriken verwenden, z. B. die Anzahl der Nachrichten in der Warteschlange, die durchschnittliche Latenz der Anfragen oder die CPU-Auslastung der Worker. Sie können auch eine Kombination dieser Metriken verwenden.

Es ist wichtig, den Auto-Scaling-Algorithmus sorgfältig abzustimmen, um eine Über- oder Unterskalierung des Systems zu vermeiden. Eine Überskalierung kann zu Ressourcenverschwendung führen, während eine Unterskalierung zu Leistungsproblemen führen kann.

Hier sind einige zusätzliche Gedanken zur automatischen Skalierung eines auf Warteschlangen basierenden Systems für Echtzeitinferenz:

Verwenden Sie eine Cloud-basierte Plattform: Cloud-basierte Plattformen können es einfacher machen, Ihr System automatisch zu skalieren, wenn sich Ihre Verkehrsmuster ändern. Sie können beispielsweise einen Cloud-basierten Load Balancer verwenden, um den Datenverkehr auf Ihre Pods zu verteilen und die Anzahl der Pods nach Bedarf zu erhöhen oder zu verringern.
Verwenden Sie ein Warteschlangensystem, das Auto Scaling unterstützt: Einige Warteschlangensysteme unterstützen Auto-Scaling, was bedeutet, dass sie die Anzahl der Mitarbeiter basierend auf der Anzahl der Nachrichten in der Warteschlange automatisch nach oben oder unten skalieren können. Auf diese Weise können Sie sicherstellen, dass Ihr System Verkehrsspitzen ohne manuelles Eingreifen bewältigen kann.
Überwachen Sie Ihr System: Es ist wichtig, dass Sie Ihr System genau überwachen, um Probleme mit der automatischen Skalierung zu erkennen. Beispielsweise müssen Sie möglicherweise die Schwellenwerte anpassen, die das Hoch- oder Herunterskalieren auslösen, oder Sie müssen möglicherweise bestimmte Engpässe in Ihrem System identifizieren und beheben.

Modellserver für latenzempfindliche Echtzeitsysteme

Die Auswahl eines Modellservers für latenzempfindliche Anwendungen kann aus einer Reihe von Gründen eine Herausforderung sein. Erstens gibt es viele verschiedene Modellserver, von denen jeder seine eigenen Stärken und Schwächen hat. Zweitens können die Anforderungen für latenzempfindliche Anwendungen je nach Anwendung und verwendetem Modelltyp stark variieren. Schließlich ist es oft schwierig vorherzusagen, wie sich ein Modellserver in einer Produktionsumgebung verhalten wird.

Zu berücksichtigende Faktoren

Bei der Auswahl eines Modellservers für eine latenzempfindliche Anwendung müssen die folgenden Faktoren berücksichtigt werden:

Modelllatenz: Die Latenz des Modellservers sollte niedrig genug sein, um die Anforderungen der Anwendung zu erfüllen.
Skalierbarkeit: Der Modellserver sollte skalierbar sein, um den Datenverkehrsanforderungen der Anwendung gerecht zu werden.
Flexibilität: Der Modellserver sollte flexibel genug sein, um die spezifischen Anforderungen der Anwendung zu unterstützen, z. B. verschiedene Frameworks und Hardwareplattformen.
Einfache Bedienung: Der Modellserver sollte einfach zu bedienen und zu verwalten sein.
Benchmarks: Es ist wichtig, verschiedene Modellserver zu vergleichen, um herauszufinden, welcher Server für Ihre spezifischen Anforderungen am besten geeignet ist.
Unterstützung: Berücksichtigen Sie den Grad der Unterstützung, der für den Modellserver verfügbar ist.
Gemeinschaft: Berücksichtigen Sie die Größe und Aktivität der Community rund um den Modellserver.

💡

Weitere Einblicke rund um die ML-Plattform bei Voiceflow:
Voiceflow verwendet eine Kombination aus AWS und GCP, da verschiedene Unternehmenskunden unterschiedliche Anforderungen haben. Sie haben die Verwendung von Karpenter oder Autopilot noch nicht erforscht, da sie ihre Infrastruktur bereits ausbauten, als diese Funktionen veröffentlicht wurden. Außerdem müssen sie für viele ihrer Workloads T4-GPUs verwenden, die für Autopilot nicht optimal sind. Insgesamt räumen sie der Entwicklungszeit vorerst Priorität ein und werden im Zuge der Skalierung irgendwann zu fortschrittlicheren Infrastrukturlösungen migrieren.

Der Ansatz von Voiceflow zur generativen KI

Voiceflow verfolgt bei generativer Open-Source-KI einen vorsichtigen Ansatz. Sie sind sich der potenziellen Vorteile dieser Modelle bewusst, sind sich aber auch der damit verbundenen Herausforderungen bewusst. Sie sind bestrebt, ihren Benutzern das bestmögliche Erlebnis zu bieten, und sie werden auf Open-Source-Modelle umsteigen, wenn der richtige Zeitpunkt für ihr Unternehmen ist.

Herausforderungen generativer Open-Source-KI

Generative Open-Source-KI ist mit einigen Herausforderungen verbunden:

Schnelle Entwicklung: Generative Open-Source-KI-Modelle entwickeln sich rasant, was es schwierig machen kann, mit den neuesten Optimierungen Schritt zu halten.
Kosten: Generative Open-Source-KI-Modelle können rechenintensiv zu trainieren und bereitzustellen sein.
Unterstützung: Generative Open-Source-KI-Modelle haben möglicherweise nicht den gleichen Grad an Unterstützung wie proprietäre Modelle.

Vorteile generativer Open-Source-KI

Trotz der Herausforderungen bieten generative Open-Source-KI-Modelle auch eine Reihe von Vorteilen:

Transparenz: Generative Open-Source-KI-Modelle sind transparenter als proprietäre Modelle, was bedeutet, dass Benutzer besser verstehen können, wie sie arbeiten, und den Ergebnissen vertrauen können.
Reproduzierbarkeit: Generative Open-Source-KI-Modelle sind reproduzierbarer als proprietäre Modelle, was bedeutet, dass Benutzer die Ergebnisse von Experimenten replizieren und ihre Arbeit mit anderen teilen können.
Personalisierung: Generative Open-Source-KI-Modelle können angepasst und erweitert werden, um spezifische Anforderungen zu erfüllen.

Umgang mit Latenz

Die Latenz ist ein entscheidender Faktor, der bei der Auswahl eines Modells für ein erweitertes Abrufsystem berücksichtigt werden muss. Der beste Ansatz besteht darin, den Benutzern die Wahl der zu verwendenden Modelle zu geben und ihnen zu vermitteln, welche Modelle sie für die verschiedenen Aufgaben verwenden sollten.

Wenn beispielsweise die Latenz der wichtigste Faktor ist, wird die Verwendung eines NLU-basierten Ansatzes mit intensiven Äußerungen und statischen Reaktionen empfohlen. NLU-Modelle sind in der Regel viel schneller als generative Modelle, und statische Antworten können mit sehr niedriger Latenz geliefert werden.

Wenn der Benutzer eine höhere Präzision oder eine bessere Formatierung benötigt, wird die Verwendung eines generativen Modells wie GPT-4 empfohlen. Generative Modelle sind leistungsfähiger als NLU-Modelle und können Text generieren, der natürlicher und ansprechender ist. Es ist jedoch wichtig zu beachten, dass generative Modelle auch viel langsamer sind als NLU-Modelle.

Eine andere Möglichkeit, die Latenz zu reduzieren, ist die Verwendung einer verteilten Architektur. In einer verteilten Architektur werden die Abruf- und Generierungsaufgaben auf separaten Servern ausgeführt. Dadurch kann das System skaliert werden, um den Anforderungen selbst der anspruchsvollsten Anwendungen gerecht zu werden.

Aufbau eines leistungsstarken Systems zur erweiterten Generierung von Abrufdaten

RAG-Systeme (Retrieval Augmented Generation) sind ein leistungsstarker neuer Ansatz zur Textgenerierung, der die Stärken von Retrieval- und generativen Modellen kombiniert. RAG-Systeme funktionieren, indem sie zuerst relevante Passagen aus einer Wissensdatenbank abrufen und dann ein generatives Modell verwenden, um Text auf der Grundlage der abgerufenen Passagen zu generieren.

RAG-Systeme können für eine Vielzahl von Aufgaben verwendet werden, darunter die Beantwortung von Fragen, das Zusammenfassen und das kreative Schreiben. Der Aufbau eines leistungsstarken RAG-Systems kann jedoch eine Herausforderung sein.

In diesem Blogbeitrag erörtern wir einige der wichtigsten Faktoren, die beim Aufbau eines RAG-Systems zu berücksichtigen sind, darunter:

Modellauswahl: Es stehen eine Vielzahl verschiedener Abruf- und Generationsmodelle zur Verfügung. Es ist wichtig, Modelle auszuwählen, die für Ihre spezifischen Bedürfnisse geeignet sind. Wenn Sie beispielsweise Text in einer bestimmten Sprache generieren müssen, müssen Sie ein Modell auswählen, das auf Text in dieser Sprache trainiert ist.
Datenauswahl: Die Qualität der Daten, die Sie zum Training Ihres Systems verwenden, hat erhebliche Auswirkungen auf dessen Leistung. Es ist wichtig, Daten auszuwählen, die für Ihre Zielaufgaben relevant und fehlerfrei sind.
Hardwareauswahl: Die von Ihnen verwendete Hardware hat auch erhebliche Auswirkungen auf die Leistung Ihres Systems. Beispielsweise kann die Verwendung von GPUs die Abruf- und Generierungsaufgaben erheblich beschleunigen.
Systemarchitektur: RAG-Systeme können auf verschiedene Arten implementiert werden. Es ist wichtig, eine Systemarchitektur zu wählen, die Ihren spezifischen Bedürfnissen entspricht. Wenn Sie Ihr System beispielsweise in der Produktion einsetzen müssen, müssen Sie eine Architektur wählen, die skalierbar und zuverlässig ist.

Zusätzlich zu den oben genannten Faktoren ist auch zu berücksichtigen, dass RAG-Systeme komplex sind und sich schwer verallgemeinern lassen können. Die Domäne und der Anwendungsfall jedes Benutzers sind unterschiedlich. Daher ist es wichtig, den Benutzern die Möglichkeit zu geben, ihre eigenen Eingabeaufforderungen, Verarbeitungs- und Aufteilstrategien zu testen. Auf diese Weise können Benutzer das System an ihre spezifischen Bedürfnisse anpassen.

Hier erfahren Sie mehr darüber, wie Sie eine RAG-Architektur auf TrueFoundry bereitstellen:

‍

LLM-powered QA Chatbot on your data in your Cloud

Productionize a question-answering bot on your data in your cloud environment using open source LLMs using RAG (Retrieval-Augmented Generation).

TrueFoundry Blog TrueFoundry

‍

Der Übergang zu generativer KI: Herausforderungen und Chancen

Unternehmen, die NLP-basierte Lösungen mit traditionellen Methoden entwickelt haben, stehen nun vor der Herausforderung, auf generative KI umzusteigen. Generative KI-Modelle wie GPT-4 und LamDA bieten eine Reihe von Vorteilen gegenüber herkömmlichen Methoden, darunter die Fähigkeit, Texte zu generieren, Sprachen zu übersetzen und Fragen auf umfassende und informative Weise zu beantworten. Der Übergang zur generativen KI ist jedoch auch mit einer Reihe von Herausforderungen verbunden.

Eine Herausforderung besteht darin, dass sich generative KI-Modelle noch in der Entwicklung befinden und ihre Verwendung teuer sein kann. Darüber hinaus ist das Konzept der Aufforderung immer noch ziemlich zweideutig und anspruchsvoll. Unternehmen müssen in der Lage sein, effektive Aufforderungstechniken zu entwickeln, um das Beste aus generativen KI-Modellen herauszuholen.

Eine weitere Herausforderung ist die Integration generativer KI-Modelle in die bestehende Infrastruktur. Unternehmen müssen sicherstellen, dass ihre Systeme die erhöhte Belastung und Komplexität generativer KI-Modelle bewältigen können.

Trotz der Herausforderungen gibt es auch eine Reihe von Möglichkeiten, die mit der Umstellung auf generative KI verbunden sind. Generative KI-Modelle können Unternehmen dabei helfen, die Qualität ihrer Produkte und Dienstleistungen zu verbessern, Aufgaben zu automatisieren und neue Produkte und Dienstleistungen zu entwickeln.

Hier sind einige Tipps für Unternehmen, die auf generative KI umsteigen:

Beginnen Sie mit der Bewertung Ihrer Bedürfnisse. Für welche spezifischen Aufgaben benötigen Sie generative KI-Modelle? Was sind Ihre Budgetbeschränkungen? Sobald Sie Ihre Bedürfnisse gut verstanden haben, können Sie damit beginnen, die richtigen generativen KI-Modelle für Ihren Anwendungsfall zu identifizieren.
Experimentieren Sie mit verschiedenen Modellen und Techniken. Es gibt keinen einheitlichen Ansatz für den Übergang zur generativen KI. Unternehmen müssen mit verschiedenen Modellen und Techniken experimentieren, um herauszufinden, was für sie am besten funktioniert.
Integrieren Sie generative KI-Modelle in Ihre bestehende Infrastruktur. Unternehmen müssen sicherstellen, dass ihre Systeme die erhöhte Belastung und Komplexität generativer KI-Modelle bewältigen können. Dies kann eine Skalierung ihrer Infrastruktur oder Änderungen an ihrer Software erfordern.
Schulen Sie Ihre Mitarbeiter. Generative KI-Modelle sind leistungsstarke Tools, aber ihre Verwendung kann auch komplex sein. Unternehmen müssen ihre Mitarbeiter darin schulen, generative KI-Modelle effektiv einzusetzen.

Die Umstellung auf generative KI kann eine Herausforderung sein, bietet Unternehmen aber auch die Chance, ihre Produkte und Dienstleistungen zu verbessern und neue Produkte und Dienstleistungen zu entwickeln. Wenn Unternehmen die oben genannten Tipps befolgen, können sie den Übergang zur generativen KI so reibungslos und erfolgreich wie möglich gestalten.

Lesen Sie unsere vorherigen Blogs in der TrueML-Serie

‍

True ML Talks #20 - Transformers, Embedding, LLMS @ Turnitin

Deep dive into a new way of thinking about Transformers and LLMs, via Embeddings . We talk with Sumeet, Distinguished ML Scientist @ Turnitin.

TrueFoundry Blog TrueFoundry

‍

Schaue weiter TrueML YouTube-Serie und lese das ganze TrueML Blog-Serie.

Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo