TrueML Talks #25 - GenAI und LLMOPs für GTM (Go-To-Market) @ Twilio

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last
Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!
- Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
- Produktionsbereit mit vollem Unternehmenssupport
Wir sind zurück mit einer weiteren Folge von True ML Talks. In dieser Ausgabe tauchen wir erneut tief in die MLOps- und LLMS-Anwendungen bei GitLab ein und wir sprechen mit Pruthvi Shetty.
Pruthvi ist angestellter Datenwissenschaftler bei Twilio. Davor leitete er auch ML für SAP sowie ein Startup namens ZapLabs, das von Anywhere RE übernommen wurde. In Twilio leitet Pruthvi die Gen-AI-Bemühungen für Twilio, und wir werden uns heute eingehend damit befassen.
📌
Unsere Gespräche mit Pruthvi werden die folgenden Aspekte behandeln:
- ML- und GenAI-Anwendungen und Anwendungsfälle rund um GTM
- XGPT: Twilios Powerhouse für Go-to-Market-Teams
- Kampf gegen OpenAI-Ratenlimits
- Experimentieren mit Open-Source-LLM
- RFP Genie: Automatisieren von RFP-Antworten
- Arbeitsablauf für traditionelle ML-Modelle
Sehen Sie sich die ganze Folge unten an:
Nutzung von KI für Go-To-Market-Teams
Twilio nutzt seit langem maschinelles Lernen (ML) und Datenwissenschaft, um seine Produkte und Dienstleistungen zu optimieren. Die jüngsten Fortschritte in der generativen KI (GenAI) haben jedoch neue Möglichkeiten eröffnet, die Arbeitsweise von GTM-Teams weiter zu verbessern.
Traditionelles ML für GTM
Obwohl GenAI ein leistungsstarkes Tool ist, hat Twilio seine traditionellen ML-Wurzeln nicht aufgegeben. Das Unternehmen verwendet ML weiterhin für verschiedene GTM-Aufgaben, wie zum Beispiel:
- Neigungsmodelle: Prognostizieren Sie die Wahrscheinlichkeit, dass ein Kunde zu einem zahlenden Nutzer wird.
- Cross-Selling-Modelle: Empfehlen Sie bestehenden Kunden zusätzliche Produkte auf der Grundlage ihrer Nutzungsdaten.
- Upsell-Modelle: Empfehlen Sie Bestandskunden auf der Grundlage ihrer Nutzungsdaten Upgrades auf höhere Serviceebenen.
- Modelle zur Lead-Generierung: Identifizieren Sie potenzielle Neukunden, die wahrscheinlich an den Produkten von Twilio interessiert sind.
GenAI für GTM
Twilio erkannte schon früh das Potenzial von GenAI und stellte ein engagiertes Team zusammen, um seine Anwendungen zu erforschen. Dieses Team hat eine Reihe von GENAI-basierten Tools speziell für GTM-Teams entwickelt, darunter:
- XGPT: Dieses vielseitige Tool ermöglicht es GTM-Teams, personalisierte Outreach-Inhalte wie E-Mails zu erstellen, was viel Zeit und Mühe spart. Es bearbeitet auch Kundenanfragen und verarbeitet beachtliche 15.000 Fragen pro Monat. Damit stellt es unter Beweis, dass es in der Lage ist, große Mengen an Interaktionen zu bewältigen.
- FlexGPT und SegGPT: Diese KI-Modelle sind auf bestimmte Produkte zugeschnitten und generieren eine umfassende und genaue Dokumentation sowohl für Flex als auch für Segment, sodass den Benutzern jederzeit verfügbare Informationen zur Verfügung stehen.
- RFP Genie: Dieses transformative Tool bewältigt die mühsame Aufgabe, RFP-Fragen zu beantworten. Durch die Bearbeitung von Anfragen mit einer Genauigkeit von 90% reduziert es die Bearbeitungszeit von Wochen auf Minuten, wodurch wertvolle Ressourcen für GTM-Teams freigesetzt werden.
XGPT: Twilios Powerhouse für Go-to-Market-Teams
Twilio erkannte schon früh das Potenzial der generativen KI (GenAI) und stellte ein engagiertes Team zusammen, um ihre Anwendungen zu erforschen. Dieses Team unter der Leitung von Pruthvi hat eine Reihe von GENAI-gestützten Tools speziell für GTM-Teams entwickelt. Eines der wichtigsten Tools, die sie entwickelt haben, ist XGPT.
XGPT wurde als Antwort auf zwei Probleme bei der Verwendung öffentlich verfügbarer GenAI-Modelle wie ChatGPT entwickelt:
- Sicherheit und Datenschutz: Öffentliche Modelle trainieren mit öffentlich geteilten Daten, was Bedenken hinsichtlich der Sicherheit und des Datenschutzes der internen Informationen von Twilio aufwirft.
- Eingeschränkte Anpassung: Öffentliche Modelle können das spezifische interne Wissen von Twilio nicht berücksichtigen, z. B. Informationen zur Produktveröffentlichung, Verkaufsspiele und Positionierung der Wettbewerber.
XGPT ging diese Probleme wie folgt an:
- Nutzung der Daten von Twilio: XGPT ist auf internen Informationen wie Produktveröffentlichungen, Verkaufsspielen und Wettbewerbsanalysen geschult und bietet Einblicke, die für bestimmte Rollen und Situationen relevant sind.
- Gewährleistung des Datenschutzes: XGPT nutzt die private API von Twilio, um sicherzustellen, dass die Daten sicher bleiben und für externe Schulungen nicht verfügbar sind.
Wir haben es jetzt seit ungefähr 4-5 fünf Monaten. Derzeit beantworten wir etwa 15.000 Fragen pro Monat, und wir haben einen sehr guten Anstieg bei den Power-Usern unserer Anwendungen festgestellt. Das war bisher XGPT.
- Pruthvi
Funktionsweise und Wirkung von XGPT
XGPT ist eine sichere und anpassbare Plattform, die:
- Beantwortet Fragen: Es bietet Antworten auf Benutzeranfragen, die auf einer umfangreichen Wissensbasis der internen und externen Dokumente von Twilio basieren.
- Generiert Inhalte: Es hilft Benutzern, personalisierte Outreach-Inhalte und E-Mails auf der Grundlage von Kundengesprächen zu erstellen.
- Verbessert die GTM-Effizienz: Es versorgt GTM-Teams mit leicht verfügbaren Informationen über die Produkte, Wettbewerber und Vertriebsstrategien von Twilio, was zu einer höheren Produktivität und einem verbesserten Kundenerlebnis führt.
Technische Architektur von XGPT
XGPT ist nicht nur ein Modell, sondern eine Reihe von Produkten, die jeweils auf bestimmte GTM-Rollen und -Bedürfnisse zugeschnitten sind. Zu diesen Produkten gehören FlexGPT für Kundendienstmitarbeiter und SegGPT für Segmentierungsaufgaben.
Eine benutzerdefinierte Pipeline von RAG Flow sammelt alle relevanten Informationen für XGPT, einschließlich öffentlicher und privater Daten. Diese Informationen stammen aus verschiedenen Quellen, z. B. aus Content-Management-Systemen, internen Dokumenten, Anrufprotokollen, Salesforce-Notizen und Produktdokumentationen.
Offline-Einbettungen werden für FlexGPT und andere Anwendungen verwendet, die mit Tools wie erstellt wurden Weltall und Chroma. Benutzerdefinierte Anpassungen sorgen für Skalierbarkeit und Kontrolle. Neben Text versteht XGPT auch Audio- und Videodaten durch multimodale Einbettungen. Flüstern transkribiert Produktdemos, während ein Visionsmodell Informationen aus Diagrammen und Diagrammen extrahiert. Diese Einbettungen werden dann in Gesichtseinbettungen umgewandelt, sodass XGPT sie in seinen Antworten mit relevanten Quellen verknüpfen kann.
Die wichtigste LLM-Verarbeitung wird abgewickelt von OpenAI-API. In bestimmten Fällen, wie RFPs, Lama wird zur Interpretation verwendet. Parallelisierungs- und Batch-Strategien optimieren die Verarbeitung und vermeiden Ratenbeschränkungen. Eine Interpretationsebene filtert und kontextualisiert Fragen, bevor sie dem LLM zur Verfügung gestellt werden. XGPT bietet Links zur entsprechenden Dokumentation für jede Antwort, sodass Sie weitere Informationen erhalten.
Heroku hostet die Anwendungen und gewährleistet Stabilität und Leistung. Docker Container ermöglichen eine einfache Bereitstellung und Skalierbarkeit. Daten werden sicher gespeichert in Postgres. Airtable verfolgt Fragen und Feedback und verbessert ständig die Funktionalität von XGPT. CloudWatch überwacht Metriken für eine optimale Leistung.
Die Zukunft von XGPT und RAG Flow
Das Team arbeitet ständig daran, den XGPT- und RAG-Flow zu verbessern. Ihre Vision für die Zukunft beinhaltet:
- Verbesserter RAG-Fluss: Dazu gehört auch die Vereinfachung des Prozesses der Erstellung und Pflege von Einbettungen für die gesamte Twilio-Dokumentation.
- Automatisierte Erkennung von Dokumentationslücken: XGPT kann helfen, Bereiche zu identifizieren, in denen Dokumentation fehlt, und zusätzliche Inhalte vorschlagen, um die Lücken zu schließen.
- Linderung von Halluzinationen: Das Team erforscht neue Techniken, um das Auftreten von Halluzinationen bei den Reaktionen von XGPT weiter zu reduzieren.
Kampf gegen OpenAI-Ratenlimits: Technische Tricks für ein paralleles XGPT
XGPT von Twilio, ein leistungsstarkes Unternehmen für Go-to-Market-Teams, stand vor einem erheblichen Hindernis: den Ratenlimits von OpenAI. Bei der iterativen Beantwortung von Fragen stieß die erste Version schnell an diese Grenzen. Die Rotation der API-Schlüssel bot eine vorübergehende Lösung, aber die organisatorische Ratenbegrenzung von OpenAI erwies sich als schwieriger.
Um diese Herausforderung zu lösen, bestand der erste Schritt des Teams darin, die Best Practices von OpenAI zur Vermeidung von Ratenbeschränkungen und zur Parallelisierung von Anrufen zu nutzen. Dies bot eine solide Grundlage, aber es waren weitere Optimierungen erforderlich. Die Ingenieure von Twilio entwickelten auch eine clevere Lösung: API-Aufrufe wurden strategisch gebündelt, damit sie unter dem Radar von OpenAI fliegen. Dies beinhaltete die sorgfältige Gruppierung der Fragen unter Beibehaltung der Benutzererfahrung der Anwendung. Um die Effizienz weiter zu verbessern, haben die Ingenieure verschiedenen Aufgaben eine strategische Gewichtung zugewiesen. Dadurch wurde sichergestellt, dass kritische Fragen Vorrang erhielten, während weniger dringende Anfragen dennoch bearbeitet werden konnten.
Experimentieren mit Open-Source-LLM
Obwohl sowohl ChatGPT als auch Llama leistungsstarke Sprachmodelle sind, entschied sich Twilio aus mehreren wichtigen Gründen für Llama für ihre XGPT-Anwendung:
- Wirtschaftlichkeit: Llama arbeitet mit deutlich niedrigeren Kosten als ChatGPT, was es zu einer wirtschaftlicheren Wahl für Aufgaben wie Dolmetschen macht, die weniger komplexe Überlegungen und Nuancen erfordern.
- Aufgabentauglichkeit: Die erste Phase von XGPT beinhaltet die Interpretation von Benutzerfragen. Das ist eine Aufgabe, für die Lama gut geeignet ist, da er hervorragend darin ist, die Bedeutung von Text zu verstehen und zu übersetzen.
- Vermeidung einer Anbieterbindung: Twilio möchte vermeiden, sich bei seinen LLM-Anforderungen ausschließlich auf einen Anbieter zu verlassen. Durch die Verwendung von Llama zusammen mit ChatGPT haben sie eine Backup-Option für den Fall von Ausfällen oder Änderungen der OpenAI-Richtlinien.
Durch die Wahl von Llama für die erste Ebene der Interpretation erreichte Twilio eine kostengünstige Lösung, die den Aufgabenanforderungen entsprach und gleichzeitig ihre LLM-Nutzung diversifizierte und ihr Engagement für die Open-Source-Community unter Beweis stellte.
RFP Genie: Automatisieren von RFP-Antworten
RFP Genie ist ein weiteres generatives KI-Tool, das vom internen Team von Twilio entwickelt wurde. Es automatisiert den Prozess der Beantwortung von RFPs, was für GTM-Teams eine zeitaufwändige und mühsame Aufgabe sein kann. RFP Genie kann:
- Extrahieren Sie die wichtigsten Informationen: Extrahieren Sie automatisch wichtige Informationen und Anforderungen aus RFP-Dokumenten.
- Antworten generieren: Generieren Sie umfassende und genaue Antworten auf jede RFP-Frage und sparen Sie den GTM-Teams unzählige Arbeitsstunden.
- Konsistent bleiben: Stellen Sie sicher, dass alle Antworten mit dem Branding und der Botschaft von Twilio übereinstimmen.
Arbeitsablauf für traditionelle ML-Modelle
In der Einführung haben wir kurz auf die traditionellen ML-Modelle eingegangen, die in Twilio immer noch für GTM verwendet werden, wie Modelle zur Neigung und Lead-Generierung.
Der Workflow für traditionelle ML-Modelle nutzt eine leistungsstarke Kombination von Tools und Technologien:
- Datenspeicherung: Kundendaten werden je nach Modell in verschiedenen Datenbanken gespeichert, darunter Postgres und Airtable.
- Modelltraining: SageMaker-Pipelines werden zum Trainieren der ML-Modelle verwendet, um Skalierbarkeit und Effizienz sicherzustellen.
- Datenpipelines und Notebook-Management: Abacus bietet eine benutzerfreundliche Plattform für die Verwaltung von Datenpipelines und Notebooks, die den Modellentwicklungsprozess vereinfacht.
- Einsatz: Buildkite stellt sicher, dass alle behördlichen Anforderungen erfüllt werden, bevor die Modelle in die Produktion eingeführt werden.
Lesen Sie unsere vorherigen Blogs in der True ML Talks-Reihe:
Schaue weiter TrueML YouTube-Serie und lese die TrueML-Blogserie.
Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.
TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.
Der schnellste Weg, deine KI zu entwickeln, zu steuern und zu skalieren













.png)




.png)






.webp)

.webp)



