True ML Talks #14 - Mitbegründer von LLMs und Reinforcement Learning @ CX Score

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wir sind zurück mit einer weiteren Folge von True ML Talks. In dieser Ausgabe tauchen wir erneut tief in LLMs, Reinforcement Learning und CX Score ein und wir sprechen mit Ashwin Rao.

Ashwin Rao ist ein angesehener Fachmann mit einem vielfältigen Hintergrund in den Bereichen Wissenschaft, Branchenführung und Unternehmertum. Derzeit ist er Mitbegründer von CX Score, einem KI-Startup im Startstadium, das sich darauf konzentriert, Unternehmen dabei zu unterstützen, das Kundenerlebnis in Web- und mobilen Anwendungen zu verbessern.

📌

Unsere Gespräche mit Ashwin werden die folgenden Aspekte behandeln:
- CX-Punktzahl.
- Herausforderungen und Anwendungen von LLM im Einzelhandel.
- Verstärkendes Lernen.
- Anwendungen von RL im Finanzbereich
- Einsatz von Reinforcement Learning zur Verbesserung von LLMs
- Gewährleistung sicherer, unvoreingenommener und qualitativ hochwertiger Antworten bei LLMs

Sehen Sie sich die ganze Folge unten an:

TrueML-Gespräch mit Ashwin Rao

CX-Punktzahl

Überblick über CX Ops und CX Score

CX Ops erweitert die DevOps-Prinzipien, um das digitale Kundenerlebnis zu verbessern. Es beinhaltet einen kollaborativen Ansatz zur kontinuierlichen Verbesserung von Websites, Web-Apps und mobilen Apps.

Der CX Score bewertet das Kundenerlebnis anhand der Erkenntnisse eines synthetischen Benutzers — eines KI-Bot, der sich wie ein Mensch verhält. Er identifiziert Probleme wie Fehlfunktionen, Designinkonsistenzen, Sicherheitsbedenken und mehr und generiert Tickets für Entwickler und Designer.

Funktionsübergreifende Teams befassen sich mit festgestellten Problemen und streben nach kontinuierlichen Verbesserungen. Der synthetische Benutzer testet nach der Problemlösung erneut und trägt so im Laufe der Zeit zur Verbesserung des CX-Scores bei.

Die Integration von CX Ops in DevOps stellt sicher, dass das Kundenerlebnis während des gesamten Entwicklungsprozesses im Mittelpunkt steht. Dadurch entstehen nahtlose und ansprechende digitale Plattformen für Kunden.

Wie der CX-Score menschliche Interaktionen nachahmt

Der CX Score verwendet einen Lernansatz, um menschliche Interaktionen nachzuahmen und zu verstehen, was ein digitales Erlebnis intuitiv und benutzerfreundlich macht. Durch die Beobachtung und Analyse des menschlichen Verhaltens auf Websites und Apps kann der synthetische Benutzer oder KI-Bot aus den Signalen und Mustern echter Benutzer lernen.

Aufsichtsdaten werden gesammelt, um Erkenntnisse darüber zu gewinnen, wie Benutzer durch digitale Plattformen navigieren. Zu diesen Daten gehören Kennzahlen wie die auf verschiedenen Seiten verbrachte Zeit, die Reihenfolge der ergriffenen Maßnahmen und Fälle von Seitenabbrüchen. Diese Signale liefern wertvolle Informationen über Verwirrung, Frustration und Bereiche, in denen das Nutzererlebnis unzureichend ist.

Wenn Benutzer beispielsweise häufig Schwierigkeiten haben, ein bestimmtes Ziel zu erreichen, z. B. beim Einsatz eines Modells für maschinelles Lernen, kann der synthetische Benutzer so trainiert werden, dass er dies als suboptimale Benutzererfahrung erkennt. Durch den Vergleich des Verhaltens echter Benutzer, die mit dem Prozess zu kämpfen haben, mit denen, die ihn mühelos abschließen, kann der Bot den Unterschied verstehen und lernen, was das Erlebnis intuitiver macht.

Der Lernprozess des KI-Bot hängt von einer erheblichen Menge an Daten und Feedback von echten Benutzern ab. Durch die Analyse und Kartierung der Benutzererfahrungen wird es möglich, Schwachstellen, Engpässe und Verbesserungsbereiche zu identifizieren. Dieser datengesteuerte Ansatz ermöglicht es dem Bot, zwischen benutzerfreundlichen Interaktionen und solchen zu unterscheiden, die zu Frustration oder Verwirrung führen können.

Durch kontinuierliches Lernen aus menschlichem Verhalten zielt der CX Score darauf ab, das digitale Kundenerlebnis zu optimieren, es intuitiver, optimierter und an den Erwartungen der Nutzer auszurichten. Ziel ist es, sicherzustellen, dass der synthetische Nutzer menschliche Interaktionen präzise nachahmen kann und wertvolle Einblicke in Bereiche liefert, in denen das Erlebnis verbessert werden kann.

Herausforderungen und Anwendungen von LLM im Einzelhandel

Der Einzelhandel hat erhebliche Fortschritte bei der Anwendung von KI, ML und LLM (Large Language Models) erlebt, um verschiedene Herausforderungen zu lösen und das Kundenerlebnis zu verbessern. Hier untersuchen wir die Herausforderungen, mit denen der Einzelhandel konfrontiert ist, und die neuen Anwendungen von LLMs bei der Bewältigung dieser Probleme.

Herausforderungen im Einzelhandel

Betrieb und Lieferkette: Einzelhändler stoßen bei der effizienten Verwaltung von Inventar, Logistik und Lieferkettenabläufen auf Schwierigkeiten. Die Optimierung dieser Prozesse, um einen reibungslosen Produktfluss und termingerechte Lieferungen zu gewährleisten, ist von entscheidender Bedeutung.
Kundenerlebnis: Die Bereitstellung personalisierter und ansprechender Kundenerlebnisse hat für Einzelhändler oberste Priorität. Dazu gehören genaue Suchergebnisse, personalisierte Empfehlungen, gezieltes Marketing und die Erstellung von Layouts, die auf individuelle Vorlieben zugeschnitten sind.

Anwendungen von LLM im Einzelhandel

Betriebsoptimierung: LLMs können riesige Datenmengen analysieren, um die Bestandsverwaltung, Nachfrageprognosen und Lieferkettenabläufe zu optimieren. Durch den Einsatz von LLMs können Einzelhändler ihre Entscheidungsprozesse verbessern, die betriebliche Effizienz verbessern und die Kosten senken.
Personalisierte Empfehlungen: LLMs zeichnen sich dadurch aus, dass sie Kundenpräferenzen und Produktähnlichkeiten verstehen. Durch die Nutzung von Kunden- und Produkteinbettungen können LLMs hochgradig personalisierte Empfehlungen generieren, sodass Einzelhändler gezielte Produktvorschläge unterbreiten und den Umsatz steigern können.
Verbesserte Suchfunktionen: LLMs können das Sucherlebnis im Einzelhandel verändern. Anstatt sich ausschließlich auf Keyword-basierte Suchanfragen zu verlassen, können Konversations-Chatbots, die von LLMs unterstützt werden, Dialoge in natürlicher Sprache führen, den Kontext und die Absicht verstehen, um genauere und relevantere Suchergebnisse zu liefern.
Intelligenter Kundenservice: LLMs haben das Potenzial, den Kundenservice im Einzelhandel zu revolutionieren. Mit dem Fortschritt der LLM-Technologie werden intelligente Chatbots in der Lage sein, aussagekräftige Dialoge zu führen, Kunden dabei zu unterstützen, die richtigen Produkte zu finden, Preisberatung zu geben, personalisierte Einkaufsunterstützung zu bieten und Rücksendeanfragen effektiv zu bearbeiten.
Zukünftige Möglichkeiten: Mit weiteren Fortschritten haben LLMs das Potenzial, hochintelligente Einkaufsassistenten zu werden, die individuelle Präferenzen und Kaufhistorie verstehen und relevante Produkte vorschlagen, die auf personalisierten Bedürfnissen basieren. Dies kann den Kunden ein nahtloseres und intuitiveres Einkaufserlebnis bieten

Verstärkendes Lernen

Reinforcement Learning (RL) ist ein fortgeschrittenes Gebiet des maschinellen Lernens, in dem Agenten durch Versuch und Irrtum lernen.

In RL interagiert ein Agent mit einer Umgebung, z. B. einem selbstfahrenden Auto, das durch Straßen voller Hindernisse und Verkehr navigiert. Der Agent beobachtet den aktuellen Zustand der Umgebung und wählt Aktionen aus, um die kumulativen Belohnungen im Laufe der Zeit zu maximieren.

Prämien sind numerische Werte, die die Qualität der Entscheidungen eines Agenten unter Berücksichtigung von Faktoren wie Effizienz und Sicherheit widerspiegeln. Durch das Sammeln von Prämien lernen RL-Agenten, effektiv zu navigieren.

RL beinhaltet Stochastik, um mit Unsicherheiten in der Umgebung umzugehen, sodass Agenten trotz unvorhersehbarer Umstände optimale Entscheidungen treffen können.

RL findet Anwendungen in den Bereichen Finanzen, Einzelhandel, Robotik und selbstfahrende Fahrzeuge. Es hat auch dazu beigetragen, Sprachmodelle wie ChatGPT zu verbessern, ihre Leistung zu verbessern und genauere Antworten zu generieren. Wenn wir die Grundlagen von RL verstehen, können wir dessen Potenzial zur Lösung komplexer Entscheidungsprobleme und zur Weiterentwicklung der KI-Fähigkeiten einschätzen

Sie erhalten Belohnungen und Strafen für Ihre Handlungen, abhängig von den Belohnungen, die Sie erhalten. So lernen Menschen, weshalb ich das Gebiet sehr interessant fand.
- Ashwin

📌

Bedeutung der negativen Belohnung in RL:
Negative Belohnungen beim Reinforcement Learning (RL) sind entscheidend für die Gestaltung des Verhaltens von Agenten und die Förderung wünschenswerter Ergebnisse. Anstatt sich auf menschliche Urteile zu verlassen, besteht der beste Ansatz darin, Systeme zu entwerfen, in denen Belohnungen organisch sind und auf tatsächlichen Ergebnissen basieren. Negative Belohnungen können beispielsweise beim Autofahren mit Unfällen oder erheblicher Verzögerung einhergehen. Indem sie sich auf objektive Messwerte wie Zeiteffizienz und Komfort konzentrieren, können RL-Mitarbeiter lernen, optimale Entscheidungen zu treffen, ohne dass eine subjektive menschliche Kennzeichnung erforderlich ist. Dieser Ansatz gewährleistet ein robustes und effektives Lernen ohne die Komplexität unterschiedlicher Meinungen und Urteile.

Anwendungen von Reinforcement Learning im Finanzbereich

Portfoliomanagement: Reinforcement Learning kann verwendet werden, um Investitionen auf der Grundlage sich ändernder Marktbedingungen dynamisch zuzuweisen, die Allokation von Geldern auf verschiedene Vermögenswerte zu optimieren und das Risikoniveau anzupassen.
Preisgestaltung von Derivaten: Reinforcement Learning-Techniken können eingesetzt werden, um komplexe Derivate wie Optionen genau zu bewerten und abzusichern, was zu einem verbesserten Risikomanagement an den Finanzmärkten beiträgt.
Algorithmischer Handel: Reinforcement Learning kann Handelsentscheidungen in Echtzeit erleichtern, einschließlich optimaler Ausführungsstrategien für große Blockgeschäfte und Bid-Ask-Spread-Kontrolle für Market Maker, wodurch die Handelseffizienz und Rentabilität verbessert werden.

Diese Anwendungen stellen nur einen Teil der potenziellen Anwendungsfälle für Reinforcement Learning im Finanzwesen dar. Da sich das Feld weiterentwickelt, werden sich voraussichtlich mehr Möglichkeiten zur Nutzung von RL ergeben, was zu einer zunehmenden Akzeptanz und Weiterentwicklung der finanziellen Entscheidungsprozesse führen wird.

Wie RL mit unterschiedlichen Zeitrahmen für Investitionen umgehen kann.

Wenn unterschiedliche Zeitrahmen für Finanzinvestitionen in Betracht gezogen werden, wird das Konzept des Zeitwerts des Geldes von entscheidender Bedeutung. Beim Zeitwert des Geldes wird berücksichtigt, dass der Wert des in der Zukunft erhaltenen Geldes geringer ist als der gleiche Geldbetrag, der in der Gegenwart eingegangen ist. Die Frameworks zum Reinforcement Learning (RL) tragen diesem Umstand Rechnung, indem sie einen Abzinsungsfaktor enthalten, der es ermöglicht, zukünftige Belohnungen in der Gegenwart zu bewerten.

Im Finanzwesen wird der Abzinsungsfaktor auf der Grundlage der risikofreien Rendite bestimmt. Liegt der risikofreie Zinssatz beispielsweise bei 4%, wäre eine innerhalb eines Jahres erhaltene Belohnung von 1 USD zum Barwert etwa 0,96$ wert. Dieser Diskontierungsmechanismus innerhalb von RL hilft dabei, den Zeitwert des Geldes und die Bedeutung verschiedener Zeithorizonte für Investitionen zu erfassen.

Eine weitere Überlegung bei der Maximierung der finanziellen Renditen ist der Kompromiss zwischen Risiko und Ertrag. Die Maximierung der erwarteten Renditen ist zwar ein gemeinsames Ziel, setzt Anleger jedoch unterschiedlichen Unsicherheiten und Risiken aus. Jeder Einzelne hat seine eigene Risikobereitschaft und Präferenz für ein ausgewogenes Verhältnis zwischen potenziellen Chancen und Risiken. Dieser Kompromiss zwischen Rendite und Risiko ist ein wichtiger Aspekt der Nutzentheorie, die sich damit befasst, wie Einzelpersonen unterschiedliche Ergebnisse auf der Grundlage ihrer Risikopräferenzen bewerten.

Im Finanzwesen geht die Belohnungsfunktion über bloße Dollarbeträge hinaus und beinhaltet risikobereinigte Renditen. Die Definition eines Ziels, das risikobereinigte Renditen beinhaltet, ermöglicht es Anlegern, ihre Anlagestrategien an ihrer Risikotoleranz und dem gewünschten Kompromiss zwischen Risiko und Ertrag auszurichten. Die Nutzentheorie bietet einen Rahmen für das Verständnis und die Quantifizierung dieses Kompromisses und hilft Anlegern, fundierte Entscheidungen zu treffen.

Die Untersuchung des komplizierten Zusammenhangs zwischen Zeitrahmen, risikobereinigten Renditen und Anlegerpräferenzen erfordert ein tieferes Verständnis der Finanz- und Nutzentheorie, das in umfassenden Ressourcen wie Ashwin Raos Buch über Reinforcement Learning for Finance weiter untersucht werden kann.

Einsatz von Reinforcement Learning zur Verbesserung von LLMs

Reinforcement Learning (RL) hat eine wichtige Rolle bei der Verbesserung von Sprachmodellen (LLMs) wie Chat GPT gespielt. Obwohl RL im Mainstream vielleicht nicht allgemein anerkannt ist, war es eine entscheidende Technik, die hinter den Fortschritten bei LLMs stand.

Die Entwicklung von Chat GPT begann vor einigen Jahren mit früheren Versionen wie GPT-2 und GPT-3. Diese Modelle ergaben jedoch oft unsinnige oder irrelevante Antworten, was ihre Nutzbarkeit einschränkte. Innerhalb eines relativ kurzen Zeitraums wurden jedoch bemerkenswerte Verbesserungen in der Qualität der Antworten beobachtet, die mit Modellen wie Chat GPT generiert wurden.

Der entscheidende Durchbruch war die Integration von RL als Mittel zur Steuerung der Reaktionen des Modells. Stellen Sie sich vor, Sie verwenden Chat GPT-4 täglich, wo Sie nach jeder generierten Antwort die Möglichkeit haben, Feedback zu geben. Sie können angeben, ob die Antwort großartig oder wertvoll war oder ob sie unsinnig oder irrelevant erschien. Dieses Feedback dient als Belohnung oder Strafe für das Modell und beeinflusst seine zukünftigen Antworten.

Im Kontext einer Konversation erzeugt diese Feedback-Schleife ein RL-Framework. Das Modell erhält die Belohnung oder Bestrafung je nachdem, wie Benutzer auf seine Antworten reagieren. Diese kontinuierliche Interaktion ermöglicht es dem Modell, im Laufe der Zeit zu lernen und sich zu verbessern. Das RL-Framework erfasst den sequentiellen Charakter von Konversationen, wobei Zustandsübergänge im Verlauf des Dialogs stattfinden.

Durch dieses RL-Framework lernt Chat GPT zu verstehen, was eine vernünftige und eine unsinnige Reaktion ausmacht. Es hilft auch, das Problem der Halluzinationen anzugehen, bei denen das Modell Ergebnisse generiert, die möglicherweise falsch oder erfunden sind. Indem das Modell Feedback zu diesen Halluzinationen erhält, kann es lernen, sie zu kontrollieren und zu minimieren.

RL für LLMs kann daher als eine Methode der Halluzinationskontrolle angesehen werden, die ein Gleichgewicht zwischen der Generierung kreativer und kohärenter Reaktionen gewährleistet, ohne zu weit in den Bereich des unsinnigen Outputs vorzudringen. Durch den Einsatz von RL-Techniken können LLMs wie Chat GPT ihre Leistung kontinuierlich verbessern und das allgemeine Benutzererlebnis verbessern.

Die Integration von RL in LLMs stellt eine wichtige Richtung für zukünftige Entwicklungen in der Sprachverarbeitung und dem Sprachverständnis dar. Es ermöglicht Modellen, ihre Antworten auf der Grundlage von Benutzerfeedback in Echtzeit anzupassen und zu verfeinern, was zu genaueren, relevanteren und kontextbezogenen Interaktionen führt.

Gewährleistung sicherer, unvoreingenommener und qualitativ hochwertiger Antworten bei LLMs

Ansätze zur Gewährleistung sicherer, unvoreingenommener und qualitativ hochwertiger Antworten bei LLMs:

Einbeziehung von menschlichem Feedback: Menschliche Gutachter können Situationen identifizieren und Feedback dazu geben, in denen LLM-Antworten unsicher oder schädlich sein können. Dieses Feedback hilft dabei, das Modell so zu trainieren, dass es solche Fälle erkennt und vermeidet.
Definition ethischer Grenzen: Technologieunternehmen können für bestimmte Bereiche wie Moral, Ethik und vordefinierte Verhaltensweisen vordefinierte Grenzen oder Einschränkungen festlegen. Diese Grenzen sind fest vorgegeben und können durch RL-Training nicht geändert werden, wodurch ein konsistentes Verhalten gewährleistet wird, das den ethischen Standards entspricht.
Formale und systematische Modellierung: Um sichere, unvoreingenommene und qualitativ hochwertige Antworten zu gewährleisten, ist ein formellerer Ansatz zur Modellierung und Gestaltung des LLM-Verhaltens erforderlich. Dazu gehören systematische Verfahren zur Berücksichtigung von Vorurteilen, Sicherheitsbedenken, Korrektheit und Antwortqualität, die über die bloße Gewährung von Belohnungen hinausgehen.
Kontinuierliche Überwachung: Die kontinuierliche Überwachung des LLM-Verhaltens ist entscheidend, um potenzielle Probleme zu erkennen und zu beheben. Regelmäßige Bewertungen und Analysen helfen dabei, Bereiche zu identifizieren, in denen Verbesserungen vorgenommen werden können, um die Sicherheit und Qualität der Antworten zu verbessern.
Ein Gleichgewicht finden: Der Schulungsprozess muss ein Gleichgewicht zwischen Flexibilität und der Einhaltung von Sicherheits- und Qualitätsstandards herstellen. Dies beinhaltet eine sorgfältige Abwägung von Kompromissen und eine ständige Verfeinerung, um das Verhalten des Modells zu optimieren.
Forschung und Verbesserung: Kontinuierliche Forschung und Verbesserung der Trainingstechniken sind unerlässlich, um die Robustheit und Zuverlässigkeit von LLMs zu verbessern. Dazu gehört auch, wachsam gegen potenzielle Ausbeutung durch schlechte Akteure zu sein und sich proaktiv mit neu auftretenden Herausforderungen auseinanderzusetzen.

Lesen Sie unsere vorherigen Blogs in der True ML Talks-Reihe:

‍

True ML Talks #13 - Machine Learning Platform @ Cookpad

In this blog, we dive deep into Cookpad’s Machine Learning Platform, and Nvidia Triton. Understand Cookpad’s ML architecture, how ML is used at Cookpad.

TrueFoundry Blog TrueFoundry

Schaue weiter TrueML YouTube-Serie und das TrueML lesen Blog-Serie.

Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo