True ML Talks #20 - Transformers, Embeddings und LLMs - ML Scientist @ Turnitin

Published: April 22, 2026

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wir sind zurück mit einer weiteren Folge von True ML Talks. In diesem Artikel werden wir uns eingehend mit den Hauptideen des faszinierenden Artikels mit dem Titel befassen Analyse der Transformatordynamik als Bewegung durch Einbettung von Raum. In diesem Artikel wird eine neue Perspektive auf die Funktionsweise von Transformatoren vorgestellt und betont, dass sie während des Inferenzprozesses einen Einbettungsraum lernen und sich darin zurechtfinden. Wir sprechen mit Sumeet Singh

Sumeet ist ein angesehener ML-Wissenschaftler bei Turnitin und der Autor des Artikels, über den wir heute sprechen werden. Er hat auch einen Forschungshintergrund.

📌

Unsere Gespräche mit Sumeet werden die folgenden Aspekte behandeln:
- Transformatordynamik verstehen
- Entmystifizierung der Einbettung von Raum in Transformer-Modellen
- Entschlüsselung der Mechanik der Token-Vorhersage in Transformatoren
- Einzigartige Abstraktionen von Transformatorschichten
- Das Geheimnis sich wiederholender Spielmarken
- Der irreführende Begriff des Lernens in Transformermodellen
- Das Zusammenspiel von kontextbezogenem Lernen, Few-Shot-Learning und Feinabstimmung in Transformers
- Umgang mit Allzweck-KI: Modellauswahl und praktische Einblicke

Sehen Sie sich die ganze Folge unten an:

Transformatordynamik verstehen: Ein tiefer Einblick in die Einbettung von Räumen

Im Bereich der KI und der Verarbeitung natürlicher Sprache ist das Transformer-Modell für die Textverarbeitung und -generierung an erster Stelle. Aber was verbirgt sich hinter dieser beeindruckenden Architektur? Die bahnbrechende Arbeit mit dem Titel „Analyzing Transformer Dynamics as Movement to Embedding Space“ enthüllt die Geheimnisse des inneren Funktionierens des Transformers.

‍

Analyzing Transformer Dynamics as Movement through Embedding Space

Transformer language models exhibit intelligent behaviors such asunderstanding natural language, recognizing patterns, acquiring knowledge,reasoning, planning, reflecting and using tools. This paper explores how theirunderlying mechanics give rise to intelligent behaviors. We adopt a systemsappr…

arXiv.org Sumeet S. Singh

Diese Forschung begann mit der Entwicklung eines automatischen Bewertungsmodells für kurze Antworten, das bei allen Probanden eine beeindruckende Genauigkeitsrate von 80% erreichte, dessen Mechanismen jedoch nicht klar waren. Um das Verhalten des Transformer zu verstehen, ging die Studie tief in die Tiefe. Zunächst wurden die Aufmerksamkeitszuweisung und die Gewichtsanalyse mit begrenzten Erkenntnissen untersucht, was die Forscher verwirrte.

1. Ein Paradigmenwechsel: Transformatoren im eingebetteten Raum betrachten

Der Wendepunkt dieser Forschung war die Erkenntnis, dass der Transformer als eine Reihe von Operatoren in einem eingebetteten Raum betrachtet werden kann. Dieser Raum ist wie eine dreidimensionale Landschaft die Richtschnur für die Vorhersagen des Transformers. Anstatt nach Aufmerksamkeitsmustern zu suchen, verlagerte sich die Perspektive und betrachtete den Transformer als einen Fluss, der durch Täler und Schluchten fließt und Pfaden mit der geringsten Entropie folgt.

2. Der feste Einbettungsraum

Sobald das Modell trainiert ist, bleibt der Einbettungsraum fest. Wenn es mit derselben Eingabesequenz konfrontiert wird, erzeugt es durchweg identische Einbettungen. Diese Einbettungen sind entscheidend für die Vorhersage des nächsten Tokens, da sie die Wahrscheinlichkeiten bestimmen, die jedem Token in der Sequenz zugewiesen sind.

3. Winkelnähe und Token-Vorhersage

Die Untersuchung ergab, dass sich der Einbettungsraum dank der Ebenennormalisierung zu einem begrenzten Raum organisierte, der einer Kugel ähnelte. Die Token-Vorhersagen des Modells hängen stark von der Winkelnähe zwischen dem aggregierten Einbettungsvektor und einzelnen Token-Einbettungen ab.

4. Decoding Walk gegen Encoding Walk

Zwei unterschiedliche Walks prägen das Verhalten des Transformers: der Decoding Walk, der die stochastische Dekodierung und das Token-Sampling regelt, und der Encoding-Walk, ein deterministischer Prozess, der weiche Cluster auf der Grundlage der Ähnlichkeit von Token-Vektoren bildet. Der Encoding-Walk ist ein Schlüsselfaktor bei der Transformation einer Folge von Token-Vektoren in einen einzigen aggregierten Einbettungsvektor.

5. Grad der Abstraktion in Transformatoren

Im Gegensatz zu herkömmlichen neuronalen Netzwerken, bei denen niedrigere Schichten auf niedrigeren Abstraktionsebenen arbeiten, behalten Transformers in allen Ebenen ein konsistentes Abstraktionsniveau bei. Dies zeigt sich in den gemeinsamen Einbettungsmatrizen für Eingabe und Ausgabe, was die Einzigartigkeit der Transformer-Architektur unterstreicht.

Entmystifizierung der Einbettung von Raum in Transformer-Modellen

Um das Konzept der Einbettung von Raum zu verstehen, müssen wir ihn zunächst als Vektorraum der Größe erkennen d_modell—die versteckte Größe des Transformers. Einfacher ausgedrückt, d_modell steht für die Dimensionalität dieses Raums. In GPT-Modellen kann diese Dimension beispielsweise erheblich sein und bis zu 12.000 erreichen.

Nun ist es wichtig zu verstehen, dass sich jeder Vektor, der aus jeder Ebene des Transformer-Modells hervorgeht, in diesem Einbettungsraum befindet. Dazu gehören nicht nur die Eingabe-Token-Vektoren, sondern auch alle Vektoren, die generiert werden, wenn Sie die Ebenen nach oben bewegen, bis ganz nach oben, was im Kontext-Vektor gipfelt.

Es muss unbedingt klargestellt werden, dass die Größe des Einbettungsbereichs nicht von der Anzahl der Parameter im Modell oder der Darstellung der obersten Ebene bestimmt wird. Stattdessen wird sie ausschließlich durch den Wert von definiert d_modell. Diese wichtige Unterscheidung stellt sicher, dass wir ein klares Verständnis davon haben, was den Einbettungsraum in Transformer-Modellen ausmacht.

Entschlüsselung der Mechanik der Token-Vorhersage in Transformatoren

Auf unserem Bestreben, das Innenleben von Transformers zu verstehen, kommen wir nun zu einem entscheidenden Punkt: der Mechanik der Token-Vorhersage. Sumeet beleuchtet mit seiner aufschlussreichen Perspektive die komplizierten Prozesse, die bestimmen, wie Transformers Textsequenzen generieren und intelligente Vorhersagen treffen.

1. Die Rolle des Leiters für Sprachmodellierung:

Im Kern ist dieser Sprachmodellierungskopf eine Matrix — eine Matrix mit Dimensionen d_modell von V, wo V steht für die Größe Ihrer Einbettungen, die je nach Tokenisierungsschema erheblich sein kann. Diese Matrix spielt eine zentrale Rolle bei der Zuordnung von Kontext-Vektoren zu Token-Wahrscheinlichkeiten.

2. Die Magie der Dot-Produkte:

Die Essenz der Token-Vorhersage liegt im Punktprodukt — einer Ähnlichkeitsmetrik, die die Entscheidungsfindung des Transformers bestimmt. Wenn der Kontext-Vektor, der von der letzten Ebene des Decoders abgeleitet wird, mit dem Sprachmodellierungskopf einer Matrixmultiplikation unterzogen wird, ergibt sich ein Vektor von Wahrscheinlichkeiten. Diese Wahrscheinlichkeitsverteilung bestimmt die Wahrscheinlichkeit jedes Tokens in der Sequenz.

3. Zuordnung von Sequenzen zur Nachbarschaft

Betrachten wir nun das grundlegende Konzept der Abbildung einer Sequenz in die Nachbarschaft eines Tokens. Das Ziel besteht darin, eine Sequenz von Tokens zu transformieren, und zwar W_1 zu w_T, in der Nähe von w_T+1. Dieser Prozess ist vergleichbar mit dem Navigieren auf einem Pfad, der menschlichen Beobachtern intelligent erscheint.

4. Die intelligente Maschine

Im Mittelpunkt dieser Transformation steht die Schaffung einer intelligenten Maschine — einer Maschine, die eine Sequenz aufnimmt und sie geschickt der Nachbarschaft des nächsten Spielsteins zuordnet. Die Intelligenz liegt in der Subtilität und Kohärenz des Pfades, da jeder Schritt auf dem Weg nach seinem Grad an Intelligenz bewertet wird.

5. Die Rolle von Positionskodierungen

Im Gegensatz zu Convolutional Neural Networks (CNNs) verwenden Transformers keine Kernel zur Mustererkennung. Es gibt jedoch ein faszinierendes Element, das als relative Positionskodierungen innerhalb der Aufmerksamkeitsebenen bekannt ist. Diese statischen Kodierungen beeinflussen die Aggregationsgewichte und helfen, Selbstverzerrungen entgegenzuwirken.

6. Negative Selbstvoreingenommenheit

Es ist entscheidend, Selbstvoreingenommenheit zu verstehen. Ohne Positionskodierungen würde ein Kontext-Vektor dazu neigen, Vektoren anzuziehen, die ihm selbst ähnlich sind, was zu sich wiederholenden Vorhersagen führen würde. Positionskodierungen führen zu einer negativen Selbstverzerrung, wodurch die Affinität des Kontextvektors zu sich selbst unterdrückt und die Vielfalt der Vorhersagen gefördert wird.

7. Kernel positionieren

Wenn wir genauer hinschauen, stellen wir fest, dass Positionskerne, wie in dem Artikel dargelegt, dazu dienen, die Disposition der Selbstvoreingenommenheit zu formen. Sie verzerren die Aggregationsgewichte und beeinflussen so, welche Positionen bevorzugt werden und welche nicht.

Quelle: https://towardsdatascience.com/transformers-in-depth-part-1-introduction-to-transformer-models-in-5-minutes-ad25da6d3cca?gi=e0dcc7a16b10

Hier ist ein wirklich großartiger Blog, der Transformer Architecture Schritt für Schritt erklärt:

‍

The Illustrated Transformer

Discussions:Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments) Translations: Arabic, Chinese (Simplified) 1, Chinese (Simplified) 2, French 1, French 2, Italian, Japanese, Korean, Persian, Russian, Spanish 1, Spanish 2, Vietnamese Watch: MIT’s Deep Learning Sta…

GitHub

‍

Einzigartige Abstraktionen von Transformatorschichten

Wenn wir tiefer in die faszinierende Welt der Transformer-Modelle eintauchen, erhalten wir einen überzeugenden Einblick — einen, der Transformers von herkömmlichen neuronalen Netzwerken wie CNNs unterscheidet. Die Frage, die sich stellt, ist, warum Transformatoren anders funktionieren und wie wir das Konzept der schichtweisen Einbettung verstehen können?

Unterschied zwischen Transformern und CNNs:

Transformatoren funktionieren anders als CNNs. Bei CNNs erfassen niedrigere Ebenen in der Regel einfachere Merkmale wie Kanten, während höhere Ebenen komplexere Repräsentationen erzeugen.
Im Gegensatz dazu arbeiten Transformers auf allen Ebenen im gleichen abstrakten Raum, ohne eine klare Abstraktionshierarchie wie bei CNNs.

Den Reststrom verstehen:

Transformatoren behalten ihre Einheitlichkeit in ihrem abstrakten Raum bei, was teilweise auf das Vorhandensein eines Reststroms zurückzuführen ist.
In einer Transformer-Ebene (z. B. im Encoder) gibt es eine Eingabe, gefolgt von einer Aufmerksamkeitsschicht. Ein Restlink fügt die Ausgabe der Aufmerksamkeitsschicht wieder zur Eingabe hinzu.
In ähnlicher Weise werden in der Feed-Forward-Ebene Transformationen angewendet, und eine weitere Tastenkombination fügt die Ausgabe wieder zur Eingabe hinzu.
Dieses konsistente Hinzufügen von Eingabe und Ausgabe auf jeder Ebene stellt sicher, dass die Dimensionen dieselbe Bedeutung behalten, wodurch ein einheitlicher abstrakter Raum entsteht.

Das schichtweise mentale Modell:

Um dieses Phänomen besser zu verstehen, wird das Konzept der „schichtweisen Einbettung“ eingeführt.
In CNNs gibt es eine hierarchische Konstruktion von Abstraktionsebenen. In Transformers trägt jedoch jede Ebene zum gleichen abstrakten Raum bei.
Transformatoren stellen das traditionelle Verständnis des Verhaltens neuronaler Netzwerke in Frage, indem sie ein Netzwerk von Schichten darstellen, die einheitlicher zusammenarbeiten.

Das Geheimnis sich wiederholender Tokens: Kleine und große Transformatormodelle

In der Welt der Transformers ist eine faszinierende Beobachtung die Tendenz kleinerer Modelle, Tokens zu wiederholen, während größere Modelle eine unterschiedlichere Leistung liefern. Sumeet untersucht dieses Phänomen, obwohl es an einer klaren theoretischen Erklärung mangelt.

Kleinere Modelle: Kleinere Transformatoren weisen häufig symbolische Wiederholungen im generierten Text auf, was einen faszinierenden Zusammenhang zwischen Modellgröße und Ausgabequalität hervorhebt.
Reicherer Einbettungsraum: Ein Schlüsselfaktor, der zum Unterschied zwischen kleinen und großen Modellen beiträgt, ist der Reichtum des Einbauraums. Größere Modelle verfügen über einen umfangreicheren, nuancierteren Merkmalsraum für eine komplizierte Informationsverarbeitung.
Weitere Parameter für die granulare Verarbeitung: Größere Modelle haben mehr Ebenen und Parameter, insbesondere in Feedforward-Ebenen. Dies verbessert ihre Fähigkeit, Informationen auf raffinierte Weise zu verarbeiten.
Dekodierungsstrategien: Token-Wiederholungen können durch die Wahl der richtigen Dekodierungsstrategie abgemildert werden. Greedy Decoding und Beam Search sind anfälliger für Wiederholungen, wohingegen Techniken wie Top-K- oder Top-P-Sampling zu unterschiedlichen Ergebnissen führen.
Wiederholte Sätze: Selbst in größeren Modellen kommt es gelegentlich zu Satzwiederholungen, was die Komplexität der Textgenerierung in Transformers verdeutlicht.

Der irreführende Begriff des Lernens in Transformer-Modellen

Im Bereich der Transformer-Modelle stellt sich eine entscheidende Frage: Findet in diesen Modellen echtes kontextbezogenes Lernen statt, oder wird es treffender als ein geschickt umrissenes Konzept beschrieben? Das Forschungspapier stellt die herkömmlichen Vorstellungen vom Lernen innerhalb von Transformers in Frage und enthüllt die zugrunde liegenden Mechanismen.

Traditionelles Lernen beinhaltet die Anpassung von Gewichten und Parametern, um die Anpassung und Reaktion eines Modells auf neue Daten zu erleichtern. Dieses konventionelle Verständnis entspricht jedoch nicht den Transformer-Modellen. Das Kernproblem liegt in ihrem festen Einbettungsbereich und ihren vordefinierten Pfaden.

Im Wesentlichen befassen sich diese Modelle nicht mit Lernen im traditionellen Sinne. Der Einbettungsraum bleibt statisch, und die Pfade sind zwar unterschiedlich, aber vorbestimmt. Bei der Inferenz werden die Modellgewichte nicht angepasst oder modifiziert. Stattdessen navigieren diese Modelle durch eine Landschaft von Möglichkeiten, wobei jedes fehlende Element als einzigartiger Ausgangspunkt dient.

Die Forschung befasst sich auch mit der laufenden Debatte über die Intelligenz und das Denkvermögen dieser Modelle. Einige argumentieren, dass ihnen die Mechanismen für echtes Denken fehlen und sie sich stattdessen auf Vorhersagen verlassen, die auf auswendig gelernten Daten basieren, anstatt auf echtem Verständnis.

Darüber hinaus befasst sich das Papier mit dem Entrauschungsprozess, einer grundlegenden Operation, die diesen Modellen gemeinsam ist. Wenn Tokens zufällig geleert werden, bleibt das Kontext-Web unabhängig von der Position des leeren Tokens intakt. Das Modell konsolidiert diesen dualen Kontext geschickt zu einem einzigen Kontext-Vektor und gewährleistet so einen reibungslosen Betrieb, unabhängig von der Position der fehlenden Elemente.

Es findet kein Lernen statt. Ich meine, weil das Einbetten von Leerzeichen festgelegt ist. Alle Pfade sind festgelegt. Alles was du tust, ist zu pflücken, zu wählen. Also, was lernst du hier? Deine Gewichte ändern sich nicht. Nichts! - Sumeet Singh

Das Zusammenspiel von kontextbezogenem Lernen, Few-Shot-Learning und Feinabstimmung in Transformers

In dem beschriebenen Paradigma, in dem Transformatoren vorgegebene Pfade innerhalb eines festen Einbettungsraums beschreiten, nehmen die Beziehungen zwischen „In-Context Learning“, „Few-Shot Learning“ und „Fine Tuning“ unterschiedliche Perspektiven ein.

1. Kontext-Lernen und Few-Shot-Learning

Innerhalb dieses Paradigmas laufen In-Context Learning und Few-Shot Learning zu einem gemeinsamen Konzept zusammen. Ob es sich um einen Gesprächsverlauf oder eine Reihe von Beispielen handelt, beide laufen auf kontextuelle Sequenzen hinaus. Wenn ein Transformer-Modell auf einen neuartigen Kontext trifft, wählt es auf der Grundlage dieses Kontextes einen Pfad durch den Einbettungsraum aus. Dieser vom Kontext diktierte Pfadauswahlprozess definiert die Ausgabe des Modells. Daher geht es sowohl beim In-Context Learning als auch beim Few-Shot Learning darum, dass sich das Modell an einen bestimmten Kontext anpasst und kontextuell relevante Antworten oder Ergebnisse generiert.

2. Feinabstimmung als Pfadmodifikation

Die überwachte Feinabstimmung stellt im Transformer-Kontext einen Prozess dar, bei dem die vordefinierten Pfade innerhalb des Einbettungsbereichs geändert werden. Bei der Feinabstimmung werden zusätzliche Daten und spezifische Ziele eingeführt, wodurch die interne Geografie des Modells neu gestaltet wird. Während der grundlegende Mechanismus — die Pfadauswahl — unverändert bleibt, wird die Landschaft der verfügbaren Pfade angepasst, um sie an die gewünschte Feinabstimmungsaufgabe anzupassen.

3. RLHF und Signalausbreitung

Im Fall von Reinforcement Learning from Human Feedback (RLHF) liegt der Hauptunterschied darin, wie sich das Verstärkungssignal ausbreitet. Während bei der überwachten Feinabstimmung ein Kreuzentropieverlust auf Token-Ebene zum Einsatz kommt, nutzt RLHF Signale aus einem Bewertungsmodell. Das Besondere an RLHF ist, dass sich das Verstärkungssignal über die gesamte Sequenz erstreckt und die Pfade des Modells umfassend beeinflusst. Sowohl RLHF als auch die überwachte Feinabstimmung verfolgen jedoch das gemeinsame Ziel, die Abbildung der Wellen innerhalb des Einbettungsraums neu zu formen, um die Leistung für bestimmte Aufgaben zu optimieren.

📌

Die Lücke überbrücken: Transformatormodelle für alle Modalitäten
Transformatormodelle weisen eine bemerkenswerte Anpassungsfähigkeit an alle Modalitäten auf. Diese Modelle gehen nahtlos von Text zu Bildern, Sprache und diversen Datensätzen über.

Traditionell haben Sequenzen einen linearen Kontextfluss, aber wenn sie zu Bildern wechseln, wird das Konzept einer linearen Sequenz faszinierend. Modelle wie Bard lösen dies, indem sie Rauschunterdrückung verwenden. Leere Token behalten unabhängig von ihrer Position den Kontext bei. Ob am Anfang, in der Mitte oder am Ende, ein Kontext-Web entsteht, und das Modell aggregiert es zu einem einzigen Kontext-Vektor, der sich nahtlos anpasst.

Umgang mit Allzweck-KI: Modellauswahl und praktische Einblicke

Umstellung auf Allzweck-KI: Behandeln Sie Transformers als vielseitige Intelligenzmaschinen, die die Komplexität von Modellen vereinfachen.
Modellvariationen sind weniger wichtig: Ein tiefes Verständnis reduziert Modellunterschiede und betont die Leistung in der realen Welt.
Praktische Modellauswahl: Wählen Sie Modelle, die auf der Bewertung realer Aufgaben basieren, und legen Sie Wert auf Effizienz.
Nutzung von Prompt Engineering: Passen Sie die Eingaben an, um eine effektive Anleitung ohne Modellkomplexitäten zu ermöglichen.
Kosteneffiziente Feinabstimmung: Kleinere Modelle für kostengünstige Leistung bei hohem Verkehrsaufkommen.
Kosten und Leistung in Einklang bringen: Entscheidende Faktoren für die effiziente Bereitstellung fein abgestimmter Modelle in Szenarien mit hohem Verkehrsaufkommen.

Lesen Sie unsere vorherigen Blogs in der True ML Talks-Reihe:

‍

True ML Talks #17 - ML Platforms @ Slack, LLMs and SlackGPT

In this blog, we dive deep into Slack’s Recommend API. Understand their ML architecture, and the LLM use cases in Slack. We go into SlackGPT.

TrueFoundry Blog TrueFoundry

‍

Schaue weiter TrueML YouTube-Serie und das TrueML lesen Blog-Serie.

Wahre Gießerei ist ein ML Deployment PaaS über Kubernetes, um die Workflows von Entwicklern zu beschleunigen und ihnen gleichzeitig volle Flexibilität beim Testen und Bereitstellen von Modellen zu bieten und gleichzeitig die volle Sicherheit und Kontrolle für das Infra-Team zu gewährleisten. Über unsere Plattform ermöglichen wir Teams für maschinelles Lernen bereitstellen und überwachen Modelle innerhalb von 15 Minuten mit 100% iger Zuverlässigkeit, Skalierbarkeit und der Möglichkeit, innerhalb von Sekunden rückgängig zu machen. So können sie Kosten sparen und Modelle schneller für die Produktion freigeben, wodurch ein echter Geschäftswert erzielt wird.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo