True ML Talks #20 - Transformers、Embeddings、LLM - TurnitinのMLサイエンティスト

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
True ML Talksの新しいエピソードをお届けします。今回は、以下の興味深い論文の主要なアイデアを深く掘り下げていきます。 埋め込み空間における動きとしてのTransformerのダイナミクス分析。 この論文は、Transformerがどのように機能するかについて新しい視点を提供し、埋め込み空間を学習し、推論プロセス中にそれをナビゲートすることに重点を置いています。今回は、 スミート・シン氏
スミート氏はTurnitinの著名なMLサイエンティストであり、本日議論する論文の著者です。また、研究者としての経歴もお持ちです。
📌
スミート氏との対談では、以下の点について触れます。
- Transformerのダイナミクスを理解する
- Transformerモデルにおける埋め込み空間の謎を解き明かす
- Transformerにおけるトークン予測のメカニズムを解読する
- Transformer層の独自の抽象化
- 反復トークンの謎
- Transformerモデルにおける学習に関する誤解を招く概念
- Transformerにおけるインコンテキスト学習、フューショット学習、ファインチューニングの相互作用
- 汎用AIの活用:モデルの選択と実践的な洞察
全エピソードはこちらからご覧ください。
Transformerのダイナミクスを理解する:埋め込み空間への深い探求
AIと自然言語処理の分野において、Transformerモデルはテキスト処理と生成において圧倒的な存在感を放っています。しかし、この素晴らしいアーキテクチャの根底には何があるのでしょうか?画期的な論文「Analyzing Transformer Dynamics as Movement to Embedding Space」は、Transformerの内部動作の謎を解き明かします。
この研究は、短い回答の自動採点モデルを開発する際に始まりました。このモデルは各科目で80%という驚異的な正答率を達成しましたが、そのメカニズムは不明瞭でした。Transformerの動作を理解するため、研究は深く掘り下げられ、当初はアテンションの帰属と重み分析が探求されましたが、十分な洞察が得られず、研究者たちは困惑しました。
1. パラダイムシフト:埋め込み空間におけるTransformerの捉え方
この研究の転機は、Transformerを埋め込み空間における一連の演算子として捉えられるという認識でした。この空間は、三次元の風景のように、Transformerの予測を導きます。アテンションパターンを探すのではなく、Transformerを谷や峡谷を流れる川のように、最小エントロピーの経路をたどるものとして捉える視点へと変化しました。
2. 固定された埋め込み空間
モデルが一度学習されると、埋め込み空間は固定されたままになります。同じ入力シーケンスが与えられた場合、常に同一の埋め込みが生成されます。これらの埋め込みは、シーケンス内の各トークンに割り当てられる確率を決定するため、次のトークンを予測する上で極めて重要です。
3. 角度の近接性とトークン予測
この研究により、層正規化のおかげで、埋め込み空間が球状の有界空間に組織化されていることが明らかになりました。モデルのトークン予測は、集約された埋め込みベクトルと個々のトークン埋め込みとの間の角度の近接性に大きく依存しています。
4. デコーディングウォークとエンコーディングウォーク
Transformerの動作を形成する2種類の異なるウォークがあります。一つは確率的デコーディングとトークンサンプリングを制御するデコーディングウォーク、もう一つはトークンベクトルの類似性に基づいてソフトクラスターを形成する決定論的なプロセスであるエンコーディングウォークです。エンコーディングウォークは、トークンベクトルのシーケンスを単一の集約された埋め込みベクトルに変換する上で重要な要素となります。
5. Transformerにおける抽象度
下位層がより低い抽象度で機能する従来のニューラルネットワークとは異なり、Transformerは全ての層で一貫した抽象度を維持します。これは、共有された入力および出力埋め込み行列に明らかであり、Transformerアーキテクチャのユニークな性質を際立たせています。
Transformerモデルにおける埋め込み空間の解明
埋め込み空間の概念を理解するには、まずそれがサイズ d_model—Transformerの隠れ層のサイズ—であると認識する必要があります。簡単に言えば、 d_model はこの空間の次元を表します。例えば、GPTモデルでは、この次元は最大12,000に達するなど、かなり大きくなることがあります。
ここで理解すべき重要な点は、Transformerモデルの各層から生成されるすべてのベクトルが、この埋め込み空間内に存在するという事実です。これには、入力トークンベクトルだけでなく、層を上がっていくにつれて生成されるすべてのベクトル、そして最終的にコンテキストベクトルに至るまで、すべてが含まれます。
埋め込み空間のサイズは、モデルのパラメータ数や最上位層の表現によって決まるものではないことを明確にしておく必要があります。むしろ、それはもっぱら d_modelによって定義されます。この重要な区別により、Transformerモデルにおける埋め込み空間が何で構成されているかを明確に理解することができます。
Transformerにおけるトークン予測のメカニズムを解明する
Transformerの内部動作を理解する探求の中で、私たちは今、トークン予測のメカニズムという極めて重要な局面に来ています。Sumeetは、その洞察に満ちた視点から、Transformerがどのようにテキストのシーケンスを生成し、インテリジェントな予測を行うかを決定する複雑なプロセスに光を当てます。
1. 言語モデリングヘッドの役割:
その核となるのは、この言語モデリングヘッドが持つ行列です。その次元は d_model × Vで、ここで V は埋め込みのサイズを表し、これはトークン化スキームによってかなり大きくなる可能性があります。この行列は、コンテキストベクトルをトークン確率にマッピングする上で極めて重要な役割を果たします。
2. ドット積の魔法:
トークン予測の本質は、Transformerの意思決定を司る類似度指標であるドット積にあります。デコーダの最終層から導出されたコンテキストベクトルが、言語モデリングヘッドとの行列乗算を受けると、確率のベクトルが生成されます。この確率分布が、シーケンス内の各トークンの尤度を決定します。
3. シーケンスを近傍にマッピングする
さて、シーケンスをトークンの近傍にマッピングするという深遠な概念について考えてみましょう。その目的は、トークンのシーケンスを W_1 から W_t、の近傍へ W_t+1。このプロセスは、人間には賢く見える経路をたどることに似ています。
4. 知的な機械
この変革の中心にあるのは、知的な機械の創造です。それは、シーケンスを受け取り、次のトークンの近傍へ巧みにマッピングする機械です。その知性は、経路の繊細さと一貫性にあります。なぜなら、ウォークの各ステップがその知性の度合いについて評価されるからです。
5. 位置エンコーディングの役割
畳み込みニューラルネットワーク(CNN)とは異なり、Transformerはパターン認識カーネルを使用しません。しかし、アテンション層内には、相対位置エンコーディングとして知られる興味深い要素が存在します。これらの静的なエンコーディングは、集約重みに影響を与え、自己バイアスに対抗するのに役立ちます。
6. 負の自己バイアス
自己バイアスを理解することは非常に重要です。位置エンコーディングがない場合、コンテキストベクトルは自分自身に似たベクトルを引きつけがちになり、結果として反復的な予測が生じます。位置エンコーディングは負の自己バイアスを導入し、コンテキストベクトルが自分自身に引きつけられる傾向を抑制し、予測の多様性を促進します。
7. 位置カーネル
さらに深く掘り下げると、論文で明らかにされているように、位置カーネルが自己バイアスの傾向を形成する役割を果たすことがわかります。これらは集約重みを歪め、どの位置が優先され、どの位置がそうでないかに影響を与えます。

Transformerアーキテクチャを段階的に解説している、非常に素晴らしいブログはこちらです。
Transformer層の独自の抽象化
Transformerモデルの魅力的な世界を深く掘り下げるにつれて、説得力のある洞察がもたらされます。それは、TransformerをCNNのような従来のニューラルネットワークと区別するものです。ここでの疑問は、なぜTransformerが異なる動作をするのか、そして層ごとの埋め込みの概念をどのように理解できるのか、ということです。
TransformerとCNNの区別:
- TransformerはCNNとは異なる動作をします。CNNでは、下位層が通常、エッジのような単純な特徴を捉えるのに対し、上位層はより複雑な表現を構築します。
- 対照的に、Transformerは、CNNのような明確な抽象化の階層を持たず、すべての層で同じ抽象空間内で機能します。
残差ストリームの理解:
- Transformerが抽象空間の一様性を維持するのは、残差ストリームの存在が一因となっています。
- Transformer層(例えばエンコーダ内)では、入力に続いてアテンション層があります。残差接続は、アテンション層の出力を入力に戻します。
- 同様に、フィードフォワード層では変換が適用され、別のショートカットが出力を入力に戻します。
- 各層での入力と出力の一貫した加算は、次元が同じ意味を維持することを保証し、統一された抽象空間を作り出します。
層ごとのメンタルモデル:
- この現象を理解するために、「層ごとの埋め込み」という概念が導入されます。
- CNNでは抽象化層の階層的な構築がありますが、Transformerでは各層が同じ抽象空間に貢献します。
- Transformerは、より統一された方法で連携する層のネットワークを提示することで、ニューラルネットワークの動作に関する従来の理解に異議を唱えます。
反復トークンの謎:小規模Transformerモデル vs 大規模Transformerモデル
Transformerの世界では、小規模モデルがトークンを繰り返す傾向がある一方、大規模モデルはより多様な出力を生成するという興味深い観察があります。スミートはこの現象を探求していますが、明確な理論的説明はまだありません。
- 小規模モデル: 小規模Transformerは、生成されたテキストでトークンの繰り返しを示すことがよくあり、モデルサイズと出力品質の間の興味深い関連性を示しています。
- より豊かな埋め込み空間: 小規模モデルと大規模モデルの違いに寄与する重要な要因は、埋め込み空間の豊かさです。大規模モデルは、複雑な情報処理のために、より広範でニュアンスに富んだ特徴空間を持ちます。
- より詳細な処理のためのより多くのパラメータ: より大規模なモデルは、特にフィードフォワード層において、より多くの層とパラメータを持っています。これにより、より高度な方法で情報を処理する能力が向上します。
- デコーディング戦略: 適切なデコーディング戦略を選択することで、トークンの繰り返しを軽減できます。グリーディーデコーディングやビームサーチは繰り返しが発生しやすい傾向がありますが、Top-KサンプリングやTop-Pサンプリングのような手法は多様な結果をもたらします。
- 文の繰り返し: より大規模なモデルでも、時折、文の繰り返しが発生し、Transformerにおけるテキスト生成の複雑さを示しています。
Transformerモデルにおける誤解を招く「学習」の概念
Transformerモデルの領域では、重要な疑問が浮上します。これらのモデルで真のin-context学習が行われているのか、それとも巧妙に組み立てられた概念と表現する方が適切なのでしょうか?この研究論文は、Transformerにおける従来の学習概念に異議を唱え、その根底にあるメカニズムを明らかにしています。
従来の学習は、モデルが新しいデータに適応し、反応できるように重みとパラメータを調整することを含みます。しかし、この従来の理解はTransformerモデルには当てはまりません。その核心的な問題は、固定された埋め込み空間と事前に定義されたパスにあります。
要するに、これらのモデルは従来の意味での学習を行いません。埋め込み空間は静的であり、パスは多様であるものの、事前に決定されています。推論中、モデルの重みの適応や変更は行われません。その代わりに、これらのモデルは可能性のランドスケープを航海し、欠落した各要素がユニークな出発点として機能します。
この研究はまた、これらのモデルの知能と推論能力に関する進行中の議論にも言及しています。一部の研究者は、これらのモデルには真の推論のためのメカニズムが欠けており、真の理解ではなく記憶されたデータに基づく予測に依存していると主張しています。
さらに、この論文は、これらのモデルに共通する基本的な操作であるノイズ除去プロセスについても深く掘り下げています。トークンがランダムに空白にされても、空白トークンの位置に関わらず、コンテキストウェブは損なわれません。モデルは、この二重のコンテキストを単一のコンテキストベクトルに巧みに統合し、欠落した要素の位置に関わらず、シームレスな操作を保証します。
学習は行われていません。つまり、埋め込み空間は固定されているからです。すべてのパスは固定されています。あなたがしているのは、選ぶことだけです。では、どこに学習があるのでしょうか?重みは変化していません。何も! - スミート・シン
TransformerにおけるIn-Context Learning、Few-Shot Learning、ファインチューニングの相互作用
Transformerが固定された埋め込み空間内で事前に決定されたパスを辿るという、述べられたパラダイムにおいて、「In-Context Learning」、「Few-Shot Learning」、および「Fine Tuning」の関係は、異なる視点を持つことになります。
1. In-Context LearningとFew-Shot Learning
このパラダイムでは、In-Context LearningとFew-Shot Learningは共通の概念に収束します。会話履歴であろうと一連の例であろうと、どちらも文脈的なシーケンスに帰着します。Transformerモデルが新しい文脈に遭遇すると、その文脈に基づいて埋め込み空間内のパスを選択します。文脈によって決定されるこのパス選択プロセスが、モデルの出力を定義します。したがって、In-Context LearningとFew-Shot Learningの両方において、モデルは与えられた文脈に適応し、文脈に関連する応答や出力を生成します。
2. パス変更としてのファインチューニング
Transformerの文脈における教師ありファインチューニングは、埋め込み空間内の事前に定義されたパスを変更するプロセスを表します。ファインチューニング中には、追加のデータと特定の目的が導入され、モデルの内部構造が再形成されます。基本的なメカニズムであるパス選択は一貫していますが、利用可能なパスのランドスケープは、望ましいファインチューニングタスクに合わせるために調整されます。
3. RLHFと信号伝播
人間のフィードバックからの強化学習(RLHF)の場合、その主な違いは、強化学習シグナルがどのように伝播するかという点にあります。教師ありファインチューニングがトークンレベルの交差エントロピー損失を用いるのに対し、RLHFは評価モデルからのシグナルを活用します。RLHFが特徴的なのは、強化学習シグナルがシーケンス全体にわたり、モデルの経路に包括的に影響を与えることです。しかし、RLHFと教師ありファインチューニングはどちらも、特定のタスクにおけるパフォーマンスを最適化するため、埋め込み空間内の波状のマップを再形成するという共通の目的を持っています。
📌
ギャップを埋める:モダリティを横断するTransformerモデル
Transformerモデルは、モダリティを横断する驚くべき適応性を持っています。これらのモデルは、テキストから画像、音声、そして多様なデータセットへとシームレスに移行します。
従来、シーケンスは文脈の線形な流れを持っていましたが、画像を扱う場合、線形シーケンスという概念は興味深いものとなります。Bardのようなモデルは、ノイズ除去を用いることでこれを処理します。空白のトークンは、その位置に関わらず文脈を保持します。開始、中間、終了のいずれであっても、文脈のウェブが形成され、モデルはそれを単一の文脈ベクトルに集約し、シームレスに適応するのです。
汎用AIをナビゲートする:モデルの選択と実践的な洞察
- 汎用AIへの移行: Transformerを多用途なインテリジェンスマシンとして扱い、モデルの複雑さを簡素化する。
- モデルのバリエーションは重要性が低い: 深い理解はモデル間の区別を減らし、実世界でのパフォーマンスを重視する。
- 実践的なモデル選択: 実世界でのタスク評価に基づいてモデルを選択し、効率性を優先する。
- プロンプトエンジニアリングの活用: モデルの複雑さに囚われず、効果的なガイダンスのために入力を調整する。
- 費用対効果の高いファインチューニング: 費用対効果の高い高トラフィックパフォーマンスには、より小さなモデルを。
- コストとパフォーマンスのバランス: 高トラフィックのシナリオでファインチューニングされたモデルを効率的に提供するための重要な要素。
True ML Talksシリーズのこれまでのブログ記事を読む:
TrueMLの YouTubeシリーズ を引き続きご覧いただき、TrueMLの ブログシリーズもお読みください。
TrueFoundry は、Kubernetes上で動作するMLデプロイメントPaaSです。開発者のワークフローを加速させ、モデルのテストとデプロイにおいて完全な柔軟性を提供するとともに、インフラチームには完全なセキュリティと制御を保証します。当社のプラットフォームを通じて、機械学習チームは モデルをデプロイおよび監視 し、15分で100%の信頼性、スケーラビリティ、そして数秒でのロールバック機能を備えています。これにより、コストを削減し、モデルをより迅速に本番環境にリリースできるようになり、真のビジネス価値の実現を可能にします。
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI













.webp)




.png)








.webp)
.webp)








