True ML Talks #20 - Transformateurs, intégrations et LLM - ML Scientist @ Turnitin

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Nous sommes de retour avec un autre épisode de True ML Talks. Dans ce document, nous approfondirons les idées principales du fascinant article intitulé Analyse de la dynamique des transformateurs en tant que mouvement dans l'espace d'intégration. Cet article présente une nouvelle perspective sur le fonctionnement des transformateurs, en mettant l'accent sur le fait qu'ils apprennent un espace d'intégration et y naviguent pendant le processus d'inférence. Nous discutons avec Sumeet Singh
Sumeet est un scientifique émérite du ML chez Turnitin et l'auteur de l'article dont nous allons discuter aujourd'hui. Il est également issu de la recherche.
📌
Nos conversations avec Sumeet porteront sur les aspects suivants :
- Comprendre la dynamique des transformateurs
- Démystifier l'espace d'intégration dans les modèles de transformateurs
- Déchiffrer les mécanismes de prédiction des jetons dans Transformers
- Abstractions uniques de couches de transformateurs
- Le mystère des jetons répétitifs
- La notion trompeuse d'apprentissage dans les modèles de transformateurs
- L'interaction entre l'apprentissage en contexte, l'apprentissage en quelques coups et la mise au point dans Transformers
- Naviguer dans l'IA à usage général : choix de modèles et informations pratiques
Regardez l'épisode complet ci-dessous :
Comprendre la dynamique des transformateurs : une plongée approfondie dans l'espace d'intégration
Dans le domaine de l'IA et du traitement du langage naturel, le modèle Transformer règne en maître en matière de traitement et de génération de texte. Mais que se cache-t-il derrière cette architecture impressionnante ? L'article novateur, « Analyzing Transformer Dynamics as Movement to Embedding Space », dévoile les mystères du fonctionnement interne du Transformer.
Cette recherche a débuté lors de la mise au point d'un modèle de notation automatique pour les réponses courtes, atteignant un taux de précision impressionnant de 80 % sur tous les sujets, mais manquant de clarté quant à ses mécanismes. Pour comprendre le comportement du Transformer, l'étude s'est approfondie, explorant d'abord l'attribution de l'attention et l'analyse du poids avec des informations limitées, laissant les chercheurs perplexes.
1. Un changement de paradigme : voir les transformateurs dans l'espace intégré
Le tournant de cette recherche a été la prise de conscience que le Transformer pouvait être considéré comme une série d'opérateurs dans un espace intégré. Cet espace, tel un paysage tridimensionnel, oriente les prévisions du Transformer. Au lieu de rechercher des modèles d'attention, la perspective a changé pour considérer le Transformer comme une rivière traversant des vallées et des canyons, suivant des chemins de moindre entropie.
2. L'espace d'intégration fixe
Une fois le modèle entraîné, l'espace d'intégration reste fixe. Lorsqu'il est présenté avec la même séquence d'entrée, il produit systématiquement des intégrations identiques. Ces intégrations sont cruciales pour prédire le prochain jeton, car elles déterminent les probabilités attribuées à chaque jeton de la séquence.
3. Proximité angulaire et prédiction des jetons
La recherche a révélé que l'espace d'intégration s'organisait en un espace délimité ressemblant à une boule, grâce à la normalisation des couches. Les prévisions de jetons du modèle reposent largement sur la proximité angulaire entre le vecteur d'intégration agrégé et les intégrations de jetons individuels.
4. Decoding Walk et Encoding Walk
Deux étapes distinctes façonnent le comportement du Transformateur : la marche de décodage, qui régit le décodage stochastique et l'échantillonnage de jetons, et la marche de codage, un processus déterministe qui forme des clusters souples en fonction de la similitude des vecteurs de jetons. La marche de codage est un facteur clé pour transformer une séquence de vecteurs de jetons en un seul vecteur d'intégration agrégé.
5. Niveau d'abstraction dans Transformers
Contrairement aux réseaux neuronaux classiques où les couches inférieures fonctionnent à des niveaux d'abstraction inférieurs, les Transformers maintiennent un niveau d'abstraction constant sur l'ensemble de leurs couches. Cela est évident dans les matrices d'intégration d'entrées et de sorties partagées, qui mettent en évidence la nature unique de l'architecture Transformer.
Démystifier l'intégration de l'espace dans les modèles de transformateurs
Pour saisir le concept d'espace intégré, il faut d'abord le reconnaître comme l'espace vectoriel de taille modèle_d—la taille cachée du Transformer. En termes plus simples, modèle_d représente la dimensionnalité de cet espace. Par exemple, dans les modèles GPT, cette dimension peut être importante, pouvant atteindre 12 000.
Maintenant, il est essentiel de comprendre que chaque vecteur émergeant de chaque couche du modèle Transformer se trouve dans cet espace d'intégration. Cela inclut non seulement les vecteurs de jetons d'entrée, mais également tous les vecteurs générés lorsque vous vous déplacez vers le haut des couches, jusqu'en haut, aboutissant au vecteur de contexte.
Il est essentiel de préciser que la taille de l'espace d'intégration n'est pas déterminée par le nombre de paramètres du modèle ou par la représentation de la couche supérieure. Au lieu de cela, il est défini exclusivement par la valeur de modèle_d. Cette distinction clé nous permet de bien comprendre ce qui constitue l'espace d'intégration dans les modèles Transformer.
Déchiffrer les mécanismes de prédiction des jetons dans Transformers
Dans notre quête pour comprendre le fonctionnement interne de Transformers, nous arrivons à un moment crucial : la mécanique de la prédiction des jetons. Avec son point de vue perspicace, Sumeet met en lumière les processus complexes qui dictent la façon dont les Transformers génèrent des séquences de texte et font des prédictions intelligentes.
1. Le rôle du responsable de la modélisation linguistique :
À la base, cette tête de modélisation du langage est une matrice, une matrice avec des dimensions modèle_d par V, où V représente la taille de vos intégrations, qui peut être importante en fonction de votre schéma de tokenisation. Cette matrice joue un rôle central dans la mise en correspondance des vecteurs de contexte avec des probabilités symboliques.
2. Les produits Magic of Dot :
L'essence de la prédiction des jetons réside dans le produit scalaire, une métrique de similarité qui régit la prise de décision du Transformer. Lorsque le vecteur de contexte, dérivé de la couche finale du décodeur, subit une multiplication matricielle avec la tête de modélisation du langage, il en résulte un vecteur de probabilités. Cette distribution de probabilité détermine la probabilité de chaque jeton de la séquence.
3. Cartographie des séquences dans le quartier
Examinons maintenant le concept profond qui consiste à mapper une séquence au voisinage d'un jeton. L'objectif est de transformer une séquence de jetons, de W_1 pour W_t, dans les environs de W_t+1. Ce processus s'apparente à suivre un chemin qui semble intelligent aux yeux des observateurs humains.
4. La machine intelligente
Au cœur de cette transformation se trouve la création d'une machine intelligente, une machine qui prend une séquence et la mappe habilement au voisinage du jeton suivant. L'intelligence réside dans la subtilité et la cohérence du parcours, chaque étape de la marche étant évaluée en fonction de son degré d'intelligence.
5. Le rôle des codages de position
Contrairement aux réseaux neuronaux convolutifs (CNN), les transformateurs n'utilisent pas de noyaux de reconnaissance de formes. Cependant, il existe un élément fascinant connu sous le nom de codage de position relative au sein des couches d'attention. Ces codages statiques influencent les poids d'agrégation et aident à contrer les biais personnels.
6. Autopartialité négative
Il est essentiel de comprendre les préjugés personnels. Sans codages de position, un vecteur de contexte aurait tendance à attirer des vecteurs similaires à lui-même, ce qui entraînerait des prédictions répétitives. Les codages de position introduisent un biais d'auto-biais négatif, supprimant l'affinité du vecteur de contexte pour lui-même et favorisant la diversité des prédictions.
7. Positionnez les noyaux
En approfondissant, nous découvrons que les facteurs de position, tels que révélés dans l'article, servent à façonner la disposition à prendre parti pour soi. Ils faussent les poids d'agrégation, influençant les positions qui sont privilégiées et celles qui ne le sont pas.

Voici un très bon blog qui explique l'architecture des transformateurs étape par étape :
Abstractions uniques de couches de transformateurs
Au fur et à mesure que nous approfondissons le monde fascinant des modèles Transformer, une idée convaincante est présentée, qui distingue les Transformers des réseaux de neurones classiques tels que les CNN. La question qui se pose est la suivante : pourquoi les transformateurs fonctionnent-ils différemment et comment pouvons-nous appréhender le concept d'intégration couche par couche ?
Distinction entre Transformers et CNN:
- Les transformateurs fonctionnent différemment des CNN. Dans les CNN, les couches inférieures capturent généralement des caractéristiques plus simples telles que les arêtes, tandis que les couches supérieures créent des représentations plus complexes.
- En revanche, les Transformers fonctionnent dans le même espace abstrait sur toutes les couches, sans hiérarchie claire des abstractions, comme dans CNN.
Comprendre le flux résiduel:
- Les transformateurs conservent l'uniformité de leur espace abstrait, en partie grâce à la présence d'un flux résiduel.
- Dans une couche Transformer (par exemple, dans l'encodeur), il y a une entrée suivie d'une couche d'attention. Un lien résiduel ajoute la sortie de la couche d'attention à l'entrée.
- De même, dans la couche d'anticipation, des transformations sont appliquées et un autre raccourci ajoute la sortie à l'entrée.
- Cet ajout constant d'entrées et de sorties à chaque couche garantit que les dimensions conservent la même signification, créant ainsi un espace abstrait unifié.
Le modèle mental couche par couche:
- Pour aider à comprendre ce phénomène, le concept d' « intégrations couche par couche » est introduit.
- Dans CNN, il existe une construction hiérarchique de couches d'abstraction. Cependant, dans Transformers, chaque couche contribue au même espace abstrait.
- Les transformateurs remettent en question la compréhension traditionnelle du comportement des réseaux neuronaux en présentant un réseau de couches qui fonctionnent ensemble de manière plus unifiée.
Le mystère des jetons répétitifs : modèles de transformateurs petits et grands
Dans le monde de Transformers, une observation intrigante est la tendance des petits modèles à répéter des jetons, tandis que les modèles plus grands produisent des résultats plus variés. Sumeet explore ce phénomène, bien qu'il n'ait pas d'explication théorique claire.
- Modèles plus petits : Les petits transformateurs présentent souvent une répétition symbolique dans le texte généré, ce qui met en évidence un lien intrigant entre la taille du modèle et la qualité de sortie.
- Espace d'intégration plus riche : La richesse de l'espace d'intégration est un facteur clé qui explique la différence entre les petits et les grands modèles. Les modèles plus grands disposent d'un espace de fonctionnalités plus étendu et plus nuancé pour un traitement complexe de l'information.
- Plus de paramètres pour le traitement granulaire : Les modèles plus grands comportent davantage de couches et de paramètres, en particulier dans les couches anticipées. Cela améliore leur capacité à traiter les informations de manière sophistiquée.
- Stratégies de décodage : La répétition des jetons peut être atténuée en choisissant la bonne stratégie de décodage. Le Greedy Decoding et la Beam Search sont plus sujets à la répétition, tandis que des techniques telles que l'échantillonnage Top-K ou Top-P donnent des résultats variés.
- Phrases répétées : Même dans les modèles plus grands, des phrases se répètent occasionnellement, ce qui révèle la complexité de la génération de texte dans Transformers.
La notion trompeuse d'apprentissage dans les modèles de transformateurs
Dans le domaine des modèles Transformer, une question cruciale se pose : est-ce qu'un véritable apprentissage contextuel a lieu dans ces modèles, ou est-ce qu'il est plus approprié de le décrire comme un concept intelligemment encadré ? Le document de recherche remet en question les notions classiques d'apprentissage au sein de Transformers et dévoile les mécanismes sous-jacents.
L'apprentissage traditionnel consiste à ajuster les poids et les paramètres pour faciliter l'adaptation d'un modèle et sa réponse aux nouvelles données. Cependant, cette conception conventionnelle ne correspond pas aux modèles Transformer. Le principal problème réside dans leur espace d'intégration fixe et leurs chemins prédéfinis.
En substance, ces modèles n'impliquent pas l'apprentissage au sens traditionnel du terme. L'espace d'encastrement reste statique et les trajets, bien que divers, sont prédéterminés. Lors de l'inférence, il n'y a aucune adaptation ou modification des poids du modèle. Ces modèles explorent plutôt un paysage de possibilités, chaque élément manquant servant de point de départ unique.
La recherche aborde également le débat en cours concernant l'intelligence et les capacités de raisonnement de ces modèles. Certains soutiennent qu'ils ne disposent pas des mécanismes nécessaires à un véritable raisonnement et qu'ils s'appuient plutôt sur des prédictions basées sur des données mémorisées plutôt que sur une véritable compréhension.
En outre, l'article se penche sur le processus de débruitage, une opération fondamentale partagée par ces modèles. Lorsque les jetons sont effacés de manière aléatoire, la toile contextuelle reste intacte, quelle que soit la position du jeton vide. Le modèle consolide habilement ce double contexte en un vecteur de contexte unique, garantissant un fonctionnement fluide, quel que soit l'emplacement des éléments manquants.
Il n'y a aucun apprentissage en cours. Je veux dire, parce que l'espace d'intégration est fixe. Tous les chemins sont fixes. Tout ce que tu fais c'est choisir, choisir. Alors, qu'est-ce que l'on apprend ici ? Vos poids ne changent pas. Rien ! - Sumeet Singh
L'interaction entre l'apprentissage en contexte, l'apprentissage en quelques coups et la mise au point dans Transformers
Dans le paradigme décrit, où les Transformers empruntent des chemins prédéterminés au sein d'un espace d'intégration fixe, les relations entre « l'apprentissage contextuel », le « Few-Shot Learning » et le « Fine Tuning » acquièrent des perspectives distinctes.
1. Apprentissage en contexte et apprentissage en quelques coups
Dans ce paradigme, l'apprentissage en contexte et l'apprentissage Few-Shot convergent vers un concept commun. Qu'il s'agisse d'un historique de conversations ou d'une série d'exemples, ils se résument tous deux à des séquences contextuelles. Lorsqu'un modèle Transformer rencontre un nouveau contexte, il sélectionne un chemin dans l'espace d'intégration en fonction de ce contexte. Ce processus de sélection de trajectoire, dicté par le contexte, définit la sortie du modèle. Par conséquent, l'apprentissage en contexte et l'apprentissage Few-Shot impliquent que le modèle s'adapte à un contexte donné et génère des réponses ou des résultats pertinents sur le plan contextuel.
2. Réglage fin en tant que modification de trajectoire
Le réglage fin supervisé, dans le contexte du transformateur, représente un processus de modification des chemins prédéfinis dans l'espace d'intégration. Lors de la mise au point, des données supplémentaires et des objectifs spécifiques sont introduits, remodelant la géographie interne du modèle. Bien que le mécanisme fondamental, à savoir la sélection des trajectoires, reste cohérent, le paysage des trajectoires disponibles est ajusté pour s'aligner sur la tâche de réglage souhaitée.
3. RLHF et propagation du signal
Dans le cas de l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF), la principale divergence réside dans la façon dont le signal de renforcement se propage. Alors que le réglage fin supervisé utilise une perte d'entropie croisée au niveau des jetons, le RLHF exploite les signaux d'un modèle d'évaluation. Ce qui distingue le RLHF, c'est que le signal de renforcement s'étend sur l'ensemble de la séquence, influençant ainsi les trajectoires du modèle de manière globale. Cependant, le RLHF et le réglage fin supervisé ont tous deux l'objectif commun de remodeler la carte des ondulations dans l'espace d'intégration afin d'optimiser les performances pour des tâches spécifiques.
📌
Combler le fossé : modèles de transformateurs selon les modalités
Les modèles de transformateurs présentent une remarquable capacité d'adaptation à toutes les modalités. Ces modèles permettent de passer facilement du texte aux images, à la parole et à divers ensembles de données.
Traditionnellement, les séquences suivent un flux de contexte linéaire, mais lorsqu'on passe aux images, le concept de séquence linéaire devient intrigant. Des modèles comme Bard gèrent cela en utilisant le débruitage. Les jetons vides, quelle que soit leur position, conservent leur contexte. Que ce soit au début, au milieu ou à la fin, un Web de contexte se forme et le modèle l'agrège en un vecteur de contexte unique, s'adaptant parfaitement.
Naviguer dans l'IA à usage général : choix de modèles et informations pratiques
- Passage à une IA à usage général : Traitez les Transformers comme des machines intelligentes polyvalentes, simplifiant ainsi la complexité des modèles.
- Les variations du modèle importent moins : Une compréhension approfondie réduit les distinctions entre les modèles et met l'accent sur les performances réelles.
- Sélection de modèles pratiques : Choisissez des modèles basés sur une évaluation des tâches dans le monde réel, en donnant la priorité à l'efficacité.
- Tirer parti de l'ingénierie rapide : Personnalisez les entrées pour un guidage efficace sans la complexité du modèle.
- Ajustement rentable : Des modèles plus petits pour des performances rentables en cas de trafic élevé.
- Équilibrer les coûts et les performances : Facteurs cruciaux pour proposer efficacement des modèles affinés dans des scénarios de trafic élevé.
Lisez nos précédents articles de la série True ML Talks :
Continuez à regarder le TrueML série youtube et en lisant le TrueML série de blogs.
True Foundry est un PaaS de déploiement de machine learning sur Kubernetes destiné à accélérer les flux de travail des développeurs tout en leur offrant une flexibilité totale dans les tests et le déploiement de modèles, tout en garantissant une sécurité et un contrôle complets à l'équipe Infra. Grâce à notre plateforme, nous permettons aux équipes de machine learning de déployer et surveiller des modèles en 15 minutes avec une fiabilité à 100 %, une évolutivité et la possibilité de revenir en arrière en quelques secondes, ce qui leur permet de réduire les coûts et de mettre les modèles en production plus rapidement, ce qui permet de réaliser une véritable valeur commerciale.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA













.webp)



.png)


.webp)




.webp)







