LLM Embeddings 101 : un guide complet 2024

Mis à jour : May 22, 2024

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Ce guide explore le concept des intégrations de grands modèles de langage (LLM), outils essentiels du traitement moderne du langage naturel (NLP). Nous étudions l'importance des intégrations LLM pour améliorer la compréhension du texte et les performances des modèles dans diverses tâches de PNL. Le guide présente également des modèles populaires tels que BERT, GPT et DisTiLBERT, et fournit des instructions pratiques sur la génération d'intégrations à l'aide de ces modèles.

Qu'est-ce que LLM Embedding ?

Les intégrations permettent de représenter des mots (ou d'autres types de données) sous forme de nombres dans un espace de grande dimension. C'est comme si vous donniez à chaque mot sa propre adresse unique dans cet espace.

L'intégration LLM, souvent appelée intégration de grands modèles linguistiques (LLM), est une technique utilisée dans le traitement du langage naturel (NLP) dans laquelle un grand modèle de langage est utilisé pour convertir des données textuelles en vecteurs numériques de grande dimension.

Pourquoi utilisons-nous LLM Embeddings ?

Meilleure compréhension du texte : les intégrations LLM nous aident à comprendre le texte en profondeur. Ils ne se contentent pas de regarder les mots ; ils comprennent également ce que ces mots signifient dans différentes situations. C'est très important pour comprendre le langage humain.

‍

Performances du modèle améliorées: Les intégrations LLM améliorent considérablement les tâches de PNL, telles que la détermination des sentiments dans le texte, la réponse à des questions, la traduction de langues et la synthèse de texte. Ils constituent un point de départ solide qui peut être adapté à des tâches spécifiques.
Faire face à la confusion: Certains mots ont de nombreuses significations. Les LLM sont efficaces pour montrer le bon sens en fonction de la façon dont le mot est utilisé dans une phrase. Ils examinent tout ce qui se passe dans le monde pour bien faire les choses.
Enseignement par transfert: Les intégrations LLM peuvent être utilisées dans des configurations d'apprentissage par transfert où un modèle entraîné sur une tâche est adapté pour effectuer une autre tâche connexe. Cela fonctionne bien en PNL, où il n'y a pas toujours suffisamment de données étiquetées. L'utilisation d'intégrations pré-entraînées aide beaucoup.
Évolutivité et flexibilité: Les LLM peuvent être utilisés dans différents domaines et langues, ce qui les rend très utiles dans le monde entier. En apprenant à partir de nombreux textes différents, ils peuvent comprendre de nombreuses choses différentes.
Efficacité de l'apprentissage: En utilisant des intégrations provenant de LLM pré-entraînés, il est possible de réduire les coûts de calcul et le temps nécessaires pour entraîner des modèles NLP. Ils connaissent déjà les bases, il ne nous reste plus qu'à leur apprendre les choses spécifiques.
Recherche sémantique et recherche d'informations: les intégrations permettent d'effectuer une recherche sémantique, dans laquelle l'intention et la signification de la requête sont prises en compte, plutôt que de simplement faire correspondre des mots clés. Cela est utile pour créer des moteurs de recherche, des systèmes de recommandation et des chatbots plus réactifs et plus compréhensifs.

‍

Modèles populaires pour générer l'intégration LLM

BERT (Représentations de codeurs bidirectionnels à partir de transformateurs): utilise une architecture de transformateur pour traiter les mots par rapport à tous les autres mots d'une phrase, plutôt que de manière unidirectionnelle. Cela permet au modèle de saisir le contexte de manière plus efficace, ce qui le rend adapté aux tâches où il est crucial de comprendre la relation entre les mots d'une phrase.
GPT (transformateur génératif pré-entraîné): modèle autorégressif qui prédit le mot suivant d'une séquence, ce qui le rend idéal pour les tâches impliquant la génération de texte, telles que l'aide à la rédaction, l'écriture créative et les systèmes de dialogue.
Roberta (Approche BERT optimisée de manière robuste): Une version optimisée de BERT qui entraîne le modèle plus longtemps, avec plus de données et sur des séquences plus longues, ce qui se traduit par de meilleures performances dans une gamme de tâches de PNL par rapport au BERT original.
Transformateur XL: Conçu pour gérer les dépendances à long terme au sein du texte, ce modèle peut mémoriser des informations situées bien plus tôt dans le texte, ce qui est utile pour les tâches impliquant des textes ou des documents volumineux où le contexte est important sur de longues distances.
Réseau XLN: Combine les meilleurs aspects du contexte bidirectionnel de BERT et des capacités autorégressives du GPT. Il utilise une formation basée sur les permutations qui n'est pas limitée au contexte unidirectionnel, offrant ainsi plus de flexibilité et de robustesse dans le langage de modélisation.
Distilbert: Une version « distillée » de BERT qui est plus petite, plus rapide et plus efficace, tout en conservant la plus grande partie de la précision du modèle d'origine. Il est utile pour les environnements aux ressources de calcul limitées ou pour les applications nécessitant un traitement plus rapide.

‍

Génération d'intégrations LLM

La génération d'intégrations à l'aide de modèles tels que BERT, XLnet et Distilbert est assez simple à l'aide de bibliothèques telles que les transformateurs de Hugging Face. Ci-dessous, j'ai fourni un guide étape par étape pour générer des intégrations à l'aide de Python.

1. Génération d'intégrations BERT :


from transformers import BertTokenizer, BertModel
import torch

# Load pre-trained model tokenizer (vocabulary) and model
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# Encode text
text = "This is a BERT model example."
encoded_input = tokenizer(text, return_tensors='pt')

# Forward pass, get hidden states
with torch.no_grad():
    output = model(**encoded_input)

# Get the embeddings for the first token in the sequence
embeddings = output.last_hidden_state[0][0]

‍

2. Intégrations XLNet :


from transformers import XLNetTokenizer, XLNetModel
import torch

# Load pre-trained model tokenizer and model
tokenizer = XLNetTokenizer.from_pretrained('xlnet-base-cased')
model = XLNetModel.from_pretrained('xlnet-base-cased')

# Encode text
text = "This is an XLNet model example."
encoded_input = tokenizer(text, return_tensors='pt', padding=True, truncation=True, max_length=128)

# Forward pass, get hidden states
with torch.no_grad():
    output = model(**encoded_input)

# Get the embeddings for the first token in the sequence
embeddings = output.last_hidden_state[0][0]

‍

3. Incarts Distilbert


from transformers import DistilBertTokenizer, DistilBertModel
import torch

# Load pre-trained model tokenizer and model
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')
model = DistilBertModel.from_pretrained('distilbert-base-uncased')

# Encode text
text = "This is a DistilBERT model example."
encoded_input = tokenizer(text, return_tensors='pt')

# Forward pass, get hidden states
with torch.no_grad():
    output = model(**encoded_input)

# Get the embeddings for the first token in the sequence
embeddings = output.last_hidden_state[0][0]

‍

Réglage fin ou intégration

Réglage fin: Imaginez le peaufinage comme la confection d'un costume personnalisé. Vous commencez par le tissu de base (un modèle pré-entraîné) et vous l'adaptez aux mesures exactes et aux préférences de style de chacun (votre tâche spécifique).

Dans le contexte des LLM, le réglage fin consiste à utiliser un modèle pré-entraîné, qui a déjà beaucoup appris sur le langage à partir d'une énorme quantité de données, puis à l'entraîner davantage sur un ensemble de données spécifique plus petit, étroitement lié aux tâches que vous souhaitez que le modèle exécute.

Utilisation des intégrations: Cette approche revient à acheter un costume standard dans un magasin. Il propose une variété de styles et de coupes prêts à l'emploi et pouvant convenir à de nombreuses situations différentes, bien qu'ils ne soient pas personnalisés pour une personne en particulier.

Lorsque vous utilisez des intégrations issues d'un modèle pré-entraîné, vous utilisez essentiellement un instantané de la compréhension du langage par le modèle à un moment donné de son apprentissage. Cela peut être très utile et efficace pour les tâches où vous devez comprendre ou traiter rapidement du texte dans un sens général sans nécessiter d'ajustements très spécialisés. Par exemple, les intégrations peuvent être utilisées pour trouver rapidement des mots similaires, classer du texte ou même trouver des documents pertinents en fonction de mots clés.

Choisir entre eux: La décision d'affiner ou d'utiliser les intégrations dépend des exigences du projet en termes de spécificité et de disponibilité des ressources. Le réglage fin convient lorsque la précision des performances est cruciale et que des ressources sont disponibles pour un entraînement détaillé. En revanche, l'utilisation d'intégrations est efficace lorsqu'il est nécessaire d'assurer une large applicabilité et de consacrer un minimum de ressources à la personnalisation.

Conclusion :

Les intégrations LLM transforment le domaine de la PNL en offrant une compréhension approfondie des nuances du langage et en améliorant considérablement les performances des modèles associés. En tirant parti de ces intégrations, il est possible de gérer efficacement des tâches complexes telles que la recherche sémantique, la synthèse de texte, etc. Que vous choisissiez d'affiner ces modèles ou d'utiliser des intégrations pré-entraînées, la flexibilité et l'évolutivité des LLM fournissent des outils puissants pour améliorer vos applications et vos systèmes. Ce guide vous fournit les connaissances et les techniques nécessaires pour utiliser efficacement les intégrations LLM, ouvrant ainsi la voie à des solutions NLP avancées et efficaces.

‍

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant