LLM Embeddings 101: una guía completa 2024

Actualizado: May 22, 2024

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Esta guía explora el concepto de incrustaciones del modelo de lenguaje grande (LLM), herramientas esenciales en el procesamiento del lenguaje natural (PNL) moderno. Profundizamos en la importancia de las incorporaciones del LLM para mejorar la comprensión del texto y el rendimiento de los modelos en diversas tareas de PNL. La guía también describe modelos populares como BERT, GPT y DistilBERT, y proporciona instrucciones prácticas sobre cómo generar incrustaciones utilizando estos modelos.

¿Qué es LLM Embedding?

Las incrustaciones son una forma de representar palabras (u otros tipos de datos) como números en un espacio de alta dimensión. Piense en ello como dar a cada palabra su propia dirección única en este espacio.

La incrustación del LLM, a menudo denominada incrustación del modelo de lenguaje grande (LLM), es una técnica utilizada en el procesamiento del lenguaje natural (PNL) en la que se utiliza un modelo de lenguaje grande para convertir datos de texto en vectores numéricos de alta dimensión.

¿Por qué utilizamos LLM Embeddings?

Mejor comprensión del texto: las incrustaciones de LLM nos ayudan a entender el texto en profundidad. No solo miran las palabras, sino que también entienden lo que significan esas palabras en diferentes situaciones. Esto es muy importante para entender el lenguaje humano.

‍

Rendimiento mejorado del modelo: Las incrustaciones de LLM hacen que las tareas de la PNL, como descifrar los sentimientos en el texto, responder preguntas, traducir idiomas y resumir el texto, sean mucho mejores. Proporcionan un punto de partida sólido que se puede ajustar con precisión para trabajos específicos.
Lidiar con la confusión: Algunas palabras tienen muchos significados. Los LLM son buenos para mostrar el significado correcto en función de cómo se usa la palabra en una oración. Analizan todo el mundo para entenderlo bien.
Transferir el aprendizaje: Las incrustaciones de LLM se pueden utilizar en configuraciones de aprendizaje por transferencia en las que un modelo entrenado en una tarea se adapta para realizar otra tarea relacionada. Esto funciona bien en la PNL, donde no siempre hay suficientes datos etiquetados. El uso de incrustaciones previamente entrenadas ayuda mucho.
Escalabilidad y flexibilidad: Los LLM se pueden usar en diferentes áreas e idiomas, lo que los hace muy útiles a nivel mundial. Al aprender de muchos textos diferentes, pueden entender muchas cosas diferentes.
Eficiencia en el aprendizaje: Al utilizar incrustaciones de LLM previamente entrenados, se pueden reducir el costo computacional y el tiempo necesarios para entrenar los modelos de PNL. Ya conocen lo básico, así que solo tenemos que enseñarles las cosas específicas.
Búsqueda semántica y recuperación de información: Las incrustaciones permiten realizar búsquedas semánticas, en las que se tienen en cuenta la intención y el significado de la consulta, en lugar de solo la coincidencia de palabras clave. Esto es útil para crear motores de búsqueda, sistemas de recomendación y chatbots más receptivos y comprensivos.

‍

Modelos populares para generar incrustaciones de LLM

BERT (representaciones de codificadores bidireccionales a partir de transformadores): Utiliza una arquitectura transformadora para procesar las palabras en relación con todas las demás palabras de una oración, en lugar de procesarlas de forma unidireccional. Esto permite que el modelo capture el contexto de manera más eficaz, lo que lo hace adecuado para tareas en las que es crucial comprender la relación entre las palabras de una oración.
GPT (transformador generativo preentrenado): un modelo autorregresivo que predice la siguiente palabra de una secuencia, lo que lo hace excelente para tareas que implican la generación de texto, como la ayuda a la escritura, la escritura creativa y los sistemas de diálogo.
RobErta (enfoque BERT robustamente optimizado): Una versión optimizada de BERT que entrena el modelo durante más tiempo, con más datos y en secuencias más largas, lo que mejora el rendimiento en una variedad de tareas de PNL en comparación con el BERT original.
Transformer-XL: Diseñado para gestionar dependencias de largo alcance dentro del texto, este modelo puede recordar información de partes muy anteriores del texto, lo que resulta beneficioso para las tareas que implican textos o documentos de gran tamaño en las que el contexto es importante a largas distancias.
XLNet: Combina los mejores aspectos del contexto bidireccional de BERT y las capacidades autorregresivas de GPT. Utiliza un entrenamiento basado en la permutación que no se limita al contexto unidireccional, lo que proporciona más flexibilidad y solidez en el lenguaje de modelado.
Destilbert: Una versión «destilada» de BERT que es más pequeña, rápida y eficiente, pero que aún conserva la mayor parte de la precisión del modelo original. Es útil para entornos con recursos computacionales limitados o aplicaciones que requieren un procesamiento más rápido.

‍

Generación de incrustaciones de LLM

La generación de incrustaciones con modelos como BERT, XLnet y DisTilbert es bastante sencilla con la ayuda de bibliotecas como los transformadores de Hugging Face. A continuación, proporciono una guía paso a paso para generar incrustaciones con Python.

1. Generación de incrustaciones BERT:


from transformers import BertTokenizer, BertModel
import torch

# Load pre-trained model tokenizer (vocabulary) and model
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# Encode text
text = "This is a BERT model example."
encoded_input = tokenizer(text, return_tensors='pt')

# Forward pass, get hidden states
with torch.no_grad():
    output = model(**encoded_input)

# Get the embeddings for the first token in the sequence
embeddings = output.last_hidden_state[0][0]

‍

2. Incrustaciones de XLNet:


from transformers import XLNetTokenizer, XLNetModel
import torch

# Load pre-trained model tokenizer and model
tokenizer = XLNetTokenizer.from_pretrained('xlnet-base-cased')
model = XLNetModel.from_pretrained('xlnet-base-cased')

# Encode text
text = "This is an XLNet model example."
encoded_input = tokenizer(text, return_tensors='pt', padding=True, truncation=True, max_length=128)

# Forward pass, get hidden states
with torch.no_grad():
    output = model(**encoded_input)

# Get the embeddings for the first token in the sequence
embeddings = output.last_hidden_state[0][0]

‍

3. Incrustaciones de Distilbert


from transformers import DistilBertTokenizer, DistilBertModel
import torch

# Load pre-trained model tokenizer and model
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')
model = DistilBertModel.from_pretrained('distilbert-base-uncased')

# Encode text
text = "This is a DistilBERT model example."
encoded_input = tokenizer(text, return_tensors='pt')

# Forward pass, get hidden states
with torch.no_grad():
    output = model(**encoded_input)

# Get the embeddings for the first token in the sequence
embeddings = output.last_hidden_state[0][0]

‍

Ajuste fino frente a incrustación

Puesta a punto: Imagina el ajuste fino como la creación de un traje personalizado. Empiezas con el tejido básico (un modelo previamente entrenado) y lo adaptas para que se ajuste a las medidas exactas y a las preferencias de estilo de la persona (tu tarea específica).

En el contexto de los LLM, el ajuste fino significa tomar un modelo previamente entrenado, que ya ha aprendido mucho sobre el lenguaje a partir de una enorme cantidad de datos, y luego entrenarlo más en un conjunto de datos más pequeño y específico que esté estrechamente relacionado con las tareas que desea que realice el modelo.

Uso de incrustaciones: Este enfoque es como comprar un traje listo para usar en una tienda. Ofrece una variedad de estilos y cortes listos para usar y que pueden servir bien en muchas situaciones diferentes, aunque no están personalizados para una persona específica.

Cuando usas incrustaciones de un modelo previamente entrenado, básicamente estás usando una instantánea de la comprensión del lenguaje por parte del modelo en un momento determinado de su entrenamiento. Esto puede resultar muy útil y eficaz para las tareas en las que es necesario comprender o procesar rápidamente el texto en un sentido general, pero no es necesario realizar ajustes muy especializados. Por ejemplo, las incrustaciones se pueden usar para buscar rápidamente palabras similares, clasificar el texto o incluso encontrar documentos relevantes en función de palabras clave.

Elegir entre ellos: La decisión de ajustar o utilizar las incrustaciones depende de los requisitos del proyecto en cuanto a especificidad y disponibilidad de recursos. El perfeccionamiento es adecuado cuando la precisión del rendimiento es crucial y se dispone de recursos para una formación detallada. Por el contrario, el uso de las incrustaciones es eficiente cuando se necesita una aplicabilidad amplia y un gasto mínimo de recursos en la personalización.

Conclusión:

Las incorporaciones de LLM son transformadoras en el campo de la PNL, ya que ofrecen una comprensión profunda de los matices del lenguaje y aumentan significativamente el rendimiento de los modelos relacionados. Al aprovechar estas incorporaciones, se pueden gestionar de manera eficiente tareas complejas como la búsqueda semántica, el resumen de textos y más. Ya sea que elija ajustar estos modelos o utilizar incrustaciones previamente preparadas, la flexibilidad y la escalabilidad de los LLM proporcionan herramientas poderosas para mejorar sus aplicaciones y sistemas. Esta guía le proporciona los conocimientos y las técnicas para utilizar eficazmente las incrustaciones de LLM, lo que allana el camino para soluciones de PNL avanzadas y eficientes.

‍

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora