Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

True ML Talks #20 - Transformadores, incrustaciones y LLM - ML Scientist @ Turnitin

Por TrueFoundry

Actualizado: September 14, 2023

Resumir con

Volvemos con otro episodio de True ML Talks. En este artículo, profundizaremos en las ideas principales del fascinante artículo titulado Análisis de la dinámica de los transformadores como movimiento a través del espacio de incrustación. Este artículo presenta una perspectiva novedosa sobre cómo funcionan los Transformers, enfatizando que aprenden un espacio integrado y navegan por él durante el proceso de inferencia. Estamos hablando con Sumeet Singh

Sumeet es un científico distinguido de aprendizaje automático en Turnitin y es el autor del artículo que vamos a tratar hoy. También proviene de una formación investigadora.

📌

Nuestras conversaciones con Sumeet abordarán los siguientes aspectos:
- Comprender la dinámica de los transformadores
- Desmitificando el espacio de incrustación en los modelos de transformadores
- Descifrando la mecánica de la predicción de fichas en Transformers
- Abstracciones únicas de capas transformadoras
- El misterio de las fichas repetitivas
- La noción engañosa de aprendizaje en los modelos transformadores
- La interacción del aprendizaje en contexto, el aprendizaje con pocos disparos y el ajuste fino en Transformers
- Cómo navegar por la IA de uso general: opciones de modelos e información práctica

Mira el episodio completo a continuación:

Comprender la dinámica de los transformadores: una inmersión profunda en el espacio de incrustación

En el ámbito de la IA y el procesamiento del lenguaje natural, el modelo Transformer es el rey supremo para el procesamiento y la generación de textos. Pero, ¿qué hay detrás de esta impresionante arquitectura? El innovador artículo, «Analizar la dinámica de los transformadores como movimiento para integrar el espacio», revela los misterios del funcionamiento interno de los Transformers.

Esta investigación comenzó cuando se desarrolló un modelo de calificación automática para respuestas cortas, que logró una impresionante tasa de precisión del 80% en todos los temas, pero carecía de claridad en sus mecanismos. Para entender el comportamiento del Transformer, el estudio profundizó y, en un principio, exploró la atribución de la atención y el análisis del peso con conocimientos limitados, lo que dejó perplejos a los investigadores.

1. Un cambio de paradigma: ver los transformadores en un espacio integrado

El punto de inflexión de esta investigación se produjo al darse cuenta de que el Transformer podía verse como una serie de operadores en un espacio integrado. Este espacio, como un paisaje tridimensional, guía las predicciones del Transformer. En lugar de buscar patrones de atención, la perspectiva pasó a ver al Transformer como un río que fluye a través de valles y cañones, siguiendo caminos de menor entropía.

2. El espacio de incrustación fijo

Una vez que se entrena el modelo, el espacio de incrustación permanece fijo. Cuando se presenta con la misma secuencia de entrada, produce consistentemente incrustaciones idénticas. Estas incrustaciones son cruciales para predecir el siguiente token, ya que determinan las probabilidades asignadas a cada token de la secuencia.

3. Proximidad angular y predicción de fichas

La investigación descubrió que el espacio de incrustación se organizaba en un espacio acotado parecido a una bola, gracias a la normalización de las capas. Las predicciones de los tokens del modelo se basan en gran medida en la proximidad angular entre el vector de incrustación agregado y las incrustaciones de tokens individuales.

4. Decodificando Walk versus codificando Walk

Dos recorridos distintos dan forma al comportamiento del Transformer: el recorrido de decodificación, que rige la decodificación estocástica y el muestreo de fichas, y el recorrido de codificación, un proceso determinista que forma clústeres blandos basados en la similitud de los vectores de símbolos. El recorrido de codificación es un factor clave para transformar una secuencia de vectores simbólicos en un único vector de incrustación agregado.

5. Nivel de abstracción en Transformers

A diferencia de las redes neuronales convencionales, en las que las capas inferiores funcionan con niveles más bajos de abstracción, los Transformers mantienen un nivel constante de abstracción en todas sus capas. Esto es evidente en las matrices de incrustación de entrada y salida compartidas, lo que pone de relieve la naturaleza única de la arquitectura Transformer.

Desmitificando el espacio de incrustación en los modelos de transformadores

Para comprender el concepto de espacio incrustado, primero debemos reconocerlo como el espacio vectorial de tamaño modelo_d—el tamaño oculto del Transformer. En términos más sencillos, modelo_d representa la dimensionalidad de este espacio. Por ejemplo, en los modelos GPT, esta dimensión puede ser sustancial y llegar a 12 000.

Ahora, lo que es vital comprender es que cada vector que emerge de cada capa del modelo Transformer reside dentro de este espacio de incrustación. Esto incluye no solo los vectores simbólicos de entrada, sino también todos los vectores que se generan a medida que avanzas por las capas, hasta llegar a la parte superior, y culminan en el vector de contexto.

Es esencial aclarar que el tamaño del espacio de incrustación no está determinado por la cantidad de parámetros del modelo o la representación de la capa superior. En su lugar, se define exclusivamente por el valor de modelo_d. Esta distinción clave garantiza que tengamos una comprensión clara de lo que constituye el espacio de integración en los modelos Transformer.

Descifrando la mecánica de la predicción simbólica en Transformers

En nuestra búsqueda por comprender el funcionamiento interno de Transformers, hemos llegado a un punto crucial: la mecánica de la predicción simbólica. Sumeet, con su perspicaz perspectiva, arroja luz sobre los intrincados procesos que determinan la forma en que los Transformers generan secuencias de texto y hacen predicciones inteligentes.

1. El papel del jefe de modelado lingüístico:

En esencia, este cabezal de modelado del lenguaje es una matriz, una matriz con dimensiones modelo_d por V, donde V representa el tamaño de tus incrustaciones, que puede ser considerable según tu esquema de tokenización. Esta matriz desempeña un papel fundamental a la hora de mapear los vectores de contexto con las probabilidades de los tokens.

2. La magia de los productos Dot:

La esencia de la predicción simbólica reside en el producto puntual, una métrica de similitud que rige la toma de decisiones del Transformer. Cuando el vector de contexto, derivado de la capa final del decodificador, se multiplica matriciales con el cabezal de modelado del lenguaje, se obtiene un vector de probabilidades. Esta distribución de probabilidad determina la probabilidad de cada símbolo de la secuencia.

3. Mapeo de secuencias en el vecindario

Ahora, consideremos el profundo concepto de mapear una secuencia en la vecindad de un token. El objetivo es transformar una secuencia de fichas, de W_1 a W_t, en las proximidades de W_t+1. Este proceso es similar a navegar por un camino que parece inteligente para los observadores humanos.

4. La máquina inteligente

En el centro de esta transformación está la creación de una máquina inteligente, una máquina que toma una secuencia y la mapea hábilmente con la vecindad del siguiente token. La inteligencia reside en la sutileza y la coherencia del camino, ya que cada paso del recorrido se evalúa según su grado de inteligencia.

5. El papel de las codificaciones de posición

A diferencia de las redes neuronales convolucionales (CNN), los transformadores no emplean núcleos de reconocimiento de patrones. Sin embargo, existe un elemento fascinante conocido como codificaciones de posición relativa dentro de las capas de atención. Estas codificaciones estáticas influyen en los pesos de agregación y ayudan a contrarrestar el autosesgo.

6. Autosesgo negativo

Comprender los prejuicios propios es crucial. Sin codificaciones de posición, un vector de contexto tendería a atraer vectores similares a él, lo que daría como resultado predicciones repetitivas. Las codificaciones de posición introducen un sesgo propio negativo, lo que suprime la afinidad del vector de contexto consigo mismo y promueve la diversidad en las predicciones.

7. Posicionar Kernels

Al profundizar, descubrimos que los núcleos de posición, tal como se revela en el documento, sirven para moldear la disposición autoparcial. Distorsionan las ponderaciones de la agregación, lo que influye en qué posiciones se ven favorecidas y cuáles no.

Fuente: https://towardsdatascience.com/transformers-in-depth-part-1-introduction-to-transformer-models-in-5-minutes-ad25da6d3cca?gi=e0dcc7a16b10

Este es un blog realmente genial que explica la arquitectura de los transformadores paso a paso:

Abstracciones únicas de capas transformadoras

A medida que profundizamos en el fascinante mundo de los modelos Transformer, obtenemos una visión convincente que distingue a los Transformers de las redes neuronales convencionales como las CNN. La pregunta que nos planteamos es: ¿por qué los Transformers funcionan de forma diferente y cómo podemos entender el concepto de incrustaciones capa por capa?

Distinción entre Transformers y CNN:

  • Los transformadores funcionan de manera diferente a los de las CNN. En las CNN, las capas inferiores suelen capturar características más simples, como los bordes, mientras que las capas superiores crean representaciones más complejas.
  • Por el contrario, los Transformers trabajan dentro del mismo espacio abstracto en todas las capas, sin una jerarquía clara de abstracción como en las CNN.

Comprensión del flujo residual:

  • Los transformadores mantienen la uniformidad en su espacio abstracto, en parte debido a la presencia de una corriente residual.
  • En una capa transformadora (por ejemplo, en el codificador), hay una entrada seguida de una capa de atención. Un enlace residual devuelve la salida de la capa de atención a la entrada.
  • Del mismo modo, en la capa de alimentación directa, se aplican transformaciones y otro acceso directo vuelve a añadir la salida a la entrada.
  • Esta adición constante de entrada y salida en cada capa garantiza que las dimensiones mantengan el mismo significado, creando un espacio abstracto unificado.

El modelo mental capa por capa:

  • Para ayudar a entender este fenómeno, se introduce el concepto de «incrustaciones capa por capa».
  • En las CNN, hay una construcción jerárquica de capas de abstracción. Sin embargo, en Transformers, cada capa contribuye al mismo espacio abstracto.
  • Los transformadores desafían la comprensión tradicional del comportamiento de las redes neuronales al presentar una red de capas que funcionan juntas de una manera más unificada.

El misterio de los tokens repetitivos: modelos de transformadores pequeños frente a modelos de transformadores grandesa

En el mundo de Transformers, una observación interesante es la tendencia de los modelos más pequeños a repetir fichas, mientras que los modelos más grandes producen resultados más variados. Sumeet explora este fenómeno, aunque carece de una explicación teórica clara.

  • Modelos más pequeños: Los Transformers más pequeños suelen mostrar una repetición simbólica en el texto generado, lo que pone de relieve un vínculo intrigante entre el tamaño del modelo y la calidad de salida.
  • Espacio de incrustación más rico: Un factor clave que contribuye a la diferencia entre los modelos pequeños y grandes es la riqueza del espacio de incrustación. Los modelos más grandes tienen un espacio de funciones más amplio y matizado para el procesamiento complejo de la información.
  • Más parámetros para el procesamiento granular: Los modelos más grandes tienen más capas y parámetros, especialmente en las capas de prealimentación. Esto mejora su capacidad para procesar la información de manera sofisticada.
  • Estrategias de decodificación: La repetición de los tokens se puede mitigar eligiendo la estrategia de decodificación correcta. Greedy Decoding y Beam Search son más propensas a la repetición, mientras que técnicas como el muestreo Top-K o Top-P arrojan resultados diversos.
  • Oraciones repetidas: Incluso en modelos más grandes, se producen repeticiones ocasionales de oraciones, lo que revela la complejidad de la generación de texto en Transformers.

La engañosa noción de aprendizaje en los modelos transformadores

En el ámbito de los modelos Transformer, surge una pregunta crucial: ¿se lleva a cabo un aprendizaje genuino en contexto en estos modelos, o se describe más acertadamente como un concepto enmarcado de manera inteligente? El artículo de investigación desafía las nociones convencionales de aprendizaje en Transformers y revela los mecanismos subyacentes.

El aprendizaje tradicional implica ajustar los pesos y los parámetros para facilitar la adaptación y la respuesta de un modelo a los nuevos datos. Sin embargo, esta comprensión convencional no se ajusta a los modelos de Transformer. El problema principal radica en su espacio de incrustación fijo y en sus rutas predefinidas.

En esencia, estos modelos no implican el aprendizaje en el sentido tradicional. El espacio de incrustación permanece estático y los caminos, aunque diversos, están predeterminados. Durante la inferencia, no hay adaptación ni modificación de los pesos del modelo. En cambio, estos modelos navegan por un panorama de posibilidades, en el que cada elemento faltante sirve como punto de partida único.

La investigación también aborda el debate en curso sobre la inteligencia y las habilidades de razonamiento de estos modelos. Algunos argumentan que carecen de los mecanismos para un razonamiento genuino y que, en cambio, se basan en predicciones basadas en datos memorizados en lugar de en una comprensión verdadera.

Además, el artículo profundiza en el proceso de eliminación de ruido, una operación fundamental que comparten estos modelos. Cuando los tokens se borran al azar, la red de contexto permanece intacta, independientemente de la posición del token en blanco. El modelo consolida hábilmente este contexto dual en un único vector de contexto, lo que garantiza un funcionamiento perfecto, independientemente de la ubicación de los elementos que faltan.

No se está aprendiendo. Quiero decir, porque el espacio de incrustación es fijo. Todos los caminos son fijos. Todo lo que haces es elegir, elegir. Entonces, ¿qué aprendizaje hay aquí? Sus pesos no cambian. ¡Nada! - Sumeet Singh

La interacción del aprendizaje en contexto, el aprendizaje con pocos disparos y el ajuste fino en Transformers

En el paradigma descrito, en el que los transformadores navegan por caminos predeterminados dentro de un espacio de integración fijo, las relaciones entre el «aprendizaje en contexto», el «aprendizaje de pocos disparos» y el «ajuste fino» adquieren distintas perspectivas.

1. Aprendizaje en contexto y aprendizaje con pocos disparos

Dentro de este paradigma, el aprendizaje en contexto y el aprendizaje de pocos disparos convergen en un concepto compartido. Tanto si se trata de un historial de conversación como de un conjunto de ejemplos, ambos se reducen a secuencias contextuales. Cuando un modelo Transformer encuentra un contexto novedoso, selecciona una ruta a través del espacio de incrustación en función de ese contexto. Este proceso de selección de rutas, dictado por el contexto, define la salida del modelo. Por lo tanto, tanto el aprendizaje en contexto como el aprendizaje de pocos intentos implican que el modelo se adapte a un contexto determinado y genere respuestas o resultados relevantes desde el punto de vista del contexto.

2. Ajuste fino como modificación de ruta

El ajuste fino supervisado, en el contexto de Transformer, representa un proceso de alteración de las rutas predefinidas dentro del espacio de incrustación. Durante el ajuste, se introducen datos adicionales y objetivos específicos, lo que modifica la geografía interna del modelo. Si bien el mecanismo fundamental (la selección de rutas) se mantiene constante, el panorama de rutas disponibles se ajusta para alinearlo con la tarea de ajuste deseada.

3. RLHF y propagación de señales

En el caso del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), la divergencia clave radica en la forma en que se propaga la señal de refuerzo. Si bien el ajuste detallado supervisado emplea una pérdida de entropía cruzada a nivel de token, el RLHF aprovecha las señales de un modelo de evaluación. Lo que diferencia al RLHF es que la señal de refuerzo se extiende por toda la secuencia, lo que influye de manera integral en las rutas del modelo. Sin embargo, tanto el RLHF como el ajuste detallado supervisado comparten el objetivo común de remodelar el mapa de ondulaciones dentro del espacio integrado para optimizar el rendimiento en tareas específicas.

📌

Cerrar la brecha: modelos de transformadores en todas las modalidades
Los modelos de transformadores tienen una adaptabilidad notable en todas las modalidades. Estos modelos pasan sin problemas del texto a las imágenes, el habla y diversos conjuntos de datos.

Tradicionalmente, las secuencias tienen un flujo lineal de contexto, pero cuando se pasa a imágenes, el concepto de secuencia lineal se vuelve intrigante. Modelos como Bard manejan esto mediante el uso de la eliminación de ruido. Las fichas en blanco, independientemente de su posición, conservan el contexto. Ya sea al principio, a la mitad o al final, se forma una web de contexto y el modelo lo agrega en un único vector de contexto, adaptándose sin problemas.

Cómo navegar por la IA de uso general: opciones de modelos e información práctica

  • Cambie a la IA de uso general: Trate a los Transformers como máquinas de inteligencia versátiles que simplifican las complejidades de los modelos.
  • Las variaciones de modelo importan menos: La comprensión profunda reduce las distinciones entre los modelos y hace hincapié en el rendimiento en el mundo real.
  • Práctica selección de modelos: Elija modelos basados en la evaluación de tareas del mundo real, priorizando la eficiencia.
  • Aprovechamiento de la ingeniería rápida: Personalice las entradas para obtener una orientación eficaz sin las complejidades del modelo.
  • Ajuste de precisión rentable: Modelos más pequeños para un rendimiento rentable de alto tráfico.
  • Equilibrar el costo y el rendimiento: Factores cruciales para el servicio eficiente de modelos ajustados en escenarios de alto tráfico.

Lea nuestros blogs anteriores de la serie True ML Talks:

Sigue viendo el TrueML serie youtube y leyendo el TrueML serie de blogs.

True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra. A través de nuestra plataforma, permitimos a los equipos de aprendizaje automático implementar y supervisar modela en 15 minutos con un 100% de confiabilidad, escalabilidad y la capacidad de revertirse en segundos, lo que les permite ahorrar costos y lanzar los modelos a la producción más rápido, lo que permite obtener un verdadero valor empresarial.

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro

Descubra más

October 26, 2023
|
5 minutos de lectura

True ML Talks #23: Apps MLOps and LLMS in GitLab

May 21, 2024
|
5 minutos de lectura

¿Qué son las incrustaciones en el aprendizaje automático?

April 22, 2026
|
5 minutos de lectura

Mercados de agentes de IA: el futuro de la automatización de nivel empresarial

No se ha encontrado ningún artículo.
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 minutos de lectura

¿Qué es AI Gateway? Conceptos básicos y guía

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Aprovechar la puerta de enlace de IA de TrueFoundry para el cumplimiento de FIPS

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Integración de GraySwan con TrueFoundry

No se ha encontrado ningún artículo.
No se ha encontrado ningún artículo.

Blogs recientes

Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto