True ML Talks #20 - Transformers, Embeddings & LLMs na Turnitin

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

Estamos de volta com mais um episódio do True ML Talks. Neste, vamos aprofundar as ideias principais do fascinante artigo intitulado Analisando a Dinâmica dos Transformers como Movimento através do Espaço de Embedding. Este artigo introduz uma nova perspetiva sobre como os Transformers operam, enfatizando que eles aprendem um espaço de embedding e o navegam durante o processo de inferência. Estamos a conversar com Sumeet Singh

Sumeet é um Cientista de ML Distinto na Turnitin e o autor do artigo que vamos discutir hoje. Ele também tem um background em pesquisa.

📌

As nossas conversas com Sumeet abordarão os seguintes aspetos:
- Compreendendo a Dinâmica dos Transformers
- Desmistificando o Espaço de Embedding em Modelos Transformer
- Decifrando a Mecânica da Predição de Tokens em Transformers
- Abstrações Únicas das Camadas Transformer
- O Mistério dos Tokens Repetitivos
- A Noção Enganosa de Aprendizagem em Modelos Transformer
- A Interação de Aprendizagem em Contexto, Aprendizagem Few-Shot e Fine Tuning em Transformers
- Navegando pela IA de Propósito Geral: Escolhas de Modelos e Insights Práticos

Assista ao episódio completo abaixo:

Compreendendo a Dinâmica dos Transformers: Um Mergulho Profundo no Espaço de Embedding

No domínio da IA e do processamento de linguagem natural, o modelo Transformer reina supremo para o processamento e geração de texto. Mas o que se esconde por trás desta impressionante arquitetura? O artigo inovador, "Analyzing Transformer Dynamics as Movement to Embedding Space", desvenda os mistérios do funcionamento interno do Transformer.

‍

Analyzing Transformer Dynamics as Movement through Embedding Space

Transformer language models exhibit intelligent behaviors such asunderstanding natural language, recognizing patterns, acquiring knowledge,reasoning, planning, reflecting and using tools. This paper explores how theirunderlying mechanics give rise to intelligent behaviors. We adopt a systemsappr…

arXiv.org Sumeet S. Singh

Esta pesquisa começou com o desenvolvimento de um modelo de correção automática para respostas curtas, alcançando uma impressionante taxa de precisão de 80% em diversas disciplinas, mas sem clareza sobre seus mecanismos. Para entender o comportamento do Transformer, o estudo aprofundou-se, explorando inicialmente a atribuição de atenção e a análise de pesos com poucas descobertas, deixando os pesquisadores perplexos.

1. Uma Mudança de Paradigma: Visualizando Transformers no Espaço de Embeddings

O ponto de viragem nesta pesquisa surgiu com a percepção de que o Transformer poderia ser visto como uma série de operadores num espaço de embeddings. Este espaço, como uma paisagem tridimensional, guia as previsões do Transformer. Em vez de procurar padrões de atenção, a perspectiva mudou para ver o Transformer como um rio fluindo por vales e cânions, seguindo caminhos de menor entropia.

2. O Espaço de Embeddings Fixo

Uma vez treinado o modelo, o espaço de embeddings permanece fixo. Quando apresentada a mesma sequência de entrada, ele produz consistentemente embeddings idênticos. Estes embeddings são cruciais na previsão do próximo token, pois determinam as probabilidades atribuídas a cada token na sequência.

3. Proximidade Angular e Previsão de Tokens

A pesquisa revelou que o espaço de embeddings se organizava num espaço limitado que se assemelha a uma esfera, graças à normalização de camada. As previsões de tokens do modelo dependem fortemente da proximidade angular entre o vetor de embedding agregado e os embeddings de tokens individuais.

4. Percurso de Decodificação vs. Percurso de Codificação

Dois percursos distintos moldam o comportamento do Transformer: o percurso de decodificação, que governa a decodificação estocástica e a amostragem de tokens, e o percurso de codificação, um processo determinístico que forma agrupamentos suaves com base na similaridade dos vetores de tokens. O percurso de codificação é um fator chave na transformação de uma sequência de vetores de tokens num único vetor de embedding agregado.

5. Nível de Abstração em Transformers

Ao contrário das redes neurais convencionais, onde as camadas inferiores trabalham em níveis de abstração mais baixos, os Transformers mantêm um nível consistente de abstração em todas as suas camadas. Isso é evidente nas matrizes de embedding de entrada e saída compartilhadas, destacando a natureza única da arquitetura Transformer.

Desmistificando o Espaço de Embeddings em Modelos Transformer

Para compreender o conceito de espaço de embeddings, devemos primeiro reconhecê-lo como o espaço vetorial de tamanho d_model—o tamanho oculto do Transformer. Em termos mais simples, d_model representa a dimensionalidade deste espaço. Por exemplo, em modelos GPT, esta dimensão pode ser substancial, atingindo até 12.000.

Agora, o que é vital compreender é que cada vetor que emerge de cada camada do modelo Transformer reside neste espaço de incorporação (embedding). Isso inclui não apenas os vetores de token de entrada, mas também todos os vetores gerados à medida que se avança pelas camadas, até o topo — culminando no vetor de contexto.

É essencial esclarecer que o tamanho do espaço de incorporação (embedding) não é determinado pelo número de parâmetros no modelo ou pela representação da camada superior. Em vez disso, é definido exclusivamente pelo valor de d_model. Esta distinção fundamental garante que tenhamos uma compreensão clara do que constitui o espaço de incorporação (embedding) nos modelos Transformer.

Decifrando a Mecânica da Previsão de Tokens em Transformers

Na nossa busca para compreender o funcionamento interno dos Transformers, chegamos agora a um ponto crucial: a mecânica da previsão de tokens. Sumeet, com a sua perspetiva perspicaz, elucida os processos intrincados que ditam como os Transformers geram sequências de texto e fazem previsões inteligentes.

1. O Papel do Cabeçalho de Modelagem de Linguagem:

No seu cerne, este cabeçalho de modelagem de linguagem é uma matriz — uma matriz com dimensões d_model por V, onde V representa o tamanho das suas incorporações (embeddings), que pode ser substancial dependendo do seu esquema de tokenização. Esta matriz desempenha um papel crucial no mapeamento de vetores de contexto para probabilidades de token.

2. A Magia dos Produtos Escalares:

A essência da previsão de tokens reside no produto escalar — uma métrica de similaridade que governa a tomada de decisão do Transformer. Quando o vetor de contexto, derivado da camada final do decodificador, passa por uma multiplicação de matriz com o cabeçalho de modelagem de linguagem, resulta num vetor de probabilidades. Esta distribuição de probabilidade determina a probabilidade de cada token na sequência.

3. Mapeando Sequências para a Vizinhança

Agora, vamos considerar o conceito profundo de mapear uma sequência para a vizinhança de um token. O objetivo é transformar uma sequência de tokens, de W_1 a W_t, para a proximidade de W_t+1. Este processo é semelhante a navegar por um caminho que parece inteligente para observadores humanos.

4. A Máquina Inteligente

No cerne desta transformação está a criação de uma máquina inteligente — uma máquina que pega uma sequência e a mapeia habilmente para a vizinhança do próximo token. A inteligência reside na sutileza e coerência do caminho, à medida que cada passo na caminhada é avaliado pelo seu grau de inteligência.

5. O Papel das Codificações de Posição

Ao contrário das Redes Neurais Convolucionais (CNNs), os Transformers não empregam kernels de reconhecimento de padrões. No entanto, existe um elemento fascinante conhecido como codificações de posição relativa dentro das camadas de atenção. Essas codificações estáticas influenciam os pesos de agregação e ajudam a contrariar o auto-viés.

6. Auto-Viés Negativo

Compreender o auto-viés é crucial. Sem as codificações de posição, um vetor de contexto estaria inclinado a atrair vetores semelhantes a si mesmo, resultando em previsões repetitivas. As codificações de posição introduzem um auto-viés negativo, suprimindo a afinidade do vetor de contexto por si mesmo e promovendo a diversidade nas previsões.

7. Kernels de Posição

Aprofundando, descobrimos que os kernels de posição, conforme revelado no artigo, servem para moldar a disposição do auto-viés. Eles distorcem os pesos de agregação, influenciando quais posições são favorecidas e quais não são.

Fonte: https://towardsdatascience.com/transformers-in-depth-part-1-introduction-to-transformer-models-in-5-minutes-ad25da6d3cca?gi=e0dcc7a16b10

Aqui está um blog realmente ótimo que explica a Arquitetura Transformer passo a passo:

‍

The Illustrated Transformer

Discussions:Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments) Translations: Arabic, Chinese (Simplified) 1, Chinese (Simplified) 2, French 1, French 2, Italian, Japanese, Korean, Persian, Russian, Spanish 1, Spanish 2, Vietnamese Watch: MIT’s Deep Learning Sta…

GitHub

‍

Abstrações Únicas das Camadas Transformer

À medida que nos aprofundamos no fascinante mundo dos modelos Transformer, surge uma percepção convincente — uma que distingue os Transformers das redes neurais convencionais como as CNNs. A questão que se coloca é: por que os Transformers operam de forma diferente e como podemos compreender o conceito de embeddings camada por camada?

Distinção Entre Transformers e CNNs:

Transformers operam de forma diferente das CNNs. Nas CNNs, as camadas inferiores geralmente capturam características mais simples, como bordas, enquanto as camadas superiores constroem representações mais complexas.
Em contraste, os Transformers operam dentro do mesmo espaço abstrato em todas as camadas, sem uma hierarquia clara de abstração como nas CNNs.

Compreendendo o Fluxo Residual:

Os Transformers mantêm a uniformidade em seu espaço abstrato em parte devido à presença de um fluxo residual.
Em uma camada Transformer (por exemplo, no codificador), há uma entrada seguida por uma camada de atenção. Um link residual adiciona a saída da camada de atenção de volta à entrada.
Da mesma forma, na camada feed-forward, transformações são aplicadas, e outro atalho adiciona a saída de volta à entrada.
Essa adição consistente de entrada e saída em cada camada garante que as dimensões mantenham o mesmo significado, criando um espaço abstrato unificado.

O Modelo Mental Camada por Camada:

Para ajudar a entender esse fenômeno, o conceito de "embeddings camada por camada" é introduzido.
Nas CNNs, há uma construção hierárquica de camadas de abstração. No entanto, nos Transformers, cada camada contribui para o mesmo espaço abstrato.
Os Transformers desafiam a compreensão tradicional do comportamento das redes neurais ao apresentar uma rede de camadas que trabalham juntas de forma mais unificada.

O Mistério dos Tokens Repetitivos: Modelos Transformer Pequenos vs. Grandes

No mundo dos Transformers, uma observação intrigante é a tendência de modelos menores repetirem tokens, enquanto modelos maiores produzem uma saída mais variada. Sumeet explora esse fenômeno, embora ele careça de uma explicação teórica clara.

Modelos Menores: Transformers menores frequentemente exibem repetição de tokens em texto gerado, destacando uma ligação intrigante entre o tamanho do modelo e a qualidade da saída.
Espaço de Embedding Mais Rico: Um fator chave que contribui para a diferença entre modelos pequenos e grandes é a riqueza do espaço de embedding. Modelos maiores possuem um espaço de características mais extenso e matizado para o processamento intrincado de informações.
Mais Parâmetros para Processamento Granular: Modelos maiores têm mais camadas e parâmetros, especialmente nas camadas feedforward. Isso aprimora sua capacidade de processar informações de maneira sofisticada.
Estratégias de Decodificação: A repetição de tokens pode ser mitigada escolhendo a estratégia de decodificação correta. A Decodificação Gulosa (Greedy Decoding) e a Busca em Feixe (Beam Search) são mais propensas à repetição, enquanto técnicas como amostragem Top-K ou Top-P produzem resultados diversos.
Frases Repetidas: Mesmo em modelos maiores, a repetição ocasional de frases ocorre, revelando a complexidade da geração de texto dentro dos Transformers.

A Noção Enganosa de Aprendizagem em Modelos Transformer

No domínio dos modelos Transformer, surge uma questão crucial: Ocorre uma aprendizagem genuína em contexto nesses modelos, ou é mais apropriado descrevê-la como um conceito inteligentemente formulado? O artigo de pesquisa desafia as noções convencionais de aprendizagem dentro dos Transformers e revela os mecanismos subjacentes.

A aprendizagem tradicional envolve o ajuste de pesos e parâmetros para facilitar a adaptação e resposta de um modelo a novos dados. No entanto, essa compreensão convencional não se alinha com os modelos Transformer. A questão central reside em seu espaço de incorporação fixo e caminhos predefinidos.

Em essência, esses modelos não se envolvem em aprendizagem no sentido tradicional. O espaço de incorporação permanece estático, e os caminhos, embora diversos, são predeterminados. Durante a inferência, não há adaptação ou modificação dos pesos do modelo. Em vez disso, esses modelos navegam por um cenário de possibilidades, com cada elemento ausente servindo como um ponto de partida único.

A pesquisa também aborda o debate contínuo sobre a inteligência e as capacidades de raciocínio desses modelos. Alguns argumentam que eles carecem dos mecanismos para um raciocínio genuíno, baseando-se em previsões baseadas em dados memorizados em vez de uma verdadeira compreensão.

Além disso, o artigo aprofunda o processo de denoising, uma operação fundamental compartilhada por esses modelos. Quando os tokens são aleatoriamente apagados, a rede de contexto permanece intacta, independentemente da posição do token apagado. O modelo consolida habilmente esse contexto dual em um único vetor de contexto, garantindo uma operação contínua, independentemente da localização dos elementos ausentes.

Não há aprendizagem acontecendo. Quer dizer, porque o espaço de incorporação é fixo. Todos os caminhos são fixos. Tudo o que você está fazendo é escolher, selecionar. Então, que aprendizagem há aqui? Seus pesos não estão mudando. Nada! - Sumeet Singh

A Interação entre Aprendizagem em Contexto, Aprendizagem com Poucos Exemplos e Ajuste Fino em Transformers

No paradigma descrito, onde os Transformers navegam por caminhos predeterminados dentro de um espaço de incorporação fixo, as relações entre "Aprendizagem em Contexto", "Aprendizagem com Poucos Exemplos" e "Ajuste Fino" adquirem perspectivas distintas.

1. Aprendizagem em Contexto e Aprendizagem com Poucos Exemplos

Dentro deste paradigma, a Aprendizagem em Contexto e a Aprendizagem com Poucos Exemplos convergem para um conceito compartilhado. Seja um histórico de conversas ou um conjunto de exemplos, ambos se resumem a sequências contextuais. Quando um modelo Transformer encontra um novo contexto, ele seleciona um caminho através do espaço de incorporação com base nesse contexto. Esse processo de seleção de caminho, ditado pelo contexto, define a saída do modelo. Assim, tanto a Aprendizagem em Contexto quanto a Aprendizagem com Poucos Exemplos envolvem o modelo adaptando-se a um contexto fornecido e gerando respostas ou saídas contextualmente relevantes.

2. Ajuste Fino como Modificação de Caminho

O Ajuste Fino Supervisionado, no contexto dos Transformers, representa um processo de alteração dos caminhos predefinidos dentro do espaço de incorporação. Durante o ajuste fino, dados adicionais e objetivos específicos são introduzidos, remodelando a geografia interna do modelo. Embora o mecanismo fundamental — a seleção de caminho — permaneça consistente, o cenário de caminhos disponíveis passa por ajustes para se alinhar com a tarefa de ajuste fino desejada.

3. RLHF e Propagação de Sinal

No caso da Aprendizagem por Reforço a partir de Feedback Humano (RLHF), a principal diferença reside na forma como o sinal de reforço se propaga. Enquanto o ajuste fino supervisionado emprega a perda de entropia cruzada ao nível do token, o RLHF aproveita os sinais de um modelo de avaliação. O que distingue o RLHF é que o sinal de reforço se estende por toda a sequência, influenciando os caminhos do modelo de forma abrangente. No entanto, tanto o RLHF quanto o ajuste fino supervisionado partilham o objetivo comum de remodelar o mapa de ondulações dentro do espaço de incorporação para otimizar o desempenho em tarefas específicas.

📌

Preenchendo a Lacuna: Modelos Transformer em Diferentes Modalidades
Os modelos Transformer possuem uma notável adaptabilidade em diferentes modalidades. Estes modelos transitam sem problemas de texto para imagens, fala e diversos conjuntos de dados.

Tradicionalmente, as sequências têm um fluxo linear de contexto, mas ao mudar para imagens, o conceito de uma sequência linear torna-se intrigante. Modelos como o Bard lidam com isso usando a remoção de ruído (denoising). Tokens em branco, independentemente da sua posição, retêm o contexto. Seja no início, meio ou fim, uma rede de contexto é formada, e o modelo a agrega num único vetor de contexto, adaptando-se sem problemas.

Navegando na IA de Propósito Geral: Escolhas de Modelos e Insights Práticos

Transição para IA de Propósito Geral: Trate os Transformers como máquinas de inteligência versáteis, simplificando as complexidades do modelo.
Variações de Modelo Importam Menos: Um entendimento profundo reduz as distinções entre modelos, enfatizando o desempenho no mundo real.
Seleção Prática de Modelos: Escolha modelos com base na avaliação de tarefas do mundo real, priorizando a eficiência.
Aproveitando a Engenharia de Prompts: Adapte as entradas para uma orientação eficaz sem as complexidades do modelo.
Ajuste Fino Custo-Eficiente: Modelos menores para um desempenho de alto tráfego e custo-eficaz.
Equilibrando Custo e Desempenho: Fatores cruciais para servir eficientemente modelos ajustados em cenários de alto tráfego.

Leia os nossos blogs anteriores na série True ML Talks:

‍

True ML Talks #17 - ML Platforms @ Slack, LLMs and SlackGPT

In this blog, we dive deep into Slack’s Recommend API. Understand their ML architecture, and the LLM use cases in Slack. We go into SlackGPT.

TrueFoundry Blog TrueFoundry

‍

Continue assistindo à série TrueML do YouTube e lendo a série TrueML do blog.

TrueFoundry é uma PaaS de Implantação de ML sobre Kubernetes para acelerar os fluxos de trabalho dos desenvolvedores, ao mesmo tempo que lhes permite total flexibilidade no teste e implantação de modelos, garantindo total segurança e controle para a equipe de Infraestrutura. Através da nossa plataforma, capacitamos as equipes de Machine Learning a implantar e monitorar modelos em 15 minutos com 100% de confiabilidade, escalabilidade e a capacidade de reverter em segundos - permitindo-lhes economizar custos e lançar Modelos em produção mais rapidamente, possibilitando a realização de valor de negócio real.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now