Was sind Einbettungen beim maschinellen Lernen?

von TrueFoundry

Aktualisiert: May 21, 2024

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Foto von Steve Johnson auf Unsplash

Kurzer Überblick:

Einbettungen sind ein wichtiges Werkzeug des maschinellen Lernens. Sie helfen Computern dabei, Daten wie Wörter, Bilder oder Kategorien zu verstehen, indem sie sie als Vektoren in hochdimensionalen Räumen platzieren. In diesem Blog wird untersucht, wie Einbettungen funktionieren, und erklärt, wie sie ähnliche Wörter auf einer konzeptionellen Landkarte nahe beieinander platzieren. Es behandelt verschiedene Arten der Einbettung, z. B. kategorische, Wort-, Text-, Bild-, Audio- und Grafikeinbettungen, sowie beliebte Modelle wie Word2Vec, GloVE, BERT und ResNet. Einbettungen spielen eine entscheidende Rolle bei Aufgaben wie der Reduzierung der Dimensionalität, der semantischen Repräsentation und dem Lernen von Merkmalen, stehen aber auch vor Herausforderungen wie dem Fluch der Dimensionalität und Problemen mit der Interpretierbarkeit. Der Blog schließt mit realen Anwendungen in Bereichen wie NLP, Empfehlungssystemen, Computer Vision, Graphanalyse und Zeitreihenanalyse ab und zeigt, wie vielseitig und wirkungsvoll Einbettungen sein können.

Grundlegendes zu Einbettungen:

Einbettungen sind eine Möglichkeit, Wörter (oder andere Datentypen) als Zahlen in einem hochdimensionalen Raum darzustellen. Stellen Sie sich das so vor, als würden Sie jedem Wort in diesem Raum eine eigene, eindeutige Adresse geben.

Stellen Sie sich vor, Sie haben eine riesige Landkarte und jedes Wort ist eine Stadt. Anstatt Straßennamen und Adressen zu verwenden, verwenden wir jetzt diese hochdimensionalen Zahlen, um die Position jedes Wortes auf der Karte zu lokalisieren. Beachten Sie jedoch, dass Wörter, die in ähnlichen Zusammenhängen verwendet werden oder ähnliche Bedeutungen haben, auf dieser Karte näher beieinander liegen. Zum Beispiel könnten Wörter wie „Hund“ und „Katze“ Nachbarn sein, weil sie oft zusammen in Sätzen vorkommen oder eine ähnliche Verwendung haben.

Diese Einbettungen dienen also dazu, die Beziehungen und Bedeutungen zwischen Wörtern in einem mathematischen Raum zu erfassen.

Gehen wir zu einer formelleren Definition über:

Einbettungen im maschinellen Lernen beziehen sich auf eine Technik, mit der kategoriale Variablen wie Wörter oder Entitäten als kontinuierliche Vektoren in einem hochdimensionalen Raum dargestellt werden. Diese Vektoren werden anhand von Modellen erlernt, die mit großen Datenmengen trainiert wurden. Sie zielen darauf ab, semantische Beziehungen und kontextuelle Informationen zwischen den kategorialen Variablen zu erfassen

Wie werden Einbettungen dargestellt? - Vektoren

Stellen Sie sich vor, Sie haben eine Liste mit Wörtern wie „Hund“, „Katze“, „Banane“ und „Apfel“. Nun wollen wir einem Computer beibringen, sie zu verstehen, so wie wir es tun, aber Computer denken in Zahlen, nicht in Worten. Also geben wir jedem Wort einen speziellen Zahlencode, ähnlich wie eine Adresse.

Aber hier ist der coole Teil: Wir ordnen diese Zahlen so an, dass, wenn zwei Wörter ähnlich sind, ihre Zahlen nahe beieinander liegen. Da zum Beispiel „Hund“ und „Katze“ beide Haustiere sind, könnten ihre Zahlen auf unserer Liste sehr nahe beieinander stehen. Aber „Banane“ und „Apfel“ sind keine Haustiere, daher könnten ihre Zahlen weiter voneinander entfernt sein.

Diese Zahlencodes werden Vektoren genannt. Jedes Wort erhält seinen eigenen Vektor, der nur eine Liste von Zahlen ist. Die Länge dieser Liste hängt davon ab, wie viele verschiedene Dinge das Modell über jedes Wort verstehen soll.

Wenn wir also von „Vektoreinbettungen“ sprechen, meinen wir im Grunde genommen diese Zahlenlisten, die Modellen helfen, Wörter (oder andere Datentypen) besser zu verstehen.

Nehmen wir zum Beispiel an, wir haben eine Worteinbettung für das Wort „Hund“. Es könnte in etwa so aussehen:

Hund = [0.5,0.2, −0.1,0.8]

Hier stehen die Zahlen in den eckigen Klammern für verschiedene Merkmale oder Merkmale des Wortes „Hund“. Das Modell weiß also, dass „Hund“ mit diesen spezifischen Zahlen zusammenhängt, was ihm hilft zu verstehen, was „Hund“ bedeutet und wie es in Sätze oder Ideen passt.

Formal handelt es sich bei Einbettungsdarstellungen um mehrdimensionale Vektoren, die verschiedene Merkmale oder Eigenschaften von Wörtern oder Entitäten kodieren.

Diese Vektoren werden iterativ trainiert, zunächst zufällig gesetzt und dann durch Techniken wie den Gradientenabstieg angepasst, um ähnliche Objekte im Vektorraum näher beieinander auszurichten.

Jede Dimension des Vektors entspricht einem anderen Aspekt, z. B. Syntax, Semantik oder Kontext. Die Länge dieser Vektoren wird in der Regel vom Benutzer oder durch Experimente bestimmt.

Bedeutung der Einbettung

Reduzierung der Dimensionalität: Manchmal haben wir es mit vielen Informationen zu tun, was für ML-Modelle überwältigend sein kann. Einbettungen helfen dabei, diese Informationen zu vereinfachen, indem sie kleiner werden, aber die wichtigen Teile erhalten bleiben. Dies erleichtert den Modellen die Arbeit und hilft ihnen, bessere Entscheidungen zu treffen.
Semantische Repräsentation: Bei Sprachaufgaben sind Wörter wie Puzzleteile. Einbettungen geben jedem Wort einen speziellen Code, der zeigt, welche Bedeutung es hat und wie es zu anderen Wörtern passt. Dies hilft Computern, Sprache besser zu verstehen und Aufgaben wie herauszufinden, ob ein Satz positiv oder negativ ist, Sprachen zu übersetzen und Text zu schreiben.
Lernen von Funktionen: In Bildern passiert eine Menge Dinge, wie Farben, Formen und Objekte. Einbettungen helfen Modellen dabei, die wichtigen Teile von Bildern herauszusuchen und sie in eine einfachere Form zu bringen. Auf diese Weise können Computer Objekte erkennen, Dinge in Bildern finden und verstehen, was in einer Szene passiert.
Transferlernen: Stellen Sie sich vor, Sie lernen etwas Neues, indem Sie auf dem aufbauen, was Sie bereits wissen. Einbettungen helfen Modellen dabei auch. Sie können aus einer Aufgabe lernen und dieses Wissen nutzen, um bei einer anderen Aufgabe besser abzuschneiden, z. B. beim Erlernen neuer Wörter in einer neuen Sprache, indem sie mit Wörtern beginnen, die Sie bereits kennen.
Interpretierbarkeit und Visualisierung: Manchmal ist es schwer zu verstehen, warum ein Modell bestimmte Entscheidungen trifft. Einbettungen helfen dabei, diese Entscheidungen klarer zu treffen, indem sie Einbettungen in einem Raum mit niedrigerer Dimension visualisieren. Dies erleichtert es den Benutzern, Muster zu erkennen und die Funktionsweise des Modells zu interpretieren.
Robustheit gegenüber Rauschen und fehlenden Daten: Beim Umgang mit unübersichtlichen Daten, wie Daten mit Fehlern oder fehlenden Teilen, können Einbettungen helfen. Sie heben die wichtigen Teile hervor, d. h. sie erfassen die intrinsische Struktur der Daten. Dies hilft bei der Verbesserung der Modellleistung, insbesondere in realen Szenarien, in denen die Datenqualität variieren kann.

Arten von Einbettungen:

1. Kategorische Einbettungen:

Kategoriale Einbettungen werden verwendet, um kategoriale Variablen wie Geschlecht, Farbe oder Produktkategorie in einem kontinuierlichen Vektorraum darzustellen. Diese Einbettungen erfassen die Beziehungen und Ähnlichkeiten zwischen verschiedenen Kategorien, sodass Algorithmen effizienter aus kategorialen Daten lernen können.

2. Worteinbettungen:

Worteinbettungen sind vielleicht die bekannteste Art der Einbettung in die Verarbeitung natürlicher Sprache (NLP). Sie ordnen Wörter aus einem Vokabular dichten Vektordarstellungen in einem kontinuierlichen Vektorraum zu. Worteinbettungen erfassen semantische Beziehungen zwischen Wörtern, z. B. Synonyme und Analogien, und werden häufig bei Aufgaben wie Stimmungsanalysen, maschinellen Übersetzungen und der Erkennung benannter Entitäten verwendet.

Zu den beliebten Worteinbettungsmodellen gehören GloVE (Global Vectors for Word Representation), FastText, Word2Vec und Einbettungen, die von transformatorbasierten Modellen wie BERT (Bidirectional Encoder Representations from Transformers) abgeleitet wurden.

3. Texteinbettung:

Während Worteinbettungen die Bedeutung einzelner Wörter erfassen, stellen Texteinbettungen ganze Sätze, Absätze oder Dokumente als dichte Vektoren dar. Modelle wie Doc2Vec, ELMO (Embeddings from Language Models) und BERT wurden mit riesigen Mengen an vortrainierten Einbettungskorpora wie Wikipedia und Google News trainiert.

4. Einbetten von Bildern:

Bildeinbettungen kodieren visuelle Informationen aus Bildern in niedrigdimensionale Vektordarstellungen. Convolutional Neural Networks (CNNs) werden häufig verwendet, um Merkmale aus Bildern zu extrahieren. Diese Merkmale können weiterverarbeitet werden, um Bildeinbettungen zu generieren. Bildeinbettungen werden in Systemen zur Bildklassifizierung, Objekterkennung und zum Abrufen von Bildern verwendet.

5. Einbettung von Audio:

Audioeinbettungen erfassen die Eigenschaften von Audiosignalen in einer kompakten Vektordarstellung. Techniken wie Spektrogrammanalyse und tiefe neuronale Netze werden eingesetzt, um Merkmale aus Audiodaten zu extrahieren, die dann zur Generierung von Audioeinbettungen verwendet werden können. Diese Einbettungen eignen sich für Aufgaben wie Spracherkennung, Klangklassifizierung und Musikempfehlungen.

6. Einbetten von Grafiken:

Grapheinbettungen stellen grafisch strukturierte Daten dar, bei denen Entitäten durch Kanten verbunden sind, in einem kontinuierlichen Vektorraum. Neuronale Graphennetze (GNNs) sind spezialisierte Architekturen, die darauf ausgelegt sind, Einbettungen aus Graphdaten zu lernen. Die Einbettung von Graphen findet Anwendung in der Analyse sozialer Netzwerke, in Empfehlungssystemen und in der Wirkstoffforschung.

Wenn Sie beispielsweise ein soziales Netzwerk studieren, könnte jede Person ein Punkt auf der Landkarte sein, und die Verbindungen zwischen ihnen stehen für Freundschaften. Die Einbettung von Grafiken würde dann zusammenfassen, wer mit wem und wie eng verbunden ist. So können Sie die soziale Struktur besser verstehen, ohne jede einzelne Verbindung einzeln betrachten zu müssen. Es ist wie ein Spickzettel, um komplexe Netzwerke zu verstehen!

Arten von Einbettungsmodellen:

Statistische Einbettungsmodelle

Diese Kategorie umfasst Techniken wie PCA und LDA, die auf statistischen Methoden zur Dimensionsreduktion basieren. Diese Techniken wandeln Daten in niederdimensionale Repräsentationen um, wobei bestimmte statistische Eigenschaften oder klassenbezogene Informationen erhalten bleiben.

1. Hauptkomponentenanalyse (PCA):

Stellen Sie sich vor, Sie haben eine Sammlung von Vektoren, die jeweils unterschiedliche Aspekte Ihrer Daten repräsentieren. Wenn wir über Hauptkomponenten sprechen, finden wir im Wesentlichen die aussagekräftigsten Zusammenfassungen dieser Vektoren. Es ist, als würde man die Essenz des gesamten Datensatzes in einige wichtige Bestandteile zerlegen. Diese Hauptkomponenten erfassen die wichtigsten Muster und Variationen, die in den ursprünglichen Vektoren vorhanden sind. Anstatt uns also mit der Komplexität des gesamten Datensatzes auseinanderzusetzen, können wir mit diesen vereinfachten Darstellungen arbeiten. Dies macht nicht nur die Aufgaben überschaubarer, sondern hilft uns auch, tiefere Einblicke in die zugrunde liegende Struktur unserer Daten zu gewinnen.
Die Hauptkomponentenanalyse (PCA) kann als ein „unbeaufsichtigter“ Algorithmus beschrieben werden, der verwendet wird, um hochdimensionale Daten in einen niederdimensionalen Raum zu transformieren und dabei den größten Teil der Varianz in den Originaldaten beizubehalten.

Dies wird erreicht, indem die Hauptkomponenten identifiziert werden, bei denen es sich um orthogonale Linearkombinationen der ursprünglichen Merkmale handelt. Diese Hauptkomponenten sind nach dem Betrag der Varianz, die sie erklären, geordnet, wobei die erste Komponente die maximale Varianz erfasst und die nachfolgenden Komponenten die abnehmenden Varianzbeträge erfassen.

Durch die Auswahl einer Teilmenge dieser Komponenten, die einen erheblichen Teil der Gesamtvarianz erfassen, ermöglicht PCA die Datenkomprimierung und -visualisierung unter Beibehaltung der grundlegenden Datenstruktur.

Es wird häufig in verschiedenen Bereichen wie Bildverarbeitung, Genetik und Finanzen zur explorativen Datenanalyse, Merkmalsextraktion und Rauschreduzierung eingesetzt.

Hier ist ein Beispiel, das die Verwendung von PCA als Einbettungsmodell zeigt:

‍

2.Lineare Diskriminanzanalyse (LDA):

Während sich PCA auf die Erfassung der maximalen Varianz in den Daten konzentriert, verfolgt die Lineare Diskriminanzanalyse (LDA) einen anderen Ansatz. LDA zielt darauf ab, die linearen Kombinationen von Merkmalen zu finden, die die verschiedenen Klassen oder Gruppen in den Daten am besten voneinander trennen.

Stellen Sie sich vor, Sie haben einen Datensatz mit mehreren Klassen und möchten einen Raum mit niedrigerer Dimension finden, in dem die Klassen gut getrennt sind. LDA macht genau das, indem es den Abstand zwischen den Mittelwerten verschiedener Klassen maximiert und gleichzeitig die Varianz innerhalb jeder Klasse minimiert.

Im Wesentlichen versucht LDA, die Prognosen der Daten zu finden, die die Klassendiskriminierung am besten schützen. Durch diese Transformation der Daten reduziert LDA nicht nur die Dimensionalität, sondern verbessert auch die Trennbarkeit verschiedener Klassen, was es zu einem leistungsstarken Werkzeug für Aufgaben wie Klassifikation und Mustererkennung macht.

Ähnlich wie PCA erzeugt LDA lineare Kombinationen der ursprünglichen Merkmale, aber sein Ziel ist es, die Klassentrennbarkeit und nicht die Gesamtvarianz zu maximieren. Dies macht es besonders nützlich in Szenarien, in denen das Ziel darin besteht, zwischen verschiedenen Kategorien oder Klassen innerhalb der Daten zu unterscheiden.

Wie PCA hat LDA Anwendungen in verschiedenen Bereichen, darunter Bilderkennung, Bioinformatik und Dokumentenklassifizierung. Es hilft dabei, aussagekräftige Muster in Daten aufzudecken und fundierte Entscheidungen auf der Grundlage unterrichtsbezogener Informationen zu treffen.

Hier ist ein Beispiel, das die Verwendung von LDA als Einbettungsmodell zeigt:

Einbettung einer Schicht in neuronale Netze

Eine Einbettungsschicht ist eine spezielle Ebene in einem neuronalen Netzwerk, die dem Modell hilft, kategoriale Daten wie Wörter in einem Satz oder Artikel in einer Einkaufsliste zu verstehen. Diese Kategorie bezieht sich auf die Einbettungsschichten, die in neuronale Netzwerkarchitekturen integriert sind.

Diese Ebenen bilden diskrete kategoriale Variablen, wie Wörter oder Zeichen, in kontinuierliche, dichte Vektoren fester Größe ab. Sie werden häufig für verschiedene NLP-Aufgaben verwendet, können aber auch auf andere Bereiche wie die Bild- und Audioverarbeitung angewendet werden.

Wie funktioniert eine Einbettungsschicht?

Zuordnung: Die Ebene erhält eine Ganzzahleingabe, die einen kategorialen Wert darstellt.
Einbettung: Anschließend wird diese Ganzzahl in einer Einbettungsmatrix nachgeschlagen, die Vektordarstellungen aller möglichen kategorialen Werte enthält.
Ausgabe: Der resultierende Vektor ist die Ausgabe der Einbettungsschicht.

‍

Modelle zur Word-Einbettung

Diese Kategorie umfasst Modelle, die speziell für die Erfassung semantischer Beziehungen und des Kontextes in Textdaten entwickelt wurden. Zu den Beispielen gehören Word2Vec, GloVE, FastText und BERT. Diese Modelle lernen verteilte Repräsentationen von Wörtern auf der Grundlage ihrer gemeinsamen Vorkommensmuster oder Kontextinformationen in großen Textkorpora.

1. Word2Vec:

Word2Vec ist ein prädiktives Einbettungsmodell, das Vektordarstellungen von Wörtern entweder mithilfe der Continuous Bag of Words (CBOW, wobei der Schwerpunkt auf der Vorhersage eines Zielworts auf der Grundlage der umgebenden Kontextwörter liegt) oder der Skip-Gram-Architektur (Schwerpunkt auf der Vorhersage von Kontextwörtern auf der Grundlage eines Zielworts) lernt. Die Vektoren erfassen semantische Beziehungen, die auf dem gleichzeitigen Auftreten von Wörtern basieren.

Im folgenden Beispiel habe ich ein Word2Vec-Modell mit der Skip-Gram-Architektur (sg=1) trainiert. Wir extrahieren dann die Vektordarstellung des Wortes „Liebe“.

import gensim
from gensim.models import Word2Vec

# Sample sentences
sentences = [
    ["I", "love", "machine", "learning"],
    ["I", "love", "deep", "learning"],
    ["I", "love", "NLP"]]
# Train the Word2Vec model
model = Word2Vec(sentences, vector_size=10, window=2, min_count=1, sg=1)

# Get the word vector for 'love'
vector = model.wv['love']
print("Vector representation of 'love':", vector)

Output:
Vector representation of 'love': [-0.00536227  0.00236431  0.0510335   0.09009273 -0.0930295  -0.07116809 0.06458873  0.08972988 -0.05015428 -0.03763372]

‍

2. Handschuh:

GloVE (Global Vectors for Word Representation) ist ein zählbasiertes Einbettungsmodell, das Wortvektoren generiert. GloVE analysiert das gleichzeitige Vorkommen von Wörtern in großen Textmengen wie Büchern oder Artikeln. Das gleichzeitige Vorkommen bedeutet, dass zwei Wörter im Text zusammen oder nahe beieinander erscheinen.

Eine Kovorkommensmatrix ist eine Art von Matrix, die verwendet wird, um die Häufigkeit darzustellen, mit der Wortpaare in einem bestimmten Textkorpus gleichzeitig vorkommen. Das gleichzeitige Vorkommen zweier Wörter bedeutet, dass sie in einem bestimmten Kontextfenster nahe beieinander erscheinen.

Sehen wir uns ein praktisches Beispiel mit vortrainierten GloVE-Vektoren an. Dies sind Vektoren, die bereits aus großen Textkorpora wie Wikipedia berechnet wurden. Sie müssen also nur darauf zugreifen.

import gensim.downloader as api

# Load pre-trained GloVe embeddings (50-dimensional)
glove_vectors = api.load("glove-wiki-gigaword-50")

# Get the vector for a word
vector = glove_vectors['king']

3. Schneller Text:

FastText baut auf dem Word2Vec-Modell auf, stellt jedoch jedes Wort zusammen mit dem ganzen Wort selbst als einen Beutel mit N-Gramm dar. Auf diese Weise kann das Modell Einbettungen für Wörter generieren, die im Trainingskorpus nicht vorhanden waren, indem es die N-Gramm-Einbettungen aufsummiert.

Die wichtigsten Schritte:

Zeichen N-Grams:

FastText zerlegt jedes Wort in N-Gramm. Beispielsweise könnte „apple“ durch die Trigramme „app“, „ppl“ und „ple“ dargestellt werden.

Wortdarstellung:

Das Wort wird durch die Summe seiner N-Gramm-Vektoren zusammen mit dem Vektor für das ganze Wort dargestellt.

Schulung:

FastText trainiert die Wortdarstellungen entweder mithilfe der Continuous Bag of Words (CBOW) - oder der Skip-Gram-Architektur, ähnlich wie bei Word2Vec.

Sehen wir uns ein praktisches Beispiel an, das die FastText-Implementierung von Gensim verwendet.

import gensim
from gensim.models import FastText
# Sample sentences
sentences = [
    ["I", "love", "machine", "learning"],
    ["I", "love", "deep", "learning"],
    ["I", "love", "NLP"]
]
# Train the FastText model
model = FastText(sentences, vector_size=50, window=2, min_count=1)

# Get the word vector for 'learning'
vector = model.wv['learning']

4. BERT:

BERT (Bidirectional Encoder Representations from Transformers) ist ein transformatorbasiertes Modell, das kontextuelle Einbettungen für Wörter generiert und kontextsensitive Bedeutungen erfasst.

Beispiel mit Hugging Face Transformers

import torch
from transformers import BertTokenizer, BertModel

# Initialize the BERT tokenizer and model
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# Sample sentence
sentence = "I love machine learning"

# Tokenize the sentence and get the hidden states
input_ids = tokenizer.encode(sentence, return_tensors='pt')
tokens = tokenizer.convert_ids_to_tokens(input_ids[0])

with torch.no_grad():
    outputs = model(input_ids)

# Find the index of the word 'love' in the token list
token_love_index = tokens.index("love")

# Extract the hidden state for the token 'love'
love_vector = outputs.last_hidden_state[0, token_love_index, :]

In diesem Beispiel verwenden wir die Transformers-Bibliothek von Hugging Face, um die kontextuelle Einbettung für das Wort „Liebe“ aus dem BERT-Modell zu extrahieren.

‍

Modelle zum Einbetten von Bildern

Diese Kategorie umfasst Modelle, die Einbettungen mit fester Größe aus Bildern extrahieren. Beispiele hierfür sind CNN-Architekturen wie VGGNet, ResNet und InceptionNet, die Merkmale aus Bildern auf verschiedenen Abstraktionsebenen extrahieren. Diese Einbettungen erfassen visuelle Informationen über den Inhalt der Bilder.

ResNet:

ResNet (Residual Networks) ist eine beliebte CNN-Architektur, die Restverbindungen verwendet und es ihr ermöglicht, tiefe neuronale Netze effektiv zu trainieren. Diese Verbindungen tragen dazu bei, das Problem des Verschwindens von Gradienten zu entschärfen, das beim Training sehr tiefer Netzwerke auftritt. ResNet wird häufig zur Bildklassifizierung und Merkmalsextraktion verwendet.

So können Sie ein vortrainiertes ResNet-Modell verwenden, um Bildeinbettungen mit PyTorch zu extrahieren:

import torch
import torchvision.models as models
import torchvision.transforms as transforms
from PIL import Image

# Load a pre-trained ResNet model
model = models.resnet50(pretrained=True)

# Remove the final classification layer to get the embeddings
model = torch.nn.Sequential(*(list(model.children())[:-1]))

# Set the model to evaluation mode
model.eval()

# Define the transform for the input image
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# Load and preprocess the input image
img = Image.open("path/to/image.jpg")
img_t = transform(img)
batch_t = torch.unsqueeze(img_t, 0)

# Get the embedding for the input image
with torch.no_grad():
    embedding = model(batch_t).squeeze()

print("Image embedding:", embedding.numpy())

‍

Aufschlüsselung

ResNet laden:

Wir verwenden ein vortrainiertes ResNet-50-Modell von torchvision.models.

Die letzte Klassifizierungsebene wird entfernt, um das verbleibende Netzwerk als Feature-Extraktor zu verwenden.

Transformieren:

Das Bild wird an die Eingabeanforderungen des Modells angepasst, zugeschnitten und normalisiert.

Vorverarbeitung und Weiterleitung:

Das Bild wird in einen PyTorch-Tensor konvertiert und durch das Modell geleitet, um die Einbettung zu erhalten.

‍

Modelle zur Audioeinbettung

Diese Kategorie umfasst Modelle, die zum Extrahieren von Einbettungen fester Größe aus Audiosignalen entwickelt wurden. Beispiele hierfür sind Architekturen wie WaveNet, MFCC-basierte Ansätze, VGGish- und AudioSet-Einbettungen. Diese Einbettungen erfassen akustische Informationen über den Audioinhalt.

Wellen-Netz

WaveNet ist ein von DeepMind entwickeltes tiefengeneratives Modell, das rohe Audiowellenformen erzeugen kann. Es basiert auf erweiterten kausalen Windungen und ermöglicht es so, komplexe Audiostrukturen über lange Zeitskalen hinweg zu modellieren. WaveNet kann auch für Audioeinbettungen verwendet werden, die die akustischen Merkmale des Audioeingangs darstellen.

So können Sie WaveNet verwenden, um mithilfe von tensorflow-wavenet Einbettungen aus einem Audiosignal zu extrahieren:


import tensorflow as tf
import numpy as np
from wavenet_model import WaveNetModel

# Initialize the WaveNet model
wavenet = WaveNetModel(batch_size=1, dilations=[2**i for i in range(10)], filter_width=2,
                       residual_channels=32, dilation_channels=32, skip_channels=512, quantization_channels=256,
                       use_biases=True, scalar_input=True, initial_filter_width=32)

# Load an audio sample
audio = np.load("path/to/audio.npy")
audio = audio.astype(np.float32)

# Generate the embeddings
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    embedding = wavenet.predict_proba(sess, audio)

print("Audio embedding:", embedding)

Anwendungen von Einbettungen:

1. Verarbeitung natürlicher Sprache (NLP):

Bei NLP-Aufgaben wie Stimmungsanalyse, Dokumentenklassifizierung und maschineller Übersetzung spielen Einbettungen eine entscheidende Rolle. Wörter oder Phrasen werden als dichte Vektoren in einem hochdimensionalen Raum dargestellt, in dem ähnliche Wörter näher beieinander liegen. Techniken wie Word2Vec, GloVE und FastText werden häufig verwendet, um Worteinbettungen zu generieren.

Beispielsweise haben bei der Stimmungsanalyse Wörter mit ähnlichen Gefühlen (wie „glücklich“ und „freudig“) wahrscheinlich ähnliche Einbettungen, was dem Modell hilft, den Kontext des Textes zu verstehen.

2. Empfehlungssysteme:

Einbettungen werden häufig in Empfehlungssystemen verwendet, um Benutzer und Artikel (wie Filme, Produkte oder Artikel) darzustellen. Diese Einbettungen erfassen die Präferenzen der Nutzer und die Eigenschaften von Elementen in einem latenten Raum.

Matrixfaktorisierungstechniken wie Singular Value Decomposition (SVD) und kollaborative Filtermodelle nutzen Einbettungen, um personalisierte Empfehlungen abzugeben. Durch das Erlernen von Einbettungen können diese Modelle vorhersagen, wie sehr sich ein Nutzer ein Objekt wünscht, mit dem er noch nicht interagiert hat.

3. Maschinelles Sehen:

Bei Computer-Vision-Aufgaben wie Bildklassifizierung, Objekterkennung und Gesichtserkennung werden Einbettungen verwendet, um Bilder darzustellen und Merkmale zu extrahieren.

Convolutional Neural Networks (CNNs) verwenden häufig Techniken wie Transfer Learning, bei dem vorab trainierte Modelle auf bestimmte Aufgaben abgestimmt werden. In diesen Modellen erfassen Einbettungen in frühen Ebenen generische Merkmale wie Kanten und Texturen, während Einbettungen in späteren Ebenen abstraktere Konzepte wie Formen und Objekte erfassen.

4. Graphische Analytik:

Bei graphenbasierten ML-Aufgaben wie Linkvorhersage, Knotenklassifizierung und Community-Erkennung werden Einbettungen verwendet, um Knoten und Kanten in einem Graphen darzustellen.

Grapheinbettungen erfassen die strukturellen und relationalen Informationen von Knoten in einem Graphen. Techniken wie Node2Vec und GraphSage lernen Einbettungen, indem sie die Nachbarschaftsstruktur des Graphen untersuchen, sodass nachgelagerte Aufgaben diese Einbettungen für Vorhersagen nutzen können.

5. Zeitreihenanalyse:

Einbettungen sind auch bei der Zeitreihenanalyse für Aufgaben wie Anomalieerkennung, Prognose und Mustererkennung nützlich.

Techniken wie Long Short-Term Memory (LSTM) -Netzwerke erlernen die Einbettung zeitlicher Abläufe und erfassen so Abhängigkeiten und Muster im Zeitverlauf. Diese Einbettungen helfen dem Modell, Vorhersagen auf der Grundlage historischer Daten zu treffen.

Herausforderungen und Einschränkungen:

‍

1. Dimensionalität:

Problem: Einbettungsräume sind oft hochdimensional, insbesondere wenn es sich um große Vokabeln oder kategoriale Variablen handelt. Mit zunehmender Dimensionalität werden Datenpunkte spärlich, was es schwieriger macht, aussagekräftige Muster und Beziehungen zu erfassen.
Auswirkung: Dieses Phänomen, bekannt als Fluch der Dimensionalität, beeinträchtigt die Leistung entfernungsbasierter Algorithmen, wodurch Clustering, Suchen nach nächsten Nachbarn und andere räumliche Operationen rechenintensiv und weniger effektiv sind.
Abschwächung: Techniken zur Reduzierung der Dimensionalität wie PCA oder t-SNE können helfen, aber sie können auch zum Verlust wichtiger Informationen führen, insbesondere bei spärlichen und komplexen Datensätzen.

2. Datenspärlichkeit:

Problem: In vielen Anwendungen gibt es seltene oder unsichtbare Kategorien, denen es an ausreichenden Daten mangelt, um zuverlässige Einbettungen zu lernen. Beispielsweise können bei der Verarbeitung natürlicher Sprache einige Wörter selten vorkommen, was zu schlecht trainierten Wortvektoren führt.
Auswirkung: Wenige Daten können zu Einbettungen führen, die sich nicht gut verallgemeinern lassen. Dies beeinträchtigt die Leistung des Modells und führt zu unzuverlässigen Vorhersagen für seltene oder nicht zum Wortschatz passende Elemente.
Abschwächung: Techniken wie Regularisierung, Transferlernen oder die Verwendung von Teilwort-Tokenisierung (z. B. Byte-Paar-Codierung) können bis zu einem gewissen Grad helfen, aber der Umgang mit seltenen Objekten bleibt eine Herausforderung, insbesondere in dynamischen oder sich entwickelnden Bereichen.

‍

3. Interpretierbarkeit:

Problem: Das Einbetten von Modellen, insbesondere von Modellen mit hohen Abmessungen, wird oft als „Blackbox“ angesehen. Diese Modelle zu verstehen und zu debuggen kann eine Herausforderung sein, da die Beziehungen, die sie erfassen, nicht immer intuitiv oder transparent sind.
Auswirkung: Diese mangelnde Interpretierbarkeit kann das Vertrauen in die Modelle beeinträchtigen, die Fehlerbehebung erschweren und die Einhaltung von Vorschriften erschweren, die Erklärungen für automatisierte Entscheidungen erfordern.
Abschwächung: Visualisierungstechniken und Techniken wie Local Interpretable Model-Agnostic Explanations (LIME) können zwar einige Erkenntnisse liefern, aber die Erzielung einer aussagekräftigen und benutzerfreundlichen Interpretierbarkeit bleibt ein aktives Forschungsgebiet

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo