Was ist Vector Indexing? - Ein vollständiger Leitfaden 2024

Aktualisiert: May 22, 2024

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Im Bereich der Datenbankentwicklung hat die Nachfrage nach schnellem und präzisem Datenzugriff zu innovativen Indexierungsmethoden geführt. Da herkömmliche Tabellen für ein umfangreiches Datenmanagement zu kurz kamen, kamen strukturiertere Systeme wie relationale Datenbanken ins Spiel, die fortschrittliche Indexierungsstrategien integrierten. Nehmen wir als Beispiel einen Supermarkt. Die Produkte in Supermärkten werden akribisch in verschiedene Kategorien wie Obst-, Milch- und Backwaren sortiert, wodurch der Einkaufsprozess optimiert wird, indem die Kunden direkt zu ihrem gewünschten Bereich geleitet werden. Diese Methode der physischen Organisation entspricht den Prinzipien der digitalen Indexierung, bei der Daten effizient kategorisiert werden, um einen schnellen Zugriff zu ermöglichen.

Die Vektorindizierung unterstützt viele moderne Anwendungen und verbessert die Benutzerinteraktionen auf verschiedenen Plattformen. Zum Beispiel verwendet Netflix die Vektorindizierung, um seine Empfehlungen zu schärfen und sicherzustellen, dass den Zuschauern Filme und Sendungen präsentiert werden, die ihrem Geschmack entsprechen. Amazon nutzt ähnliche Technologien, um maßgeschneiderte Produktvorschläge zu erstellen und das Einkaufserlebnis zu verbessern, indem es sich am Verbraucherverhalten orientiert. Im Gesundheitswesen beschleunigt die Vektorindizierung das Abrufen von Patientendaten und ermöglicht so schnellere und genauere Diagnosen. Social-Media-Plattformen wie Facebook nutzen diese Technologie, um Feeds und Werbung individuell anzupassen und dabei Inhalte zu priorisieren, die den Präferenzen der Nutzer entsprechen. Dieser strategische Einsatz der Vektorindizierung steigert sowohl die Effizienz als auch die Nutzerzufriedenheit erheblich und zeigt, wie wichtig sie bei der Umwandlung von Rohdaten in umsetzbare Erkenntnisse ist.

Was sind Vektor-Einbettungen?

Vektoreinbettungen sind eine transformative Art der Datendarstellung, die es Maschinen ermöglicht, verschiedene Informationsformen effizienter zu verstehen und zu verarbeiten. Im Wesentlichen wandeln Einbettungen komplexe Elemente — ob es sich um Wörter, Bilder oder Töne handelt — in numerische Vektoren fester Größe um, die die wesentlichen Merkmale der Daten erfassen.

Stellen Sie sich vor, Sie versuchen, einem Computer beizubringen, zwischen verschiedenen Arten von Musik zu unterscheiden. Indem Songs anhand von Merkmalen wie Tempo, Rhythmus und Instrumentierung in Einbettungen umgewandelt werden, wird jedes Lied zu einem Punkt in einem mehrdimensionalen Raum. Songs mit ähnlichen Merkmalen gruppieren sich in diesem Raum, ähnlich wie sich verschiedene Genres in einem Musikgeschäft zusammenschließen könnten. Diese räumliche Anordnung ermöglicht es Algorithmen, Muster und Ähnlichkeiten leicht zu erkennen, was für Aufgaben wie Musikempfehlungen oder die Klassifizierung von Genres von entscheidender Bedeutung ist.

In einem alltäglicheren Kontext kannst du dir Einbettungen wie das Verständnis deiner Präferenzen durch eine Social-Media-App vorstellen. Basierend auf den Arten von Posts, mit denen Sie interagieren, entwickelt die App ein numerisches „Profil“, das Ihre Vorlieben und Abneigungen darstellt. Anhand dieses Profils entscheidet sie dann, welche neuen Inhalte dir angezeigt werden sollen. Ziel ist es, Beiträge, die deinem Profil nahe kommen, in ihrem mehrdimensionalen Bereich der Inhaltseinbettungen zu präsentieren.

Grundlegendes zu Vektorindizes

Die Vektorindizierung spielt eine entscheidende Rolle bei der Verwaltung und beim Abrufen hochdimensionaler Daten, die in Vektorräumen gespeichert sind. Aber zuerst, was ist in diesem Zusammenhang ein Vektorraum? Im Wesentlichen handelt es sich um ein mathematisches Konstrukt, bei dem jeder Punkt ein bestimmtes Datenelement — wie Text, Bilder oder Töne — darstellt, das in ein numerisches Format umgewandelt wurde, das als Vektor bezeichnet wird. Diese Vektoren erfassen die wesentlichen Merkmale der Daten und ermöglichen so die Durchführung komplexer Berechnungen.

Vektor-Transformation: Der Prozess beginnt mit der Umwandlung von Rohdaten in Vektoren. Jeder Vektor quantifiziert wichtige Merkmale des Originalinhalts und übersetzt komplexe Informationen in eine Sprache, die Computersysteme effizient verstehen und verarbeiten können.
‍Aufbau des Indexes: Sobald Daten in Vektoren umgewandelt sind, besteht der nächste Schritt darin, einen Index zu erstellen, um diese Vektoren systematisch zu verwalten. Verschiedene Algorithmen werden eingesetzt, um das Speichern und Abrufen dieser Vektoren zu optimieren, wodurch der Suchraum effektiv reduziert und die Leistung verbessert wird.
‍Gruppierung ähnlicher Vektoren: Techniken wie K-Means-Clustering, Hierarchical Navigable Small World (HNSW) oder Produktquantisierung werden verwendet, um ähnliche Vektoren in Gruppen zu organisieren. Beim K-Means-Clustering werden beispielsweise Vektoren anhand ihrer Ähnlichkeiten in Cluster unterteilt, wodurch der Suchvorgang optimiert wird, da bei einer Abfrage nur die relevanten Cluster im Mittelpunkt stehen.
‍Effiziente Suche: Wenn eine Abfrage gestellt wird, z. B. wenn ein Benutzer nach einem Bild sucht, das seinem aktuellen ähnelt, identifiziert das Indexsystem schnell den Cluster, der Vektoren enthält, die der Abfrage am ähnlichsten sind. Anschließend führt es eine gezielte Suche innerhalb dieses Clusters durch, wodurch das Abrufen relevanter Ergebnisse erheblich beschleunigt wird.

Durch diese Schritte ermöglicht die Vektorindizierung den schnellen und genauen Zugriff auf riesige Datensätze und wandelt Rohdaten in umsetzbare Erkenntnisse um.

Kerntechniken zur Vektorindizierung

Invertierte Indizes:

Invertierte Indizes sind eine grundlegende Datenstruktur, die in Suchmaschinen und Informationsabrufsystemen häufig verwendet wird. Sie ermöglichen eine effiziente Abfrage großer Datensätze, indem Inhalte ihren Speicherorten in einer Datenbank zugeordnet werden. Im Folgenden werden das grundlegende Konzept und einige spezifische Typen von invertierten Indizes, einschließlich Varianten der Inverted File (IVF) -Indizierungstechnik, eingehend betrachtet:

‍

Vorwärtsindizierung:

Document ID	Name of Word it contains
1	Apple
2	Apple
3	Mango
4	Orange
5	Apple
6	Pineapple
7	Mango
8	Orange

Umgekehrte Indizierung:

Apple	1,2,5
Mango	3,7
Orange	4,8
Pineapple	6

Grundlegendes Beispiel zur Veranschaulichung des Unterschieds zwischen vorwärts und inverser Indexierung

‍

Umgekehrter Grundindex:

Im Kern besteht ein umgekehrter Index aus einem Wörterbuch, in dem jedes Wort oder jeder Begriff einer Liste von Dokumenten zugeordnet ist, in denen dieser Begriff vorkommt. Dies ist im Wesentlichen eine „Umkehrung“ der normalen Beziehung zwischen Dokument und Wort, daher der Name. Dieses Setup beschleunigt das Auffinden aller Dokumente, die ein bestimmtes Wort enthalten, erheblich.

Variationen und Verbesserungen:

Positionsindizes: Um Phrasen- und Näherungsabfragen zu unterstützen, müssen häufig nicht nur die Dokumentkennungen (IDs) gespeichert werden, an denen ein Wort vorkommt, sondern auch die spezifischen Positionen innerhalb dieser Dokumente. Auf diese Weise kann die Suchmaschine schnell Dokumente finden, in denen die Wörter nicht nur vorkommen, sondern auch in einer bestimmten Reihenfolge oder innerhalb eines bestimmten Abstands voneinander.
‍Informationen zur Frequenz: Einige Implementierungen speichern die Häufigkeit jedes Wortes in jedem Dokument. Dies kann für die Optimierung von Abfrageausführungsplänen nützlich sein, da Dokumente mit höheren Termhäufigkeiten je nach Abfrage als relevanter erachtet werden können.
‍Doppelte Indizes: Einige Systeme verwalten zwei separate invertierte Listen: eine für Dokument-IDs und Häufigkeiten und eine weitere für vollständige Wortpositionen. Bei einfachen Abfragen können die kürzeren Listen verwendet werden, während bei komplexeren Suchen, bei denen es um räumliche Nähe geht, die detaillierten Positionslisten verwendet werden können.

Varianten invertierter Dateien (IVF):

VIFFLATT: Verwendet ein flaches Speichermodell in jedem Cluster für vereinfachte und effiziente Suchvorgänge, was besonders effektiv bei mittelgroßen Datensätzen ist, bei denen eine hohe Genauigkeit erforderlich ist.
‍IVFPQ (Produktquantisierung): Steigert die Effizienz, indem hochdimensionale Vektoren in kleinere Unterräume zerlegt werden, die unabhängig voneinander quantisiert werden, was schnelle Ähnlichkeitssuchen und einen geringeren Speicherbedarf ermöglicht.
‍IVFSQ (Skalare Quantisierung): Verwendet skalare Quantisierung, um den Kodierungsprozess zu vereinfachen, indem jede Dimension separat behandelt wird, wodurch die Rechenkomplexität und der Speicheraufwand reduziert werden, ideal für niederdimensionale Daten.

Kompressionstechniken:

Kodierung mit variabler Länge: Durch die Verwendung von Methoden wie Ganzzahlen mit variabler Länge zum Speichern von Dokument-IDs und -Positionen kann der benötigte Speicherplatz erheblich reduziert werden.
Delta-Kodierung: Indem nur der Unterschied zwischen aufeinanderfolgenden Dokument-IDs oder Positionen gespeichert wird, kann die Delta-Codierung den Platzbedarf weiter reduzieren, da die Unterschiede oft kleiner sind als die absoluten Werte.

Fortschrittliche Strukturen für verbesserte Effizienz:

Struktur der Gruppenliste: Eine Anpassung des invertierten Indexes, bei der Dokumentbezeichner gruppiert werden, wodurch die Effizienz bei der Ausführung von Operationen wie Überschneidung oder Vereinigung erhöht wird, die bei der Abfrageverarbeitung üblich sind.

Anwendungsfälle und Anwendungen:

Invertierte Indizes sind nicht nur in Suchmaschinen von entscheidender Bedeutung, sondern auch in Systemen, die mit halbstrukturierten Daten (wie XML- und RDF-Datenbanken) umgehen, und in Grafik-Suchmaschinen, die in sozialen Netzwerken verwendet werden. Die Effizienz dieser Indizes wirkt sich direkt auf die Leistung und Skalierbarkeit dieser Systeme aus.

Die hierarchische navigierbare kleine Welt (HNSW)

Illustration der hierarchischen NSW-Idee. Die Suche beginnt mit einem Element der obersten Ebene (rot dargestellt). Rote Pfeile zeigen die Richtung des Greedy-Algorithmus vom Einstiegspunkt zur Abfrage an (grün dargestellt). Adaptiert von https://arxiv.org/abs/1603.09320

Der HNSW-Algorithmus stellt einen fortschrittlichen graphbasierten Ansatz für die Indizierung und Suche hochdimensionaler Daten dar. Er nutzt effizient eine vielschichtige Struktur, die sich von Skip-Listen und Navigable Small World (NSW) -Netzwerken inspirieren lässt, um sowohl die Speicherung als auch die Suchvorgänge in Datenbanken zu optimieren.

HNSW verstehen:

Liste überspringen Inspiration: In einer herkömmlichen Skip-List sind Daten auf mehreren Ebenen organisiert. Jede Ebene enthält eine Teilmenge der Daten, wobei die unterste Ebene alle Datenpunkte enthält und jede nachfolgende Ebene schrittweise einige Punkte überspringt. Diese Schichtstruktur ermöglicht effiziente Suchpfade, indem oben begonnen und anhand von Vergleichen die Ebenen eingegrenzt werden.
‍Navigierbare Kleine Welt (NSW): NSW entwickelt das Konzept, Datenpunkte (Knoten) in einem Diagramm zu verbinden, das auf Ähnlichkeit basiert. Dabei wird ein gieriger Algorithmus verwendet, um die nächsten Nachbarn zu finden. Dies stellt sicher, dass die Suche auch in großen, komplexen Datensätzen effizient ist, indem von einem bekannten Knoten ausgegangen wird und schrittweise zu näher gelegenen Knoten übergegangen wird, bis der nächstgelegene gefunden wird.

So funktioniert HNSW:

Mehrschichtige Graphstruktur: HNSW verwendet ein geschichtetes Diagramm, bei dem jeder Knoten mit anderen Knoten in derselben Ebene und auch mit Knoten in der nächstniedrigeren Ebene verbunden ist. Die oberste Ebene hat die wenigsten Knoten und nimmt an Dichte zu, je weiter die Ebenen absteigen. Dieses Setup ahmt die effiziente Suchstrategie der Skip-Liste nach, ist jedoch an die Komplexität hochdimensionaler Datenräume angepasst.
‍Suchvorgang in HNSW: Eine Suche beginnt auf der obersten Ebene, indem Knoten untersucht werden, die mit einem vordefinierten Startpunkt verbunden sind, und zu dem Knoten übergeht, der der Zielabfrage am nächsten ist. Die Suche verläuft abwärts durch die Ebenen, wodurch der Suchraum eingeengt wird, bis die unterste Ebene erreicht ist, die alle Datenpunkte enthält. Diese Methode stellt sicher, dass die Suche gründlich ist und potenzielle nächste Nachbarn einbezieht.

Varianten von HNSW:

HNSW-FLACH: In dieser Variante werden Rohvektoren direkt in den Knoten des Graphen gespeichert. Diese Variante ist unkompliziert und behält die Originaldaten bei, benötigt aber mehr Speicherplatz.
‍HNSWSQ: HNSWSQ spiegelt den Ansatz der skalaren Quantisierung in IVFSQ wider und speichert Vektoren in einem quantisierten Format, was den Speicherbedarf reduziert und die Suchgeschwindigkeit auf Kosten einer leichten Verringerung der Präzision erhöhen kann.

Anwendungsfälle und Anwendungen:

HNSW ist besonders effektiv für Anwendungen, die einen schnellen Zugriff auf ähnliche Elemente in großen Datensätzen erfordern, wie z. B. das Abrufen von Bildern, Empfehlungssysteme und andere Szenarien mit komplexen Ähnlichkeitssuchen. Sein Design ermöglicht skalierbare und effiziente Abfragen, da die Entfernungsberechnungen minimiert werden, die erforderlich sind, um die nächsten Nachbarn zu finden, was es zu einer bevorzugten Wahl für Systeme macht, die große Datenmengen verarbeiten.

Lokalitätssensitives Hashing (LSH)

LSH im Überblick:

Locality Sensitive Hashing optimiert die Suche nach den nächsten Nachbarn, indem Hash-Funktionen verwendet werden, die auf die Lokalität der Daten „sensibel“ reagieren. Das bedeutet, dass Vektoren, die im Datensatz nahe beieinander liegen, wahrscheinlich zu demselben „Bucket“ oder Bin in der Hash-Tabelle gehasht werden.

So funktioniert LSH:

Hashing-Funktion: LSH verwendet eine bestimmte Art von Hashing-Funktion, die eng beieinander liegende Vektoren in demselben Hash-Bucket gruppiert. Diese Funktionen sind so konzipiert, dass die Wahrscheinlichkeit einer Kollision (d. h. eines Hashings auf denselben Bucket) für Elemente, die im Vektorraum nahe beieinander liegen, höher ist.
Aufbau des Indexes: Während der Indizierungsphase werden Vektoreinbettungen aus dem Datensatz mithilfe dieser Funktionen gehasht. Vektoren, die ähnlich sind, landen im selben Bucket, wodurch die Notwendigkeit reduziert wird, den gesamten Datensatz nach den nächsten Nachbarn zu durchsuchen.
‍Bearbeitung von Abfragen: Wenn ein Abfrage-Vektor übermittelt wird, hasht LSH diesen Vektor, um den entsprechenden Bucket zu finden. Die Suche nach den nächsten Nachbarn ist dann nur auf diesen Bucket beschränkt. Das System berechnet Ähnlichkeitsmetriken für Vektoren innerhalb dieses Buckets, wodurch die Anzahl der benötigten Vergleiche im Vergleich zu Methoden, bei denen der gesamte Datensatz durchsucht werden muss, drastisch reduziert wird.

Anwendungsfälle und Anwendungen:

Empfehlungssysteme: Schnelles Auffinden von Artikeln, die den Interessen eines Benutzers ähneln.

Abrufen von Bildern: Suche nach Bildern, die einem Abfragebild visuell ähnlich sind.

Erkennung nahezu doppelter Kopien: Identifizierung ähnlicher Textdokumente oder Multimediadateien in großen Datenbanken.

Einige Beispiele für hierarchische LSH-Anwendungen. Adaptiert von https://arxiv.org/pdf/2204.11209

Einige andere Indexierungstechniken, die hier nicht behandelt werden, sind Ball-Tree, KD-Tree (K Dimensional Tree), R-Tree, Annoy (Approximate Nearest Neighbors Oh Yeah).

Fazit

Zusammenfassend lässt sich sagen, dass die Vektorindizierung eine grundlegende Komponente ist, die Datenabrufprozesse in verschiedenen Branchen und Anwendungen verbessert. Von Medienstreaming-Diensten wie Netflix, die ihre Empfehlungsalgorithmen optimieren, bis hin zu E-Commerce-Giganten wie Amazon, die das Einkaufserlebnis ihrer Kunden verbessern — der strategische Einsatz der Vektorindizierung ist entscheidend, um riesige Datenmengen in umsetzbare, personalisierte Erkenntnisse umzusetzen. Plattformen im Gesundheitswesen und in sozialen Netzwerken nutzen diese ausgeklügelten Indexierungsstrategien ebenfalls, um bessere Dienste und eine bessere Inhaltsrelevanz zu bieten, was die weitreichende Anwendbarkeit und Effektivität dieser Technologien unter Beweis stellt.

Bei der Erforschung der Vektorindizierung haben wir uns mit verschiedenen Techniken wie dem Inverted Index, Hierarchical Navigable Small World (HNSW) und Locality Sensitive Hashing (LSH) befasst, die jeweils über einzigartige Eigenschaften verfügen, die für unterschiedliche Datenstrukturen und Anforderungen geeignet sind. Diese Techniken rationalisieren nicht nur den Prozess des Datenabrufs, sondern sorgen auch für Skalierbarkeit und Effizienz, die in der heutigen datengesteuerten Welt unerlässlich sind.

Da sich die Vektorindizierung ständig weiterentwickelt, wird es für Entwickler, Datenwissenschaftler und Unternehmen, die das volle Potenzial ihrer Datenressourcen nutzen wollen, von entscheidender Bedeutung sein, mit diesen Technologien auf dem Laufenden zu bleiben. Künftige Fortschritte werden wahrscheinlich noch optimiertere Methoden einführen, wodurch die Geschwindigkeit und Genauigkeit von Datenabrufsystemen weiter verbessert werden.

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo