AI Gateway On Premise : A Complete Guide

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

In der heutigen KI-gesteuerten Welt benötigen Unternehmen aller Branchen, vom Gesundheitswesen bis zum Finanzwesen, Systeme, die schnelle, sichere und zuverlässige Informationen liefern. Der Einsatz einer KI-Infrastruktur vor Ort erfüllt diese Anforderungen, indem die Daten innerhalb der Unternehmensgrenzen bleiben, die Latenz reduziert und die Abhängigkeit von öffentlichen Clouds minimiert wird. Dieses Setup gewährleistet die strikte Einhaltung von Vorschriften wie HIPAA oder GDPR und ermöglicht gleichzeitig Benutzererfahrungen in Echtzeit und volle Betriebsautonomie.

Das lokale AI Gateway von TrueFoundry bietet eine einheitliche OpenAI-kompatible API für den sicheren Zugriff auf über 250 Modelle innerhalb Ihrer Infrastruktur. Es integriert wichtige Verwaltungsfunktionen wie Zugriffskontrolle, Ratenbegrenzung, Leitplanken und Auditprotokollierung am Gateway, um die Einhaltung von Vorschriften und Rechenschaftspflicht sicherzustellen. Es wurde so konzipiert, dass die Entscheidungsfindung im Speicher und ohne externe Aufrufe im Anforderungspfad erfolgt, wodurch eine extrem niedrige Latenz und eine hohe Zuverlässigkeit erreicht werden.

In diesem Blog erfahren Sie, wie die Architektur funktioniert, warum die Bereitstellung vor Ort wichtig ist und welche Best Practices für Bereitstellung und Verwaltung gelten.

Warum On‑Premise wichtig ist

Unternehmen entscheiden sich zunehmend für KI-Bereitstellungen vor Ort, um Kontrolle, Sicherheit, Leistung und Kostenstabilität zu verbessern.

Erstens bieten On-Premise-Umgebungen Datenhoheit. Vertrauliche Informationen wie Krankenakten, Finanztransaktionen oder firmeneigene Forschung und Entwicklung verbleiben im eigenen Netzwerk des Unternehmens. Dieser Ansatz gewährleistet die Einhaltung von Vorschriften wie GDPR, HIPAA und PCI-DSS, wodurch das Expositionsrisiko reduziert und Audits vereinfacht werden.

Zweitens verbessern diese Einrichtungen die Sicherheit und Verwaltung. Interne Teams überwachen direkt die Verschlüsselung, das Zugriffsmanagement und die Audit-Trails, wodurch eine engere Kontrolle über den Umgang mit Daten gewährleistet wird und die Abhängigkeit von externen Anbietern verringert wird. Dies ist für Branchen mit hoher Datensensibilität und behördlicher Kontrolle unerlässlich.

Drittens sind die Leistungsvorteile erheblich. Durch die Platzierung von Rechenleistung und Daten minimieren diese Systeme die Latenz, was für Echtzeitanwendungen wie Betrugserkennung, vorausschauende Wartung und autonome Systeme von entscheidender Bedeutung ist. Die Bereitstellung vor Ort umgeht Internetvariabilität und Cloud-Drosselung und sorgt so für eine konsistentere Leistung.

Viertens: Obwohl die Vorabinvestitionen für Hardware und Infrastruktur beträchtlich sein können, bietet KI vor Ort oft eine bessere langfristige Kostenvorhersehbarkeit für anhaltende Workloads. Dadurch entfallen variable Kosten wie Cloud-Token-Preise und Ausgangsgebühren. Studien zeigen, dass die Wartung der Hardware in Ihrem eigenen Rechenzentrum im Laufe der Zeit kostengünstiger sein kann, als sich auf Cloud-Dienste zu verlassen.

Viele Unternehmen setzen jetzt auf hybride Architekturen, bei denen On-Premise- und Cloud-Implementierungen kombiniert werden. Diese Strategie ermöglicht es, sensible Workloads vor Ort zu halten und gleichzeitig die Skalierbarkeit der Cloud für weniger kritische Aufgaben zu nutzen. Sie bietet einen ausgewogenen Ansatz, der die Einhaltung gesetzlicher Vorschriften, Leistung und Flexibilität kombiniert.

Zusammenfassend lässt sich sagen, dass die Wahl von KI vor Ort unübertroffene Datenkontrolle, verbesserte Sicherheit, Leistung mit niedriger Latenz und stabile Kostenstrukturen bietet. Diese Faktoren machen sie zu einer strategischen Priorität für Unternehmen, die sensible oder unternehmenskritische Workloads bearbeiten. Im nächsten Abschnitt werden wir untersuchen, wie Sie diese Vorteile mit dem On-Premise-KI-Gateway von TrueFoundry auf skalierbare Weise umsetzen können, bei der Governance an erster Stelle steht.

Key Metrics for Evaluating Gateway

Criteria	What should you evaluate ?	Priority	TrueFoundry
Latency	Adds <10ms p95 overhead for time-to-first-token?	Must Have	✅ Supported
Data Residency	Keeps logs within your region (EU/US)?	Depends on use case	✅ Supported
Latency-Based Routing	Automatically reroutes based on real-time latency/failures?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported

Evaluating an AI Gateway?

A practical guide used by platform & infra teams

Kernprinzipien und Architektur

KI-Gateways vor Ort müssen mehrere grundlegende Prinzipien einhalten, um Bereitstellungen auf Unternehmensebene zu unterstützen.

Hohe Verfügbarkeit stellt sicher, dass das Gateway niemals zu einer einzigen Ausfallstelle wird. Selbst wenn abhängige Komponenten wie Datenbanken oder Warteschlangen ausfallen, muss die Inferenzierung ununterbrochen fortgesetzt werden.

Niedrige Latenz ist entscheidend; Gateways sollten Live-Anfragen nur geringfügig verzögern, um ein responsives KI-Erlebnis zu gewährleisten.

Hoher Durchsatz und Skalierbarkeit sind auch entscheidend. Jeder Gateway-Knoten sollte hohe Parallelität bewältigen und je nach Bedarf skalieren, um eine gleichbleibende Leistung unter Last zu gewährleisten.

Keine externen Abhängigkeiten im Anforderungspfad bedeutet, dass die Bearbeitung von Live-Anfragen nicht auf Netzwerk- oder Festplattenaufrufen beruhen kann. Unwichtige Aufgaben wie die Protokollierung werden in den Hintergrund verschoben.

In-Memory-Entscheidungsfindung unterstützt die Durchsetzung von Richtlinien wie Authentifizierung, Autorisierung, Ratenbegrenzung und Routing im Bruchteil einer Millisekunde.

Trennung von Steuerungsebene und Datenebene ermöglicht den Betrieb der Konfiguration und Verwaltungslogik unabhängig von der Live-Datenverkehrsverarbeitung, was die Stabilität, einfache Aktualisierungen und horizontale Skalierung erleichtert.

Architektur

Die Architektur eines lokalen KI-Gateways wendet diese Prinzipien in einem modularen und verteilten System an.

Die Datenebene besteht aus zustandslosen Proxyknoten, die den Inferenzverkehr in Echtzeit verarbeiten. Alle Richtlinienprüfungen finden während der Anforderungsverarbeitung im Speicher statt. Protokolle und Metriken werden asynchron an Hintergrund-Pipelines gesendet, wodurch Auswirkungen auf die Latenz vermieden werden. Selbst wenn die Telemetrie-Infrastruktur ausfällt, läuft der Verkehr ununterbrochen weiter.

Die Steuerungsebene verwaltet die Konfiguration und Richtlinien wie Modellzugriffsregeln, Ratenlimits und Leitplanken. Es verteilt Updates mithilfe ereignisbasierter Mechanismen an Knoten auf der Datenebene und ermöglicht so reibungslose Updates ohne Betriebsunterbrechung.

Eine asynchrone Telemetriepipeline aggregiert Protokolle und Metriken über gepufferte Warteschlangen in leistungsstarken Datenspeichern. Dieses Design gewährleistet die Beobachtbarkeit, ohne sie an die Leistung der Anforderungsverarbeitung zu koppeln.

Schließlich sind beide Ebenen für die horizontale Skalierung konzipiert. Knoten der zustandslosen Datenebene können hinter Load Balancern repliziert werden, während Knoten auf der Kontrollebene unabhängig skaliert werden, um die politische Orchestrierung und die Widerstandsfähigkeit des Systems zu unterstützen.

Diese kombinierten Prinzipien und Architekturen ermöglichen es lokalen KI-Gateways, schnell, robust, sicher und auf Unternehmensebene verwaltbar zu sein. Im nächsten Abschnitt werden wir uns eingehender mit der Implementierung dieser Konstrukte durch TrueFoundry befassen.

Das lokale KI-Gateway von TrueFoundry

Das On‑Prem AI Gateway von TrueFoundry basiert auf grundlegenden Prinzipien, um eine skalierbare, sichere und leistungsstarke Plattform für KI-Workloads bereitzustellen. Hier finden Sie eine detaillierte Aufschlüsselung seiner Funktionen und internen Abläufe, die ausschließlich auf der offiziellen TrueFoundry-Dokumentation basiert.

1. Hochleistungskern

Das Gateway von TrueFoundry basiert auf dem Hono-Framework, einer leichten, Edge-optimierten Runtime, die auf Geschwindigkeit ausgelegt ist. Benchmarks zeigen, dass eine einzelne Proxy-Instanz mit nur 1 CPU und 1 GB RAM 250 Anfragen pro Sekunde mit nur wenigen Millisekunden zusätzlicher Latenz verarbeiten kann. Alle wichtigen Durchsetzungsvorgänge, Authentifizierung, Autorisierung, Ratenbegrenzung und Routing werden im Speicher ausgeführt, und während der Anforderungsverarbeitung finden absolut keine externen Aufrufe statt. Dies gewährleistet Reaktionszeiten unter einer Millisekunde und eine gleichbleibende Leistung unter Last.

2. Saubere Trennung der Verantwortlichkeiten

Das Gateway folgt einer klassischen Aufteilung von Kontrollebene/Proxyebene:

Proxy-Ebene
Stellt statuslose Pods bereit, die den Live-KI-Inferenzverkehr direkt verarbeiten. Sie setzen Richtlinien durch und leiten Anfragen weiter, ohne auf Datenbanken oder externe Dienste zurückgreifen zu müssen. Dieses Design unterstützt die horizontale Skalierung und stellt sicher, dass das System elastisch mit der Nachfrage wächst.
Kontrollebene
Zentralisiert Konfiguration, Richtlinien und Metadaten. Es verwaltet Modellzugriffsregeln, Ratenbegrenzungen und Leitplanken und verteilt Updates über einen internen Bus. Diese Trennung ermöglicht Konfigurationsänderungen, ohne den laufenden Verkehr zu stören.

3. Resiliente und asynchrone Protokollierung

Um die Leistung zu erhalten, werden Protokollierung und Telemetrie asynchron verwaltet:

Proxy-Pods geben Metriken und Audit-Logs an eine Nachrichtenwarteschlange (NATS) aus.
Die Protokolle werden von separaten Systemen wie ClickHouse erfasst und bieten Such-, Analyse- und Beobachtbarkeits-Dashboards.
Die Warteschlange ist nicht blockierend: Selbst wenn Downstream-Systeme ausfallen, werden Anfragen weiterhin verarbeitet, sodass sichergestellt wird, dass keine einzelne Abhängigkeit zu Ausfällen führen kann.

4. Kernkomponenten des Systems

Das Gateway von TrueFoundry besteht aus mehreren eng integrierten Komponenten:

Frontend/UI: Bietet einen interaktiven API-Spielplatz und Konsolen zum Konfigurieren von Richtlinien, Anzeigen von Analysen und Verwalten von Modellen.
Postgres: Speichert Metadaten wie Benutzerteams, Berechtigungen, Rateneinstellungen und Routing-Konfigurationen.
Klicken Sie auf Haus: Ein leistungsstarker Datenspeicher für Protokolle, Nutzungsmetriken und Audit-Trails.
NATS: Eine schlanke Nachrichtenwarteschlange, die für die Übertragung von Konfig- und Telemetriedaten in Echtzeit verantwortlich ist.
Backend-Dienst: Bridges UI, Proxy, NATS, Postgres und ClickHouse, orchestriert die gesamte Gateway-Funktionalität.
Gateway-Pods: Zustandslose, Edge-optimierte Container, die Inferenzen verwalten, Richtlinien durchsetzen, Telemetriedaten sammeln und KI-Anfragen weiterleiten.

5. Skalierbarkeit und Benchmarking

Die Dokumentation von TrueFoundry hebt die starke lineare Skalierbarkeit hervor:

Ein einzelner Pod verarbeitet 250 RPS mit minimalen Auswirkungen auf die Latenz.
Die Latenz bleibt niedrig, bis die CPU-Sättigung bei etwa 350 RPS pro Pod liegt.
Durch die Bereitstellung mehrerer Pods kann das System mühelos auf Zehntausende von Anfragen skaliert werden.

6. Verwaltung und einheitliche API

Die OpenAI-kompatible Schnittstelle ermöglicht den nahtlosen Zugriff auf über 250 Modelle mit konsistenten Anforderungsformaten.
Die integrierte Governance umfasst Zugriffskontrolle, Ratenbegrenzung, Modellauswahl, Ausweichregeln und Auditprotokolle. Diese Richtlinien werden direkt am Gateway durchgesetzt, sodass erweiterte Kontrollen für die Benutzer transparent sind.

7. Beobachtbarkeit und Analytik

Das Gateway liefert tiefe Telemetrieeinblicke:

Latenzstörungen (z. B. Zeit bis zum ersten Token, Abstand zwischen den Token)
Auslöser für Anforderungsvolumen und Guardail/Ratenlimit
Auditprotokolle, in denen die Modellnutzung, Richtlinienentscheidungen und Segmentierung auf Teamebene detailliert beschrieben werden
Alle Analysen sind über Dashboards mit Exportfunktionen für Compliance- und Managementberichte zugänglich.

Das On-Prem AI Gateway von TrueFoundry verkörpert die ideale Mischung aus Leistung, Skalierbarkeit, Belastbarkeit und Governance, alles orchestriert auf einer benutzerfreundlichen Plattform. Als Nächstes führen wir Sie durch die Bereitstellungsschritte und Best Practices, um dieses Gateway in Ihre Infrastruktur zu integrieren.

Arbeitsablauf bei der Bereitstellung

Die Bereitstellung des lokalen AI Gateways von TrueFoundry beginnt mit der Überprüfung von Konnektivität, Lizenzierung und Domänenkonfigurationen, um einen sicheren und reibungslosen Betrieb zu gewährleisten. Die Installation nutzt ein HELM-basiertes Diagramm, das Kernkomponenten, Steuerungsebene, Datenbank, Telemetrie und statusfreie Gateway-Pods in Ihrem Kubernetes-Cluster zusammenführt.

Dieser Ansatz vereinfacht Einsatz von KI-Modellen indem standardisiert wird, wie Inferenzinfrastruktur-, Governance- und Routing-Komponenten in Produktionsumgebungen eingeführt werden.

1. Voraussetzungen und Bereitschaft zur Infrastruktur

Stellen Sie vor der Bereitstellung des AI Gateways vor Ort sicher, dass die folgenden Elemente vorhanden sind:

Ausgangskonnektivität zu auth.truefoundry.com und analytics.truefoundry.com, wodurch Lizenzierungs- und Analysevorgänge ermöglicht werden.
Ein gültiger Domainname, der per Ingress zugeordnet wird (z. B. NGINX oder Istio), um sowohl die Benutzeroberfläche der Steuerungsebene als auch die Gateway-Endpunkte zu bedienen.
TrueFoundry-Anmeldeinformationen (Mandantenname, Lizenzschlüssel und Pull-Secret für die Containerregistrierung), bereitgestellt vom TF-Team.

Diese Voraussetzungen gewährleisten eine sichere, autorisierte Kommunikation mit der Steuerungsebene von TrueFoundry und sorgen gleichzeitig für das selbstverwaltete Hosting der Kernkomponenten.

2. Installation und Konfiguration

Wenn die Voraussetzungen erfüllt sind, konfigurieren Sie die Kerninstallation über eine HELM-basierte Bereitstellung:

Eine zentrale Konfigurationsdatei spezifiziert Mandantendetails, Lizenz und Eingangseinstellungen und aktiviert AI-Gateway-spezifische Flags.
Das Helm-Diagramm stellt Control-Plane-Dienste (Frontend, Backend-Service, Postgres, ClickHouse, NATS) zusammen mit statusfreien Gateway-Pods in Ihrem Kubernetes-Cluster bereit.

Diese Struktur reduziert die Komplexität der manuellen Einrichtung und gewährleistet so eine konsistente und wiederholbare Bereitstellung.

3. Netzwerk-Setup und Sicherheit

Während der Bereitstellung:

Konfigurieren Sie Ihren Ingress-Controller so, dass er die Control-Plane- und Gateway-Endpunkte mit den richtigen TLS-Zertifikaten verfügbar macht.
Stellen Sie sicher, dass interne Netzwerkrichtlinien es Gateway-Pods ermöglichen, Telemetrie an NATS- und Analyseendpunkte zu senden.
Stellen Sie für sichere Umgebungen sicher, dass Pods über HTTPS mit Backend-Diensten kommunizieren und dass Authentifizierungsgeheimnisse sicher gespeichert werden (z. B. über K8s Secrets).

4. Skalierung und Design mit mehreren Knoten

Die statusfreien Gateway-Pods können je nach Bedarf horizontal skaliert werden. Durch das Hinzufügen von Replikaten wird der Anforderungsdurchsatz nahtlos erhöht.
Entsprechende Komponenten der Steuerungsebene (Postgres, ClickHouse, NATS) sollten unter Berücksichtigung der Ausfallsicherheit bereitgestellt werden. Dabei sollten mehrere Replikat- oder Cluster-Setups verwendet werden, um Konfigurationsaktualisierungen und Protokollierung zuverlässig abzuwickeln.

Dieses Muster gewährleistet eine hohe Verfügbarkeit, Elastizität und Systemtrennung für eine verbesserte Stabilität.

5. Kontinuierliches Konfigurationsmanagement

Nach der Bereitstellung leitet die Steuerungsebene Updates über NATS an die Gateway-Pods weiter:

Änderungen wie Richtlinienaktualisierungen, neue Modellendpunkte, Regeln für Ratenbegrenzungen oder Routing-Spezifikationen werden in Echtzeit veröffentlicht.
Gateway-Pods wenden diese Parameter sofort im Speicher an, ohne Neustart oder Ausfallzeiten.

Dies ermöglicht dynamische Änderungen über UI- oder GitOps-Workflows ohne Serviceunterbrechung.

6. Überwachung und Beobachtbarkeit

Das Gateway streamt Protokolle, Metriken und Auditdaten asynchron an ClickHouse, um sie zu beobachten und zu analysieren.
Selbst wenn Telemetriesysteme vorübergehend nicht verfügbar sind, bleibt der zentrale Inferenzverkehr dank der Entkopplung durch Pufferung von Nachrichtenwarteschlangen unberührt.
Verwenden Sie Dashboard-Ansichten oder exportierte Protokolle zur Überwachung von TTF, Token-Nutzung, Guardrail-Ereignissen und Audit-Trails.

7. Wartung, Upgrades und Multi-Cluster-Unterstützung

Upgrades auf neue TF-Versionen werden auf Helm-Chart-Ebene abgewickelt; die meisten Komponenten-Upgrades (z. B. Gateway-Pods, Control-Plane-Apps) können ohne Ausfallzeiten durchgeführt werden.
Stellen Sie für größere Setups Gateway-Pods in mehreren Clustern oder Regionen für Disaster Recovery und Compliance-Segmentierung bereit.

Nachdem das Gateway bereitgestellt, konfiguriert und überwacht wurde, ist Ihr lokaler KI-Stack bereit für Produktionsworkloads. Als Nächstes behandeln wir Best Practices für optimale Betriebsabläufe, Sicherheitsverbesserung und behördengerechte Skalierung.

Herausforderungen und Best Practices

Die Bereitstellung eines lokalen KI-Gateways birgt neben bewährten Lösungen auch spezifische Hürden:

Sicherheit und Belastbarkeit: Lokale Setups sind zunehmend Bedrohungen wie DDoS-Angriffen, Prompt-Injection, Datenlecks und Model Poisoning ausgesetzt. Es hat sich bewährt, ein Zero-Trust-Modell mit einer verstärkten Überprüfung pro Anfrage und skalierbaren DDoS-Schutzsystemen einzuführen.

Datenschutz und Compliance: Unternehmen müssen eine strenge Verschlüsselung für Daten im Ruhezustand und bei der Übertragung durchsetzen. Überprüfbare Zugriffskontrollen und eine zuverlässige Auditprotokollierung sind für die Einhaltung von GDPR, HIPAA und ähnlichen regulatorischen Standards unerlässlich. Daher wird die Verwendung einer HSM-basierten Schlüsselverwaltung in einer Air-Gap-Umgebung empfohlen.

Skalierbarkeit und Leistung: Die Gateway-Infrastruktur muss horizontale Skalierung unterstützen, um Engpässe zu vermeiden. Statuslose Proxyknoten in Kombination mit ereignisgesteuerter Autoskalierung tragen zur Aufrechterhaltung eines Durchsatzes mit niedriger Latenz bei. In der Zwischenzeit stellt die asynchrone Protokollierung sicher, dass die Beobachtbarkeit die Leistung nicht beeinträchtigt.

Bewährte Betriebspraktiken: Automatisieren Sie die Bereitstellung und Konfiguration mit GitOps, integrieren Sie die kontinuierliche Überwachung und pflegen Sie Observability-Pipelines. Überwachen Sie proaktiv die Modellnutzung und die Sicherheitsvorkehrungen, um die kontinuierliche Einhaltung von Vorschriften, Sicherheit und Kostenkontrolle zu gewährleisten. Diese Maßnahmen zusammen gewährleisten eine zuverlässige, sichere und gesetzeskonforme KI-Bereitstellung vor Ort.

Fazit

GenAI vor Ort entwickelt sich von einem Compliance-Fallback zu einem strategischen Unterscheidungsmerkmal. Das On‑Prem AI Gateway von TrueFoundry gibt Unternehmen die volle Kontrolle über Infrastruktur, Modelle und Daten und ist damit ideal für Branchen mit strengen Datenschutz- und regulatorischen Anforderungen wie Gesundheitswesen, Finanzen und Behörden geeignet. Die Einrichtung erfordert zwar Anfangsinvestitionen, bietet aber langfristige Kostenvorhersehbarkeit, Überprüfbarkeit und eine tiefe Integration mit internen Systemen. Die Bereitstellung vor Ort ist mehr als nur eine vorübergehende Lösung. Sie bietet Agilität, Souveränität und Skalierbarkeit. KI-Lösungen werden immer geschäftskritischer. Eine Grundlage in Ihrer Umgebung stellt sicher, dass Sie vertrauensvoll, sicher und skalierbar innovativ sein können.

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo