Last9-Integration mit dem TrueFoundry AI Gateway

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wenn generative KI in die Bereiche Suche, Support, Entscheidungsunterstützung und Automatisierung übergeht, schwindet die Toleranz für Zuverlässigkeit nach bestem Bemühen. Plattform- und SRE-Teams benötigen jetzt das gleiche Maß an Beobachtbarkeit für den LLM-Verkehr, das sie bereits von den wichtigsten Microservices erwarten:

Wie hoch ist die Ende-zu-Ende-Latenz für jeden Anforderungspfad?
Welche Modelle, Mieter oder Regionen sind für Fehlbudgets verantwortlich?
Wie korrelieren wir das LLM-Verhalten mit dem Rest des Stacks?

Die Integration zwischen TrueFoundry KI-Gateway und Letzte 9 adressiert genau dieses Problem. Durch den Export von OpenTelemetry (OTEL) -Traces vom Gateway nach Last9 erhalten Teams eine umfassende, kosteneffiziente Beobachtbarkeit des gesamten LLM-Datenverkehrs, ohne dass Anwendungen neu geschrieben oder SDKs über Dienste verteilt werden müssen.

Dieser Artikel erklärt:

Was Last9 und TrueFoundry AI Gateway bieten
So funktioniert die Integration auf architektonischer Ebene
Eine praktische, schrittweise Ansicht des Setups
Die konkreten Vorteile für SRE-, Plattform- und KI-Teams

Letzt9: Observability konzipiert für Systeme mit hoher Kardinalität

Letzte 9 ist eine moderne Observability-Plattform, die sich auf ein leistungsstarkes Telemetriemanagement für Logs, Metriken und Traces konzentriert. Sie wurde speziell für Umgebungen entwickelt, in denen Kardinalität und Umfang nicht verhandelbar sind

Zu den wichtigsten Funktionen, die für LLM-Workloads relevant sind, gehören:

Verarbeitung mit hoher Kardinalität: Last9 kann Telemetriedaten, die mit umfangreichen Dimensionen wie Benutzer-, Mandant-, Route-, Anbieter-, Modell- und Prompt-Version versehen sind, aufnehmen und abfragen, ohne übermäßig hohe Leistung oder Kosteneinbußen.
Einheitliche Telemetrie: Protokolle, Metriken und Traces befinden sich auf einer einzigen Plattform, sodass Teams nahtlos von einem SLO-Verstoß oder einer Latenzspitze zu genau der Spur und Spanne übergehen können, die sie verursacht haben.
OpenTelemetrie-natives Design: Last9 basiert auf OTEL, sodass jede OTEL-sprechende Komponente problemlos integriert werden kann.

Das macht Letzte 9 eine natürliche Lösung für Unternehmen, die OTEL in ihrer gesamten Infrastruktur als Standard verwenden und möchten, dass LLM-Observability in dieselbe Strategie integriert wird.

TrueFoundry AI Gateway: Einheitliche Steuerungsebene für LLM-Verkehr

TrueFoundry KI-Gateway fungiert als Proxyschicht zwischen Anwendungen und LLM-Anbietern oder MCP-Servern. Es bietet eine einheitliche, OpenAI-kompatible Schnittstelle zu Hunderten von Modellen und zentralisiert gleichzeitig Verwaltung, Sicherheit, Routing und Beobachtbarkeit.

Zu den Kernfunktionen gehören:

Einheitlicher API-Zugriff für über 250 Modelle und Anbieter
Routing mit niedriger Latenz und ausgeklügelter Lastenausgleich
Unternehmenssicherheit: RBAC, Auditprotokollierung, Quoten- und Kostenkontrolle
Native Beobachtbarkeit mit Anforderungs-/Antwortprotokollierung, Metriken und Traces

Entscheidend ist, dass AI Gateway OTEL-Traces in externe Systeme exportieren kann, sodass Ihre LLM-Telemetrie Teil derselben Observability-Fabric wird wie der Rest Ihrer Infrastruktur.

Key Metrics for Evaluating Gateway

Criteria	What should you evaluate ?	Priority	TrueFoundry
Latency	Adds <10ms p95 overhead for time-to-first-token?	Must Have	✅ Supported
Data Residency	Keeps logs within your region (EU/US)?	Depends on use case	✅ Supported
Latency-Based Routing	Automatically reroutes based on real-time latency/failures?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported

Evaluating an AI Gateway?

A practical guide used by platform & infra teams

Überblick über die Integration: So arbeiten TrueFoundry und Last9 zusammen

Auf hoher Ebene ist die Integration einfach:

Anwendungen senden den gesamten LLM-Verkehr an TrueFoundry AI Gateway statt direkt an Modellanbieter.
AI Gateway leitet die Anfrage an das konfigurierte Modell (OpenAI, Claude, Gemini, selbst gehostet usw.) weiter und wendet bei Bedarf Routing, Ratenlimits und Leitplanken an.
Für jede Anfrage sendet AI Gateway OpenTelemetry-Traces aus, die Spannweiten für Gateway-Handling, ausgehende Modellaufrufe, MCP-Operationen und mehr erfassen.
Diese OTEL-Traces werden über HTTP zum OTLP-Endpunkt von Last9 exportiert.
In Last9 werden Traces in der Traces-Benutzeroberfläche mit Dauer-Heatmaps, detaillierten Trace-Listen und Span-Level-Daten für die tfy-llm-gateway Service.

Es gibt keine Codeänderungen an der Anwendungslogik. Sobald der OTEL-Exporter des Gateways konfiguriert ist, wird jede LLM-Anfrage automatisch in Last9 beobachtbar.

Voraussetzungen

Um die Integration zu aktivieren, benötigen Sie:

TrueFoundry-Konto mit konfiguriertem AI Gateway und Einrichtung von mindestens einem Modelanbieter. Sie können dem Gateway folgen Schnellstart-Anleitung in den TrueFoundry-Dokumenten.
Last9-Konto mit Zugriff auf das Last9-Dashboard.

Wenn diese vorhanden sind, erfolgt der Rest der Konfiguration vollständig über die jeweiligen Benutzeroberflächen.

Anleitung zur schrittweisen Integration

1. Rufen Sie den Last9 Authorization Header ab

Aus dem Last9-Dashboard:

Loggen Sie sich bei Last9 ein.
Navigiere in der linken Seitenleiste zu Integrationen.
Klicken Sie auf der OpenTelemetrie-Integrationskarte auf Verbinden.
Suchen Sie im Integrationsleitfaden nach „Authentifizierung mit Autorisierungsheader“.
Kopieren Sie den bereitgestellten Auth-Header-Wert, der bereits formatiert ist, zum Beispiel:
Grundlegendes DHJ1ZWZVDW5KCNK6...

Dieser Header wird direkt von TrueFoundry zur OTEL-Authentifizierung an Last9 übergeben.

2. Konfigurieren Sie den OTEL-Export im TrueFoundry AI Gateway

In der TrueFoundry-Konsole:

Gehen Sie zu AI Gateway → Controls → OTEL Config.
Aktivieren Sie den Schalter Otel Traces Exporter Configuration.
Wählen Sie die Registerkarte HTTP-Konfiguration aus.

3. Stellen Sie den Last9 OTLP-Endpunkt ein

Geben Sie unter HTTP-Konfiguration die folgenden Werte an:

Verfolgt den Endpunkt
https://otlp.last9.io/v1/traces
Kodierung
Proto

Dies ist der OTLP-Aufnahmeendpunkt von Last9 für Traces.

4. Fügen Sie den erforderlichen Autorisierungs-Header hinzu

Klicken Sie im selben Konfigurationsbildschirm auf „+ Header hinzufügen“ und fügen Sie hinzu: Fügen Sie den Auth-Header genau so ein, wie er von der Last9-Benutzeroberfläche kopiert wurde (z. B. Basic dhJ1ZWZVDW5KCNK6...). Es ist keine zusätzliche Formatierung erforderlich.

5. Speichern Sie die Konfiguration

Klicken Sie auf Speichern, um die OTEL-Exporteinstellungen zu übernehmen. Ab diesem Zeitpunkt werden alle LLM-Traces vom TrueFoundry AI Gateway nach Last9 exportiert.

6. LLM-Traces in Last9 anzeigen

Sobald der LLM-Verkehr durch das Gateway fließt, öffnen Sie das Last9-Dashboard:

Navigieren Sie zum Abschnitt Traces.
Nach Dienstnamen filtern:
tfy-llm-gateway
Erkunden Sie:
- Dauer-Heatmap — Visualisieren Sie Latenztrends und Ausreißer im Zeitverlauf.
- Ablaufverfolgungsdetails — sehen Sie sich einzelne Ablaufverfolgungen mit Operationsnamen, Dauer und Statuscodes an.
- Span-Informationen — Untersuchen Sie die Spans auf HTTP-Aufrufe, MCP-Operationen und zugrunde liegende LLM-Anfragen.

Auf diese Weise erhalten Sie einen umfassenden Überblick darüber, wie sich das Gateway und die nachgelagerten Anbieter unter realen Produktionsbedingungen verhalten.

Erweiterte Konfiguration: Traces mit Ressourcenattributen anreichern

Die OTEL-Konfiguration von TrueFoundry unterstützt zusätzliche Ressourcenattribute, sodass Sie benutzerdefinierte Metadaten an jeden exportierten Trace anhängen können. Dies ist besonders leistungsstark, wenn es mit den Funktionen von Last9 für hohe Kardinalität kombiniert wird.

Zu den typischen Attributen, die Sie möglicherweise hinzufügen möchten, gehören:

env=prod, env=inszenieren
region=us-east-1, region=eu-west-1
team=plattform, team=suche
tenant_id=Unternehmenskunde-a

In Last9 können diese Attribute verwendet werden, um:

Vergleichen Sie Latenz- oder Fehlerraten in verschiedenen Regionen und Umgebungen
Isolieren Sie Vorfälle, die sich auf einen bestimmten Mieter oder eine bestimmte Produktoberfläche auswirken
Erstellen Sie Dashboards pro Team oder Geschäftseinheit, ohne Telemetrie duplizieren zu müssen

Indem Sie Ihre Attributstrategie im Voraus planen, ermöglichen Sie umfassendere Abfragen und später eine schnellere Ursachenanalyse.

Was diese Integration für Ihre Teams bietet

Für SRE und Platform Engineering

Einblick in den LLM-Verkehr auf Produktionsniveau: Identifizieren Sie Latenzspitzen, Fehler-Hotspots und Sättigung in Echtzeit, mit einem vollständigen Trace-Kontext hinter jedem Ereignis.
Schnellere Reaktion auf Vorfälle: Gehen Sie von einem ausgefallenen SLO zu der genauen Trace-and-Spanne über, die ihn verursacht hat — ganz gleich, ob es sich um einen Upstream-Service, einen bestimmten Modellanbieter oder eine falsch konfigurierte Route handelt.
Konsistente Tools: Sorgen Sie dafür, dass die LLM-Beobachtbarkeit innerhalb derselben Otel-basierten Workflows und Dashboards bleibt, die Sie für die übrigen Microservices verwenden.

Für KI- und Anwendungsteams

Sicheres Experimentieren mit Modellen und Prompts: Stellen Sie neue Modellversionen, Routing-Regeln oder Prompt-Strategien über TrueFoundry bereit und beobachten Sie die Auswirkungen direkt in den Traces und Heatmaps von Last9.
Leistung und Kostenbewusstsein: Korrelieren Sie langsame oder fehlgeschlagene Interaktionen mit bestimmten Routen, Mandanten oder Modellen und lassen Sie diese Erkenntnisse in die Routing- und Caching-Richtlinien im Gateway einfließen.
Klarere Trennung der Belange: Entwickler konzentrieren sich auf Anwendungslogik und Agentenverhalten; Gateway und Last9 kümmern sich gemeinsam um Routing, Governance und Observability.

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo