Intégration de TrueFoundry AI Gateway à Last9

Mis à jour : December 12, 2025

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

À mesure que l'IA générative entre dans les parcours utilisateurs critiques, la recherche, l'assistance, l'aide à la décision et l'automatisation, la tolérance à la fiabilité du « meilleur effort » disparaît. Les équipes chargées de la plateforme et du SRE ont désormais besoin du même niveau d'observabilité pour le trafic LLM que celui qu'elles attendent déjà des microservices principaux :

Quelle est la latence de bout en bout pour chaque chemin de requête ?
Quels modèles, locataires ou régions génèrent des budgets d'erreur ?
Comment corréler le comportement du LLM avec le reste de la pile ?

L'intégration entre Passerelle TrueFoundry AI et Les 9 derniers répond exactement à ce problème. En exportant les traces d'OpenTelemetry (OTEL) depuis la passerelle vers Last9, les équipes bénéficient d'une observabilité approfondie et rentable de l'ensemble du trafic LLM, sans réécrire les applications ni disperser les SDK entre les services.

Cet article explique :

Ce que Last9 et TrueFoundry AI Gateway fournissent
Comment fonctionne l'intégration au niveau architectural
Une vue pratique, étape par étape, de la configuration
Les avantages concrets pour les équipes SRE, plateforme et IA

Last9 : L'observabilité est conçue pour les systèmes à haute cardinalité

Les 9 derniers est une plateforme d'observabilité moderne axée sur la gestion de la télémétrie à haute performance pour les journaux, les métriques et les traces. Il est conçu spécifiquement pour les environnements où la cardinalité et l'échelle ne sont pas négociables

Les principales fonctionnalités pertinentes pour les charges de travail LLM sont les suivantes :

Gestion de cardinalité élevée : Last9 peut ingérer et interroger des données télémétriques associées à des dimensions détaillées telles que l'utilisateur, le locataire, l'itinéraire, le fournisseur, le modèle et la version rapide, sans perte de performances ni pénalités financières.
Télémétrie unifiée : les journaux, les métriques et les traces sont regroupés sur une seule plateforme, ce qui permet aux équipes de passer facilement d'une violation du SLO ou d'un pic de latence à la trace et à la durée exactes qui en sont la cause.
Conception native d'OpenTelemetry : Last9 est construit autour d'OTEL, ce qui facilite l'intégration de tout composant parlant OTEL.

Cela fait Les 9 derniers une solution idéale pour les entreprises qui normalisent l'OTEL dans l'ensemble de leur infrastructure et qui souhaitent intégrer l'observabilité LLM à cette même stratégie.

TrueFoundry AI Gateway : plan de contrôle unifié pour le trafic LLM

Passerelle TrueFoundry AI agit comme une couche proxy entre les applications et les fournisseurs LLM ou les serveurs MCP. Il fournit une interface unifiée compatible avec OpenAI à des centaines de modèles tout en centralisant la gouvernance, la sécurité, le routage et l'observabilité.

Les fonctionnalités de base incluent :

Accès aux API unifié pour plus de 250 modèles et fournisseurs
Routage à faible latence et équilibrage de charge sophistiqué
Sécurité de l'entreprise : RBAC, journalisation des audits, contrôles des quotas et des coûts
Observabilité native avec enregistrement des requêtes/réponses, métriques et traces

Surtout, AI Gateway peut exporter les traces OTEL vers des systèmes externes, de sorte que votre télémétrie LLM fasse partie de la même structure d'observabilité que le reste de votre infrastructure.

Key Metrics for Evaluating Gateway

Criteria	What should you evaluate ?	Priority	TrueFoundry
Latency	Adds <10ms p95 overhead for time-to-first-token?	Must Have	✅ Supported
Data Residency	Keeps logs within your region (EU/US)?	Depends on use case	✅ Supported
Latency-Based Routing	Automatically reroutes based on real-time latency/failures?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported

Evaluating an AI Gateway?

A practical guide used by platform & infra teams

Présentation de l'intégration : comment TrueFoundry et Last9 fonctionnent ensemble

À un niveau élevé, l'intégration est simple :

Les applications envoient tout le trafic LLM à TrueFoundry AI Gateway plutôt que directement aux fournisseurs de modèles.
AI Gateway achemine la demande vers le modèle configuré (OpenAI, Claude, Gemini, auto-hébergé, etc.), en appliquant le routage, les limites de débit et les garde-fous selon les besoins.
Pour chaque demande, AI Gateway émet des traces OpenTelemetry qui capturent les spans pour la gestion de la passerelle, les appels de modèles sortants, les opérations MCP, etc.
Ces traces OTEL sont exportées via HTTP vers le point de terminaison OTLP de Last9.
Dans Last9, les traces sont visualisées dans l'interface utilisateur de Traces, avec des cartes thermiques de durée, des listes de traces détaillées et des données au niveau de la période pour passerelle tfy-llm service.

Aucune modification de code n'a été apportée à la logique de l'application. Une fois l'exportateur OTEL de la passerelle configuré, chaque demande LLM devient automatiquement observable dans Last9.

Prérequis

Pour activer l'intégration, vous aurez besoin des éléments suivants :

Compte TrueFoundry avec AI Gateway configuré et au moins un fournisseur de modèles configuré. Vous pouvez suivre le Gateway Guide de démarrage rapide dans la documentation TrueFoundry.
Compte Last9 avec accès au tableau de bord Last9.

Une fois ceux-ci en place, le reste de la configuration se fait entièrement via les interfaces utilisateur respectives.

Guide d'intégration étape par étape

1. Récupérez l'en-tête d'autorisation Last9

Depuis le tableau de bord Last9 :

Connectez-vous à Last9.
Accédez à Intégrations dans la barre latérale gauche.
Cliquez sur Connecter sur la carte d'intégration OpenTelemetry.
Dans le guide d'intégration, recherchez « Authentification avec en-tête d'autorisation ».
Copiez la valeur d'en-tête Auth fournie, qui est déjà formatée, par exemple :
De base DHJ1ZWZVDW5KCNK6...

Cet en-tête sera transmis directement de TrueFoundry à Last9 pour l'authentification OTEL.

2. Configurer l'exportation OTEL dans TrueFoundry AI Gateway

Dans la console TrueFoundry :

Accédez à AI Gateway → Contrôles → OTEL Config.
Activez le bouton de configuration de l'exportateur Otel Traces.
Sélectionnez l'onglet Configuration HTTP.

3. Définissez le dernier point de terminaison OTLP des 9 derniers

Dans Configuration HTTP, indiquez les valeurs suivantes :

Traces le point final
https://otlp.last9.io/v1/traces
Encodage
Proto

Il s'agit du point de terminaison d'ingestion OTLP de Last9 pour les traces.

4. Ajouter l'en-tête d'autorisation requise

Dans le même écran de configuration, cliquez sur « + Ajouter des en-têtes » et ajoutez : Collez l'en-tête d'authentification exactement tel qu'il a été copié depuis l'interface utilisateur Last9 (par exemple, Basic DHJ1ZWZVDW5KCNK6...). Aucune mise en forme supplémentaire n'est requise.

5. Enregistrez la configuration

Cliquez sur Enregistrer pour appliquer les paramètres d'exportation de l'OTEL. À partir de ce moment, toutes les traces LLM de la passerelle TrueFoundry AI seront exportées vers Last9.

6. Afficher les traces LLM dans Last9

Une fois que le trafic LLM passe par la passerelle, ouvrez le tableau de bord Last9 :

Accédez à la section Traces.
Filtrer par nom de service :
passerelle tfy-llm
Explorez :
- Carte thermique de la durée : visualisez les tendances de latence et les valeurs aberrantes au fil du temps.
- Détails des traces : consultez les traces individuelles avec les noms des opérations, les durées et les codes d'état.
- Informations sur les spans : inspectez les spans pour les appels HTTP, les opérations MCP et les requêtes LLM sous-jacentes.

Cela vous donne une vue de bout en bout de la façon dont le Gateway et les fournisseurs en aval se comportent dans des conditions de production réelles.

Configuration avancée : enrichissement des traces avec des attributs de ressources

La configuration OTEL de TrueFoundry prend en charge des attributs de ressources supplémentaires, ce qui vous permet d'associer des métadonnées personnalisées à chaque trace exportée. Ceci est particulièrement puissant lorsqu'il est combiné aux capacités de haute cardinalité de Last9.

Les attributs typiques que vous souhaiterez peut-être ajouter sont les suivants :

env=prod, env=mise en scène
region=us-est-1, region=eu-ouest-1
team=platform, team=search
tenant_id=entreprise-client-a

Dans Last9, ces attributs peuvent être utilisés pour :

Comparez les taux de latence ou d'erreur entre les régions et les environnements
Isolez les incidents ayant un impact sur un locataire ou une surface de produit spécifique
Créez des tableaux de bord par équipe ou unité commerciale sans dupliquer la télémétrie

En planifiant votre stratégie attributaire à l'avance, vous pouvez accéder à des requêtes plus riches et à une analyse plus rapide des causes premières par la suite.

Ce que cette intégration apporte à vos équipes

Pour le SRE et l'ingénierie des plateformes

Visibilité de niveau production sur le trafic LLM : identifiez les pics de latence, les points d'erreur et la saturation en temps réel, avec un contexte de suivi complet pour chaque événement.
Réponse plus rapide aux incidents : passez d'un SLO défaillant à la trace et à l'étendue précises qui en sont la cause, qu'il s'agisse d'un service en amont, d'un fournisseur de modèles spécifique ou d'un itinéraire mal configuré.
Outils cohérents : maintenez l'observabilité LLM dans les mêmes flux de travail et tableaux de bord basés sur Otel que vous utilisez pour le reste de vos microservices.

Pour les équipes d'IA et d'application

Expérimentez en toute sécurité avec des modèles et des instructions : déployez de nouvelles versions de modèles, de nouvelles règles de routage ou des stratégies rapides via TrueFoundry, et observez l'impact directement dans les traces et les cartes thermiques de Last9.
Sensibilisation aux performances et aux coûts : corrélez les interactions lentes ou défaillantes avec des itinéraires, des locataires ou des modèles spécifiques, et intégrez ces informations aux politiques de routage et de mise en cache de la passerelle.
Séparation plus claire des préoccupations : les développeurs se concentrent sur la logique des applications et le comportement des agents ; Gateway et Last9 gèrent conjointement le routage, la gouvernance et l'observabilité.

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant