AI Gateway On Premise : A Complete Guide

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Dans le monde actuel piloté par l'IA, les entreprises de tous les secteurs, de la santé à la finance, ont besoin de systèmes fournissant des informations rapides, sécurisées et fiables. Le déploiement sur site de l'infrastructure d'IA répond à ces besoins en maintenant les données dans les limites de l'organisation, en réduisant la latence et en minimisant la dépendance à l'égard des clouds publics. Cette configuration garantit une conformité stricte aux réglementations telles que la HIPAA ou le RGPD, tout en permettant des expériences utilisateur en temps réel et une autonomie opérationnelle totale.

La passerelle IA sur site de TrueFoundry propose une API unifiée compatible avec OpenAI pour accéder à plus de 250 modèles en toute sécurité au sein de votre infrastructure. Il intègre des outils de gouvernance essentiels tels que le contrôle d'accès, la limitation du débit, les garde-fous et la journalisation des audits au niveau de la passerelle afin de garantir la conformité et la responsabilité. Conçu avec une prise de décision en mémoire et aucun appel externe dans le chemin de demande, il offre une latence extrêmement faible et une fiabilité élevée.

Dans ce blog, vous découvrirez comment fonctionne son architecture, pourquoi le déploiement sur site est important et les meilleures pratiques en matière de déploiement et de gestion.

Pourquoi l'utilisation sur site est importante

Les entreprises optent de plus en plus pour des déploiements d'IA sur site afin de renforcer le contrôle, la sécurité, les performances et la stabilité des coûts.

Tout d'abord, les environnements sur site garantissent la souveraineté des données. Les informations sensibles, telles que les dossiers médicaux, les transactions financières ou la R&D exclusive, restent au sein du réseau de l'entreprise. Cette approche garantit la conformité aux réglementations telles que le RGPD, l'HIPAA et la PCI-DSS, en réduisant les risques d'exposition et en simplifiant les audits.

Deuxièmement, ces configurations améliorent la sécurité et la gouvernance. Les équipes internes supervisent directement le chiffrement, la gestion des accès et les pistes d'audit, ce qui permet de contrôler plus étroitement le traitement des données et de réduire la dépendance à l'égard des fournisseurs externes. Cela est essentiel pour les secteurs où la sensibilité des données est élevée et qui font l'objet d'un contrôle réglementaire.

Troisièmement, les avantages en termes de performances sont importants. En colocalisant le calcul à côté des données, ces systèmes minimisent la latence, essentielle pour les applications en temps réel telles que la détection des fraudes, la maintenance prédictive et les systèmes autonomes. Le déploiement sur site contourne la variabilité d'Internet et la limitation du cloud, offrant ainsi des performances plus constantes.

Quatrièmement, bien que les dépenses d'investissement initiales pour le matériel et l'infrastructure puissent être considérables, l'IA sur site offre souvent une meilleure prévisibilité des coûts à long terme pour des charges de travail soutenues. Il élimine les coûts variables tels que la tarification des jetons cloud et les frais de sortie. Des études montrent qu'au fil du temps, la maintenance du matériel dans votre propre centre de données peut s'avérer plus rentable que de s'appuyer sur des services cloud.

De nombreuses entreprises adoptent désormais des architectures hybrides, combinant des déploiements sur site et dans le cloud. Cette stratégie permet aux charges de travail sensibles de rester sur site tout en tirant parti de l'évolutivité du cloud pour les tâches moins critiques. Il propose une approche équilibrée combinant conformité réglementaire, performance et flexibilité.

En résumé, le choix de l'IA sur site offre un contrôle des données inégalé, une sécurité renforcée, des performances à faible latence et des structures de coûts stables. Ces facteurs en font une priorité stratégique pour les organisations qui gèrent des charges de travail sensibles ou critiques. Dans la section suivante, nous verrons comment la passerelle IA sur site de TrueFoundry vous permet de mettre en œuvre ces avantages de manière évolutive et axée sur la gouvernance.

Key Metrics for Evaluating Gateway

Criteria	What should you evaluate ?	Priority	TrueFoundry
Latency	Adds <10ms p95 overhead for time-to-first-token?	Must Have	✅ Supported
Data Residency	Keeps logs within your region (EU/US)?	Depends on use case	✅ Supported
Latency-Based Routing	Automatically reroutes based on real-time latency/failures?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported

Evaluating an AI Gateway?

A practical guide used by platform & infra teams

Principes fondamentaux et architecture

Les passerelles d'IA sur site doivent respecter plusieurs principes essentiels pour prendre en charge les déploiements de niveau entreprise.

Haute disponibilité garantit que la passerelle ne devient jamais un point de défaillance unique. Même en cas de défaillance de composants dépendants tels que des bases de données ou des files d'attente, l'inférence doit se poursuivre sans interruption.

Faible latence est essentiel ; les passerelles devraient retarder de manière négligeable les demandes en direct afin de maintenir des expériences d'IA réactives.

Débit et évolutivité élevés sont également cruciaux. Chaque nœud de passerelle doit gérer une simultanéité élevée et évoluer en fonction de la demande, garantissant ainsi des performances constantes sous charge.

Aucune dépendance externe dans le chemin de la demande signifie que la gestion des demandes en direct ne peut pas s'appuyer sur des appels réseau ou sur disque. Les tâches non essentielles telles que la journalisation sont reléguées en arrière-plan.

Prise de décision en mémoire prend en charge l'application en moins de la milliseconde de politiques telles que l'authentification, l'autorisation, la limitation du débit et le routage.

Séparation du plan de commande et du plan de données permet à la logique de configuration et de gestion de fonctionner indépendamment de la gestion du trafic en temps réel, ce qui facilite la résilience, facilite les mises à jour et met à l'échelle horizontale.

L'architecture

L'architecture d'une passerelle d'IA sur site applique ces principes dans un système modulaire et distribué.

Le plan de données est composé de nœuds proxy sans état gérant le trafic d'inférence en temps réel. Toutes les vérifications de politique sont effectuées en mémoire pendant le traitement des demandes. Les journaux et les métriques sont envoyés de manière asynchrone aux pipelines d'arrière-plan, évitant ainsi l'impact de la latence. Même en cas de défaillance de l'infrastructure de télémétrie, le trafic continue sans interruption.

Le plan de contrôle gère la configuration et les politiques telles que les règles d'accès aux modèles, les limites de débit et les garde-corps. Il distribue les mises à jour aux nœuds du plan de données à l'aide de mécanismes basés sur les événements, ce qui permet des mises à jour transparentes sans interruption de service.

Un pipeline de télémétrie asynchrone regroupe les journaux et les mesures via des files d'attente mises en mémoire tampon dans des magasins de données performants. Cette conception garantit l'observabilité sans la coupler aux performances de traitement des demandes.

Enfin, les deux plans sont conçus pour une mise à l'échelle horizontale. Les nœuds de plan de données sans état peuvent être répliqués derrière des équilibreurs de charge, tandis que les nœuds du plan de contrôle évoluent indépendamment pour favoriser l'orchestration des politiques et la résilience du système.

Ces principes et cette architecture combinés permettent aux passerelles d'IA sur site d'être rapides, résilientes, sécurisées et gérables à l'échelle de l'entreprise. Dans la section suivante, nous approfondirons la mise en œuvre de ces concepts par TrueFoundry.

Passerelle IA sur site de TrueFoundry

La passerelle IA sur site de TrueFoundry s'appuie sur des principes fondamentaux pour fournir une plateforme évolutive, sécurisée et performante pour les charges de travail d'IA. Voici un aperçu détaillé de ses fonctionnalités et de son fonctionnement interne, basé uniquement sur la documentation officielle de TrueFoundry.

1. Noyau haute performance

La passerelle de TrueFoundry repose sur le framework Hono, un environnement d'exécution léger et optimisé pour les périphériques conçu pour la rapidité. Les tests montrent qu'une seule instance proxy, sur un seul processeur et 1 Go de RAM, peut gérer 250 requêtes par seconde avec seulement quelques millisecondes de latence supplémentaire. Toutes les opérations d'application des clés, d'authentification, d'autorisation, de limitation de débit et de routage sont exécutées en mémoire et aucun appel externe n'est effectué pendant le traitement des demandes. Cela garantit des temps de réponse inférieurs à la milliseconde et des performances constantes sous charge.

2. Séparation nette des responsabilités

La passerelle suit une séparation classique entre le plan de contrôle et le plan proxy :

Plan proxy
Déploie des pods sans état qui gèrent directement le trafic d'inférence d'IA en direct. Ils appliquent les politiques et acheminent les demandes sans avoir recours à des bases de données ou à des services externes. Cette conception permet une mise à l'échelle horizontale, garantissant ainsi une croissance élastique du système en fonction de la demande.
Plan de contrôle
Centralise la configuration, les politiques et les métadonnées. Il gère les règles d'accès aux modèles, les limites de débit, les garde-fous et distribue les mises à jour via un bus interne. Cette séparation permet de modifier la configuration sans perturber le trafic en cours.

3. Journalisation résiliente et asynchrone

Pour préserver les performances, la journalisation et la télémétrie sont gérées de manière asynchrone :

Les pods proxy émettent des métriques et des journaux d'audit vers une file d'attente de messages (NATS).
Les journaux sont collectés par des systèmes distincts tels que ClickHouse, qui fournit des tableaux de bord de recherche, d'analyse et d'observabilité.
La file d'attente n'est pas bloquante : même si les systèmes en aval tombent en panne, les demandes continuent d'être traitées, ce qui garantit qu'aucune dépendance ne peut provoquer de panne.

4. Composants du système de base

La passerelle de TrueFoundry comprend plusieurs composants étroitement intégrés :

Interface utilisateur/interface utilisateur : Offre un terrain de jeu d'API interactif et des consoles permettant de configurer des politiques, d'afficher des analyses et de gérer des modèles.
Postgres : Stocke les métadonnées, notamment les équipes d'utilisateurs, les autorisations, les paramètres de débit et les configurations de routage.
Cliquez sur House : Un magasin de données performant pour les journaux, les mesures d'utilisation et les pistes d'audit.
NATS : Une file de messages légère responsable de la propagation en temps réel des données de configuration et de télémétrie.
Service principal : Fait le pont entre l'interface utilisateur, le proxy, NATS, Postgres et ClickHouse, en orchestrant la fonctionnalité globale de la passerelle.
Pods Gateway : Conteneurs sans état optimisés pour la périphérie qui gèrent l'inférence, appliquent des politiques, collectent des données télémétriques et transmettent les demandes d'IA.

5. Évolutivité et analyse comparative

La documentation de TrueFoundry met en évidence une forte évolutivité linéaire :

Un seul pod gère 250 RPS avec un impact de latence minimal.
La latence reste faible jusqu'à ce que la saturation du processeur soit d'environ 350 RPS par pod.
Le déploiement de plusieurs modules permet au système de s'adapter sans effort à des dizaines de milliers de demandes.

6. Gouvernance et API unifiée

L'interface compatible avec OpenAI permet un accès transparent à plus de 250 modèles avec des formats de demande cohérents.
La gouvernance intégrée couvre le contrôle d'accès, la limitation du débit, la sélection des modèles, les règles de secours et les journaux d'audit. Ces politiques sont appliquées en ligne au niveau de la passerelle, ce qui rend les contrôles avancés transparents pour les utilisateurs.

7. Observabilité et analyse

La passerelle fournit des informations télémétriques approfondies :

Répartition des temps de latence (par exemple, délai jusqu'au premier jeton, espacement entre les jetons)
Déclencheurs relatifs au volume des demandes et à la limite de débit et de garde-fou
Journaux d'audit détaillant l'utilisation des modèles, les décisions politiques et la segmentation au niveau de l'équipe
Toutes les analyses sont accessibles via des tableaux de bord dotés de fonctionnalités d'exportation pour les rapports de conformité et de gestion.

La passerelle IA sur site de TrueFoundry incarne le mélange idéal de performances, d'évolutivité, de résilience et de gouvernance, le tout orchestré au sein d'une plateforme conviviale. Nous vous guiderons ensuite à travers les étapes de déploiement et les meilleures pratiques pour intégrer cette passerelle à votre infrastructure.

Workflow de déploiement

Le déploiement de la passerelle IA sur site de TrueFoundry commence par la vérification de la connectivité, des licences et des configurations de domaine afin de garantir des opérations sécurisées et fluides. L'installation s'appuie sur un graphique basé sur HELM qui regroupe les composants principaux, le plan de contrôle, la base de données, la télémétrie et les modules de passerelle sans état dans votre cluster Kubernetes.

Cette approche simplifie Déploiement de modèles d'IA en normalisant la manière dont l'infrastructure d'inférence, la gouvernance et les composants de routage sont introduits dans les environnements de production.

1. Prérequis et état de préparation de l'infrastructure

Avant de déployer AI Gateway sur site, assurez-vous que les éléments suivants sont en place :

Connectivité de sortie vers auth.truefoundry.com et analytics.truefoundry.com, permettant des opérations de licence et d'analyse.
Un nom de domaine valide, mappé via une entrée (par exemple, NGINX ou Istio), pour servir à la fois l'interface utilisateur du plan de contrôle et les points de terminaison de la passerelle.
Informations d'identification TrueFoundry (nom du locataire, clé de licence et code secret d'extraction du registre des conteneurs), fournies par l'équipe TF.

Ces prérequis garantissent une communication sécurisée et autorisée avec le plan de contrôle de TrueFoundry tout en maintenant l'hébergement autogéré des composants principaux.

2. Installation et configuration

Une fois les prérequis en place, vous pouvez configurer l'installation principale via un déploiement basé sur HELM :

Un fichier de configuration centralisé spécifie les détails du locataire, la licence, les paramètres d'entrée et active les indicateurs spécifiques à AI-Gateway.
Le graphique Helm déploie des services de plan de contrôle (frontend, service backend, Postgres, ClickHouse, NATS) ainsi que des pods de passerelle sans état dans votre cluster Kubernetes.

Cette structure élimine la complexité de la configuration manuelle, garantissant un déploiement cohérent et reproductible.

3. Configuration et sécurité du réseau

Pendant le déploiement :

Configurez votre contrôleur d'entrée pour exposer le plan de contrôle et les points de terminaison de la passerelle, avec les certificats TLS appropriés.
Assurez-vous que les politiques réseau internes autorisent les modules de passerelle à envoyer des données télémétriques aux terminaux NATS et analytiques.
Pour des environnements sécurisés, assurez-vous que les pods communiquent avec les services principaux via HTTPS et que les secrets d'authentification sont stockés de manière sécurisée (par exemple via K8s Secrets).

4. Mise à l'échelle et conception multi-nœuds

Les pods de passerelle sans état peuvent être redimensionnés horizontalement pour répondre à la demande. L'ajout de répliques augmente le débit des demandes de manière fluide.
Les composants du plan de contrôle correspondants (Postgres, ClickHouse, NATS) doivent être déployés dans un souci de résilience, en utilisant des configurations multi-répliques ou en cluster pour gérer les mises à jour de configuration et la journalisation de manière fiable.

Ce modèle garantit une disponibilité, une élasticité et une séparation des systèmes élevées pour une stabilité accrue.

5. Gestion continue de la configuration

Une fois déployé, le plan de contrôle propage les mises à jour aux modules de passerelle via NATS :

Les modifications telles que les mises à jour des politiques, les nouveaux points de terminaison des modèles, les règles de limite de débit ou les spécifications de routage sont appliquées en temps réel.
Les modules Gateway appliquent ces paramètres en mémoire immédiatement, sans redémarrage ni interruption.

Cela permet des modifications dynamiques via l'interface utilisateur ou les flux de travail GitOps, sans interruption de service.

6. Surveillance et observabilité

La passerelle diffuse les journaux, les métriques et les données d'audit de manière asynchrone dans ClickHouse à des fins d'observabilité et d'analyse.
Même si les systèmes de télémétrie sont temporairement indisponibles, le trafic d'inférence de base n'est pas affecté, grâce au découplage via la mise en mémoire tampon des files de messages.
Utilisez les vues de tableau de bord ou les journaux exportés pour surveiller le TTF, l'utilisation des jetons, les événements de sécurité et les pistes d'audit.

7. Maintenance, mises à niveau et support multi-clusters

Les mises à niveau vers les nouvelles versions de TF sont gérées au niveau du diagramme Helm ; la plupart des mises à niveau des composants (par exemple, les pods de passerelle, les applications du plan de contrôle) peuvent être effectuées sans interruption.
Pour les configurations plus importantes, déployez des modules de passerelle dans plusieurs clusters ou régions à des fins de reprise après sinistre et de segmentation de la conformité.

Une fois la passerelle déployée, configurée et surveillée, votre stack d'IA sur site est prêt pour les charges de travail de production. Nous aborderons ensuite les meilleures pratiques en matière d'excellence opérationnelle, de renforcement de la sécurité et de mise à l'échelle alignée sur la gouvernance.

Défis et meilleures pratiques

Le déploiement d'une passerelle d'IA sur site présente des obstacles spécifiques, en plus de solutions éprouvées :

Sécurité et résilience : Les configurations sur site sont exposées de plus en plus à des menaces telles que les attaques DDoS, les injections rapides, les fuites de données et l'empoisonnement des modèles. La meilleure pratique consiste à adopter un modèle de confiance zéro avec une inspection renforcée par demande et des systèmes de protection DDoS évolutifs.

Protection des données et conformité : Les entreprises doivent appliquer un cryptage strict pour les données au repos et en transit. Des contrôles d'accès vérifiables et une journalisation d'audit robuste sont essentiels pour respecter le RGPD, l'HIPAA et les normes réglementaires similaires ; par conséquent, il est recommandé d'utiliser une gestion des clés basée sur le HSM dans un environnement isolé.

Évolutivité et performances : L'infrastructure de passerelle doit prendre en charge la mise à l'échelle horizontale pour éviter les goulots d'étranglement. Les nœuds proxy sans état combinés à une mise à l'échelle automatique pilotée par les événements permettent de maintenir un débit à faible latence. Dans le même temps, la journalisation asynchrone garantit que l'observabilité n'altère pas les performances.

Meilleures pratiques opérationnelles : Automatisez le déploiement et la configuration à l'aide de GitOps, intégrez une surveillance continue et gérez les pipelines d'observabilité. Auditez de manière proactive l'utilisation des modèles et les garde-fous pour garantir une conformité, une sécurité et un contrôle des coûts continus. Ensemble, ces mesures garantissent un déploiement d'IA sur site fiable, sécurisé et conforme.

Conclusion

GenAI sur site est en train de passer d'une solution de repli en matière de conformité à un facteur de différenciation stratégique. La passerelle IA sur site de TrueFoundry permet aux entreprises de contrôler totalement l'infrastructure, les modèles et les données, ce qui la rend idéale pour les secteurs ayant des besoins réglementaires et de confidentialité stricts tels que la santé, la finance et le gouvernement. Bien que la configuration nécessite un investissement initial, elle offre une prévisibilité des coûts à long terme, une auditabilité et une intégration approfondie avec les systèmes internes. Bien plus qu'une simple solution temporaire, le déploiement sur site offre agilité, souveraineté et évolutivité. Alors que les solutions d'IA deviennent de plus en plus critiques, le fait de disposer d'une base dans votre environnement vous permet d'innover en toute confiance, en toute sécurité et à grande échelle.

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant