How does an AI gateway work?

An AI gateway solution sits between your applications and model providers. The TrueFoundry gateway intelligently routes requests, handles authentication, and manages failovers, ensuring your system maintains reliable, high-speed connectivity with any underlying model or tool you choose.

What are the benefits of an AI gateway?

An AI gateway provides a centralized platform for managing and optimizing AI services. It offers a unified interface to connect multiple AI models, enforces security through authentication and access controls, and ensures regulatory compliance. The gateway features usage monitoring, budget management, and intelligent load balancing to ensure optimal performance and reliability. It supports policy enforcement for data usage and ethical considerations while enabling horizontal scaling to meet growing demand and seamlessly integrate new AI services.

What are the capabilities of AI gateways?

AI gateways provide unified access and intelligent routing across multiple models with built-in fallbacks. For instance, TrueFoundry AI gateway helps with governance and security through authentication, access control, and policy enforcement; cost optimization via rate limiting and token budgeting; full observability with usage tracking and performance monitoring; and support for agentic workflows with multi-step orchestration. They act as a centralized control plane, enabling enterprises to operationalize AI safely and cost-effectively at scale.

Which AI gateway is best?

The TrueFoundry AI gateway is the best. It delivers comprehensive deployment and management of AI services with enterprise-grade security through RBAC, OAuth 2.0, and API key authentication. It features rate limiting, intelligent load balancing, and automatic failover for optimal performance and reliability. Built-in guardrails enforce ethical guidelines and prevent inappropriate outputs, while observability tools provide analytics, logs, and prompt optimization. With multi-cloud support and real-time inference capabilities, TrueFoundry provides a flexible and scalable solution for enterprise AI deployment.

What is the difference between an API gateway and an AI gateway?

While standard gateways route general web traffic, a TrueFoundry enterprise AI gateway is purpose-built for LLMs. It handles specific tasks like token counting, prompt caching, and model fallbacks—specialized logic that generic API gateways simply cannot execute efficiently.

Where does an AI Gateway sit in the GenAI architecture?

An AI Gateway sits directly in the production inference path between applications and model providers. It acts as a centralized control plane that manages routing, governance, observability, security, and cost controls across LLMs, tools, and agents, without requiring changes to application logic.

Can an AI Gateway be used with self-hosted and open-source models?

Yes. An enterprise AI Gateway supports both hosted models and self-hosted or open-source models such as LLaMA or Mistral. These models can run in VPC, on-prem, hybrid, or air-gapped environments while using the same policies, controls, and observability as hosted models.

How does an AI Gateway help control and optimize inference costs?

CAn AI Gateway provides real-time usage visibility, token-level tracking, quotas, and budget enforcement. It also enables intelligent routing, caching, and fallback strategies to reduce unnecessary calls to expensive models and prevent runaway inference spend.

How does an AI Gateway help with data privacy and compliance?

AI Gateways enforce data handling policies such as PII masking, request filtering, and controlled logging. When deployed in VPC, on-prem, or air-gapped environments, they ensure sensitive data never leaves enterprise boundaries while meeting compliance requirements.

How does an AI Gateway support multiple teams and environments?

AI Gateways enable team-level isolation using role-based access control (RBAC), per-team API keys, quotas, and usage tracking. This allows multiple teams to share models and infrastructure securely while maintaining governance, accountability, and cost visibility.

How does the TrueFoundry AI Gateway Playground help developers build and test?

The Playground is the interactive UI on top of the AI Gateway where developers can try out different LLMs, prompts, MCP tools and configurations before wiring them into applications. You can select any model that has been onboarded in the “Models” tab, adjust parameters such as temperature, max tokens, streaming and stop sequences, and immediately see the impact on responses, token usage and latency. This makes it easy to experiment with model choices and generation settings without writing code. Once you are happy with a setup, the entire configuration—prompt, model, tools, guardrails and structured output schema—can be saved as a reusable template in a shared repository. The Playground also generates ready-to-use code snippets for the OpenAI client, LangChain and other libraries, using the unified AI Gateway API, so teams can take a working experiment and drop it straight into their services with minimal effort.

What does “unified access” mean for APIs, keys, tools and agents?

With TrueFoundry AI Gateway, all model providers and tools sit behind a single, unified API. Instead of managing separate SDKs, endpoints and keys for OpenAI, Anthropic, Bedrock, self-hosted models and others, applications talk to one gateway endpoint and use one gateway key. The gateway then routes requests to the right underlying model based on configuration, so you can swap models or providers without changing your application code. This unified access layer also extends to tools via the MCP protocol and to agents via the emerging A2A protocol, so models, tools and agents can all be orchestrated through the same control plane. For developers, this means simpler integration and a cleaner security model: provider keys are stored once in the gateway, access is governed centrally using RBAC and policies, and teams can standardize on a single client pattern across languages and frameworks. As new models or providers appear, they can be added to the gateway and become immediately available behind the same unified interface.

How do prompt management, versioning and Agent Apps work together?

Prompts, tools and agent configurations are treated as first-class assets in the AI Gateway. In the Playground you can define system prompts, user prompts, input variables, MCP tools, guardrails and model settings, and then save them as named templates. Each template can have multiple versions so teams can iterate safely without overwriting each other’s logic, and roll back to previous versions when needed. This effectively becomes a prompt and agent configuration repository for your organization. When a particular configuration is ready to be shared more broadly, it can be published as an Agent App. Agent Apps are powered by the gateway but exposed through a simple, locked-down interface: business users or internal teams can interact with the agent exactly as it will run in production, while the underlying prompts, tools and guardrails remain immutable. This makes Agent Apps ideal for user acceptance testing, stakeholder demos and internal copilots, because product and platform teams retain control over the configuration while still giving others a safe way to try agentic workflows.

How do guardrails, safety checks and PII controls work end-to-end?

Guardrails in TrueFoundry AI Gateway operate on both the input and output paths to provide defense-in-depth. Before a request reaches a model, input guardrails can scan it for sensitive data such as PII, prompt injection patterns or disallowed topics, and either block, redact or transform the prompt based on your policies. After the model generates a response, output guardrails evaluate the content again for toxicity, bias, hallucinations, policy violations or accidental data leakage, and decide whether to return, modify or reject the response. The gateway can plug into existing safety and compliance services such as OpenAI Moderation, AWS Guardrails, Azure Content Safety and Azure PII detection, and it also supports custom rules written as configuration or Python code. Because guardrails are configured centrally and applied consistently across all models and applications going through the AI Gateway, security and compliance teams get a predictable way to enforce organizational policies for GenAI usage, including in regulated environments like healthcare, financial services and insurance.

What observability, tracing and debugging capabilities does the AI Gateway provide?

Every request flowing through TrueFoundry AI Gateway is instrumented so you can see exactly how your GenAI workloads behave. The monitoring views show aggregate metrics such as total requests, input and output tokens, and cost, broken down by model, team, user, customer, environment or any other metadata you choose to attach. Performance is tracked using P99, P90 and P50 latency, time-to-first-token and inter-token latency, so you can quickly identify models or routes that are causing slowdowns or errors. For deeper debugging, there is a request-level view that lets you inspect individual calls, see the full prompt and response, and understand how routing, fallbacks and guardrails were applied. For agentic workflows using tools and MCP, the gateway can capture traces that show each step an agent took, which tools it called, and how intermediate results flowed through the system. All of these logs and metrics are also exposed via APIs, so platform and observability teams can build custom dashboards and alerts in their existing monitoring stacks.

How are policies, rate limits, fallbacks and budgets configured and automated?

The AI Gateway lets you express reliability and governance rules as configuration so they can be applied consistently and automated. Rate limits can be defined per team, user, model, application or environment, ensuring that no single consumer can exhaust capacity or overspend. Budgets and quotas can be set so that when usage crosses certain thresholds, requests are throttled, downgraded to cheaper models or blocked, depending on your business rules. Load-balancing policies can route traffic based on fixed weights, measured latency or priority, while fallback chains describe the sequence of models to try when errors or timeouts occur. All of these controls can be managed through the UI or declared in YAML and applied via the TrueFoundry CLI, enabling a GitOps workflow where gateway configuration lives alongside application code and infrastructure definitions. Combined with caching, batching and centralized API key management, these features allow platform teams to treat the AI Gateway as the single place where they define how GenAI should be used, how much can be spent, and how applications should behave under failure—without forcing individual application teams to re-implement these concerns over and over again.

Passerelle IA pour les entreprises : gouvernance et surveillance intégrées

Purple gradient square with white background, shiny surface, and rounded corners in rhombus shape.

Conçu pour une IA à grande échelle dans le monde réel

99,99 %

Disponibilité

Les basculements, le routage et les garde-corps centralisés garantissent que vos applications d'IA restent en ligne, même lorsque les fournisseurs de modèles ne le font pas.

PLUS DE 10 MILLIARDS

Demandes traitées/mois

Inférence évolutive à haut débit pour l'IA de production.

30 %

Optimisation des coûts moyens

Les contrôles intelligents de routage, de traitement par lots et de budget réduisent le gaspillage de jetons.

1600+

Models

Connected through one AI gateway.

AI Gateway : accès unifié à l'API LLM

Simplifiez votre stack GenAI grâce à une passerelle IA unique qui intègre tous les principaux modèles.

Connectez-vous à OpenAI, Claude, Gemini, Groq, Mistral et à plus de 250 LLM via une API AI Gateway
Utilisez la passerelle AI pour prendre en charge les types de modèles de chat, de complétion, d'intégration et de reclassement
Centralisez la gestion des clés d'API et l'authentification des équipes en un seul endroit.
Orchestrez des charges de travail multimodèles de manière fluide dans votre infrastructure.

Passerelle IA d'entreprise avec accès unifié à l'API LLM

Observabilité d'AI Gateway

Track your AI gateway performance, costs, and ensure compliance across models in real-time.

Surveillez l'utilisation des jetons, la latence, les taux d'erreur et les volumes de demandes sur l'ensemble de votre système.
Stockez et inspectez les journaux complets des demandes/réponses de manière centralisée pour garantir la conformité et simplifier le débogage.
Étiquetez le trafic à l'aide de métadonnées telles que l'identifiant utilisateur, l'équipe ou l'environnement pour obtenir des informations détaillées.
Filtrez les journaux et les mesures par modèle, équipe ou zone géographique pour identifier rapidement les causes profondes et accélérer la résolution.

Tableau de bord d'observabilité de Truefoundry AI Gateway

Contrôle des quotas et des accès via AI Gateway

Renforcez la gouvernance, contrôlez les coûts et réduisez les risques grâce à une gestion cohérente des politiques.

Appliquez des limites de débit par utilisateur, service ou terminal.
Définissez des quotas basés sur les coûts ou sur des jetons à l'aide de filtres de métadonnées.
Utilisez le contrôle d'accès basé sur les rôles (RBAC) pour isoler et gérer l'utilisation.
Gérez les comptes de service et les charges de travail des agents à grande échelle grâce à des règles centralisées.

Garantir une utilisation prévisible, des limites d'accès strictes et une gouvernance évolutive au niveau de l'équipe pour votre infrastructure GenAI.

Inférence à faible latence

Run your most performance-sensitive workloads through a high-speed AI gateway infrastructure.

Atteignez une latence interne inférieure à 3 ms, même avec des charges de travail à l'échelle de l'entreprise.
Évoluez en toute fluidité pour gérer le trafic en rafale et les charges de travail à haut débit.
Offrez des temps de réponse prévisibles pour les assistants de chat en temps réel, RAG et IA.
Placez les déploiements à proximité des couches d'inférence pour minimiser la latence et éliminer la latence du réseau.

Placez l'AI Gateway directement dans votre parcours d'inférence de production — son architecture à faible latence ne garantit aucun compromis en termes de performances.

Routage et solutions de secours de la passerelle AI

Garantissez la fiabilité, même en cas de défaillance du modèle, grâce à des contrôles de trafic intelligents AI Gateway.

Prend en charge le routage basé sur la latence vers le LLM le plus rapide disponible.
Répartissez le trafic de manière intelligente à l'aide d'un équilibrage de charge pondéré pour plus de fiabilité et d'évolutivité.
Revenir automatiquement aux modèles secondaires en cas d'échec d'une demande.
Utilisez le routage géo-sensible pour répondre aux besoins régionaux en matière de conformité et de disponibilité.

Ce système vous garantit never go offline, even when individual models face downtime or spike in latency.

Servez des modèles auto-hébergés

Exposez des modèles open source avec un contrôle total.

Déployez LLama, Mistral, Falçon et plus encore sans aucune modification du SDK.
Compatibilité totale avec vLLM, SGLang, KServe et Triton.
Rationalisez les opérations grâce à la gestion basée sur HELM de la mise à l'échelle automatique, de la planification des GPU et des déploiements
Exécutez vos propres modèles dans des environnements VPC, hybrides ou ventilés.

Intégration d'AI Gateway et de MCP

Optimisez les flux de travail des agents grâce à la prise en charge MCP native d'AI Gateway.

Connectez des outils d'entreprise tels que Slack, GitHub, Confluence et Datadog.
Enregistrez facilement les serveurs MCP internes avec une configuration minimale requise.
Appliquez les politiques OAuth2, RBAC et de métadonnées à chaque appel d'outil.

Garde-corps AI Gateway

Build secure AI applications with configurable AI gateway guardrails and policy controls.

Appliquez facilement vos propres dispositifs de sécurité, y compris le filtrage des informations personnelles et la détection de la toxicité
Personnalisez l'AI Gateway avec des garde-corps adaptés à vos besoins en matière de conformité et de sécurité

Prêt pour les entreprises

Deploy a secure AI gateway that keeps your data and models within your cloud / on-prem infrastructure.

HIPAA, GDPR, and AICPA SOC compliance badges for data security and privacy regulations standards.

Conformité et sécurité
Normes SOC 2, HIPAA et GDPR pour garantir une protection robuste des données
Gouvernance et contrôle d'accès
SSO + Contrôle d'accès basé sur les rôles (RBAC) et journalisation des audits
Support et fiabilité pour les entreprises
Assistance 24 h/24 et 7 j/7 avec support SLA SLA de réponse

Déployez TrueFoundry dans n'importe quel environnement

VPC, sur site, en espace isolé ou sur plusieurs clouds.

Aucune donnée ne quitte votre domaine. Profitez d'une souveraineté totale, d'un isolement et d'une conformité de niveau professionnel partout où TrueFoundry fonctionne

Commencez

Cloud deployment options including AWS, Google Cloud, Azure, and on-premises infrastructure with multi-cloud management.

Des résultats concrets chez TrueFoundry

Pourquoi les entreprises choisissent TrueFoundry

Smiling man in black blazer and white shirt with short dark hair and blurred greenery background.

Pratik Agarwal

Directeur principal de la science des données et de l'innovation en matière d'IA

La passerelle IA de TrueFoundry nous a fourni une couche unifiée pour gérer l'accès aux modèles, le routage, les garde-fous et le contrôle des coûts entre les équipes. Ce qui nécessitait auparavant de multiples intégrations personnalisées et examens de sécurité se fait désormais via une interface gérée unique. Elle a accéléré la production, amélioré la visibilité sur les dépenses et les performances, et nous a permis d'étendre les expériences d'IA en toute sécurité à l'échelle de l'organisation.

Smiling man with short dark hair and glasses wearing a collared shirt and sweater indoors.

Vibhas Gejji

Ingénieur ML du personnel

Grâce à la passerelle IA de TrueFoundry, nous disposons enfin d'une interface cohérente pour tous les fournisseurs de modèles, les politiques et la télémétrie. Cela a permis d'éliminer les frais liés à la gestion des clés, à la logique de routage et à l'observabilité dispersée. L'introduction de nouveaux modèles n'est plus qu'une question de configuration. La passerelle a amélioré la vitesse des développeurs, réduit la charge DevOps et nous a aidés à exploiter des systèmes multimodèles avec des informations et une gouvernance en temps réel.

Smiling man with beard and mustache wearing blue shirt and gray blazer against white background.

Indronel G.

Leader intelligent des processus

La passerelle IA de TrueFoundry a normalisé la façon dont chaque équipe interagit avec les LLM, les intégrations et les composants RAG. Au lieu de recourir à des intégrations éparpillées, nous contrôlons désormais l'accès, les politiques de routage et les dispositifs de sécurité de manière centralisée. La possibilité d'optimiser les coûts ou la latence sans modifier les applications a changé la donne. Cela a rendu notre architecture d'IA plus propre, plus sûre et beaucoup plus facile à faire évoluer.

Young man with short dark hair and neutral expression in circular frame.

Nilav Ghosh

Directeur principal, IA

La passerelle IA de TrueFoundry est devenue notre couche de contrôle pour une adoption sûre et contrôlée de l'IA. Il consolide la sécurité, l'observabilité et les politiques d'utilisation des modèles en un seul endroit, ce qui nous donne une visibilité complète sur les performances et les dépenses. Les développeurs bénéficient d'une interface cohérente entre les clouds et les modèles, tandis que les dirigeants s'occupent de la gouvernance et de la prévisibilité. Cela a considérablement réduit les difficultés liées à la mise à l'échelle de l'IA d'entreprise.

Frequently asked questions

Qu'est-ce qu'une passerelle IA ?

Une passerelle IA est une plateforme intergicielle spécialisée conçue pour faciliter l'intégration, la gestion et le déploiement de modèles et de services d'intelligence artificielle (IA) au sein de l'infrastructure informatique d'une organisation. Il fait office de pont entre les systèmes d'IA, tels que les grands modèles de langage (LLM) tels que le GPT d'OpenAI ou Claude d'Anthropic, et les applications destinées aux utilisateurs finaux, garantissant ainsi une communication efficace et sécurisée.

To know more, read our indepth guide on what is an AI gateway.

Comment fonctionne une passerelle IA ?

Une solution de passerelle d'IA se situe entre vos applications et les fournisseurs de modèles. La passerelle TrueFoundry achemine intelligemment les demandes, gère l'authentification et gère les basculements, garantissant ainsi à votre système une connectivité haut débit fiable avec le modèle ou l'outil sous-jacent de votre choix.

Quels sont les avantages d'une passerelle IA ?

Une passerelle d'IA fournit une plateforme centralisée pour gérer et optimiser les services d'IA. Il offre une interface unifiée pour connecter plusieurs modèles d'IA, renforce la sécurité par le biais de contrôles d'authentification et d'accès, et garantit la conformité réglementaire. La passerelle comprend une surveillance de l'utilisation, une gestion du budget et un équilibrage de charge intelligent pour garantir des performances et une fiabilité optimales. Il soutient l'application des politiques en matière d'utilisation des données et de considérations éthiques tout en permettant une mise à l'échelle horizontale pour répondre à la demande croissante et intégrer de manière fluide les nouveaux services d'IA.

Quelles sont les fonctionnalités des passerelles IA ?

Les passerelles IA fournissent un accès unifié et un routage intelligent entre plusieurs modèles avec des solutions de secours intégrées. Par exemple, la passerelle TrueFoundry AI contribue à la gouvernance et à la sécurité grâce à l'authentification, au contrôle d'accès et à l'application des politiques ; à l'optimisation des coûts via la limitation des débits et la budgétisation des jetons ; à une observabilité complète avec suivi de l'utilisation et surveillance des performances ; et à la prise en charge des flux de travail agentiques avec une orchestration en plusieurs étapes. Ils agissent comme un plan de contrôle centralisé, permettant aux entreprises d'opérationnaliser l'IA de manière sûre et rentable à grande échelle.

Quelle passerelle IA est la meilleure ?

La passerelle TrueFoundry AI est la meilleure. Il permet un déploiement et une gestion complets de services d'IA avec une sécurité de niveau entreprise via RBAC, OAuth 2.0 et l'authentification par clé API. Il est doté d'une limitation de débit, d'un équilibrage de charge intelligent et d'un basculement automatique pour des performances et une fiabilité optimales. Les garde-fous intégrés appliquent les directives éthiques et empêchent les sorties inappropriées, tandis que les outils d'observabilité fournissent des analyses, des journaux et une optimisation rapide. Grâce à une prise en charge multicloud et à des capacités d'inférence en temps réel, TrueFoundry fournit une solution flexible et évolutive pour le déploiement de l'IA en entreprise.

Quelle est la différence entre une passerelle API et une passerelle IA ?

Alors que les passerelles standard acheminent le trafic Web général, une passerelle IA d'entreprise TrueFoundry est spécialement conçue pour les LLM. Il gère des tâches spécifiques telles que le comptage des jetons, la mise en cache rapide et les modèles de secours, une logique spécialisée que les passerelles d'API génériques ne peuvent tout simplement pas exécuter efficacement.

Où se situe une passerelle IA dans l'architecture GenAI ?

Une passerelle IA se trouve directement dans le chemin d'inférence de production entre les applications et les fournisseurs de modèles. Il agit comme un plan de contrôle centralisé qui gère le routage, la gouvernance, l'observabilité, la sécurité et les contrôles des coûts entre les LLM, les outils et les agents, sans nécessiter de modifications de la logique de l'application.

Une passerelle IA peut-elle être utilisée avec des modèles auto-hébergés et open source ?

Oui Une passerelle IA d'entreprise prend en charge à la fois les modèles hébergés et les modèles auto-hébergés ou open source tels que LLama ou Mistral. Ces modèles peuvent être exécutés dans des environnements VPC, sur site, hybrides ou isolés tout en utilisant les mêmes politiques, contrôles et observabilité que les modèles hébergés.

Comment une passerelle IA permet-elle de contrôler et d'optimiser les coûts d'inférence ?

Une passerelle IA fournit une visibilité en temps réel sur l'utilisation, un suivi au niveau des jetons, des quotas et l'application du budget. Il permet également de mettre en place des stratégies intelligentes de routage, de mise en cache et de repli afin de réduire les appels inutiles vers des modèles coûteux et d'éviter des dépenses d'inférence excessives.

Comment une passerelle IA contribue-t-elle à la confidentialité et à la conformité des données ?

Les passerelles IA appliquent des politiques de gestion des données telles que le masquage des informations personnelles, le filtrage des demandes et la journalisation contrôlée. Lorsqu'ils sont déployés dans des environnements VPC, sur site ou isolés, ils garantissent que les données sensibles ne quittent jamais les frontières de l'entreprise tout en respectant les exigences de conformité.

Comment une passerelle IA peut-elle prendre en charge plusieurs équipes et environnements ?

Les passerelles AI permettent une isolation au niveau de l'équipe à l'aide du contrôle d'accès basé sur les rôles (RBAC), de clés d'API par équipe, de quotas et du suivi de l'utilisation. Cela permet à plusieurs équipes de partager des modèles et une infrastructure en toute sécurité tout en maintenant la gouvernance, la responsabilité et la visibilité des coûts.

Comment le TrueFoundry AI Gateway Playground aide-t-il les développeurs à créer et à tester ?

Le Playground est l'interface utilisateur interactive située au-dessus de l'AI Gateway où les développeurs peuvent essayer différents LLM, invites, outils MCP et configurations avant de les connecter à des applications. Vous pouvez sélectionner n'importe quel modèle intégré dans l'onglet « Modèles », ajuster des paramètres tels que la température, le nombre maximum de jetons, les séquences de streaming et d'arrêt, et voir immédiatement l'impact sur les réponses, l'utilisation des jetons et la latence. Cela permet de tester facilement les choix de modèles et les paramètres de génération sans écrire de code.
‍
Une fois que vous êtes satisfait d'une configuration, l'intégralité de la configuration (invite, modèle, outils, garde-corps et schéma de sortie structuré) peut être enregistrée en tant que modèle réutilisable dans un référentiel partagé. Le Playground génère également des extraits de code prêts à l'emploi pour le client OpenAI, LangChain et d'autres bibliothèques, à l'aide de l'API unifiée AI Gateway, afin que les équipes puissent mener une expérience fonctionnelle et l'intégrer directement à leurs services avec un minimum d'effort.

Que signifie « accès unifié » pour les API, les clés, les outils et les agents ?

Avec TrueFoundry AI Gateway, tous les fournisseurs de modèles et outils reposent sur une API unique et unifiée. Au lieu de gérer des SDK, des points de terminaison et des clés distincts pour OpenAI, Anthropic, Bedrock, les modèles auto-hébergés et autres, les applications communiquent avec un point de terminaison de passerelle et utilisent une seule clé de passerelle. La passerelle achemine ensuite les demandes vers le modèle sous-jacent approprié en fonction de la configuration, afin que vous puissiez échanger des modèles ou des fournisseurs sans modifier le code de votre application. Cette couche d'accès unifiée s'étend également aux outils via le protocole MCP et aux agents via le nouveau protocole A2A, de sorte que les modèles, les outils et les agents peuvent tous être orchestrés via le même plan de contrôle.
‍
Pour les développeurs, cela se traduit par une intégration plus simple et un modèle de sécurité plus propre : les clés des fournisseurs sont stockées une fois dans la passerelle, l'accès est régi de manière centralisée à l'aide du RBAC et des politiques, et les équipes peuvent standardiser sur un modèle de client unique dans tous les langages et frameworks. À mesure que de nouveaux modèles ou fournisseurs apparaissent, ils peuvent être ajoutés à la passerelle et devenir immédiatement disponibles via la même interface unifiée.

Comment la gestion rapide, la gestion des versions et les applications d'agent fonctionnent-elles ensemble ?

Les instructions, les outils et les configurations d'agents sont considérés comme des ressources de premier ordre dans AI Gateway. Dans le Playground, vous pouvez définir des instructions système, des instructions utilisateur, des variables d'entrée, des outils MCP, des garde-corps et des paramètres de modèle, puis les enregistrer en tant que modèles nommés. Chaque modèle peut avoir plusieurs versions afin que les équipes puissent itérer en toute sécurité sans modifier la logique des autres, et revenir aux versions précédentes si nécessaire. Cela devient en fait un référentiel de configuration rapide et d'agent pour votre organisation.
‍
Lorsqu'une configuration particulière est prête à être partagée plus largement, elle peut être publiée en tant qu'application d'agent. Les applications d'agent sont alimentées par la passerelle mais sont exposées via une interface simple et verrouillée : les utilisateurs professionnels ou les équipes internes peuvent interagir avec l'agent exactement comme il s'exécutera en production, tandis que les instructions, outils et barrières sous-jacents restent immuables. Les applications d'agent sont donc idéales pour les tests d'acceptation par les utilisateurs, les démonstrations avec les parties prenantes et les copilotes internes, car les équipes chargées des produits et des plateformes conservent le contrôle de la configuration tout en offrant aux autres un moyen sûr d'essayer les flux de travail des agences.

Comment fonctionnent les garde-corps, les contrôles de sécurité et les contrôles PII de bout en bout ?

Les garde-corps de TrueFoundry AI Gateway fonctionnent à la fois sur les voies d'entrée et de sortie pour fournir une défense en profondeur. Avant qu'une demande n'atteigne un modèle, les barrières de saisie peuvent y rechercher des données sensibles telles que des informations personnelles, des modèles d'injection rapide ou des sujets interdits, et bloquer, expurger ou transformer l'invite en fonction de vos politiques. Une fois que le modèle a généré une réponse, les barrières de sortie évaluent à nouveau le contenu pour détecter la toxicité, les biais, les hallucinations, les violations des règles ou les fuites de données accidentelles, et décident de renvoyer, de modifier ou de rejeter la réponse.
‍
La passerelle peut se connecter à des services de sécurité et de conformité existants tels que OpenAI Moderation, AWS Guardrails, Azure Content Safety et Azure PII detection, et elle prend également en charge les règles personnalisées écrites sous forme de configuration ou de code Python. Les barrières étant configurées de manière centralisée et appliquées de manière cohérente dans tous les modèles et applications passant par AI Gateway, les équipes chargées de la sécurité et de la conformité disposent d'un moyen prévisible d'appliquer les politiques organisationnelles relatives à l'utilisation de GenAI, y compris dans les environnements réglementés tels que la santé, les services financiers et les assurances.

Quelles sont les fonctionnalités d'observabilité, de traçage et de débogage fournies par AI Gateway ?

Chaque demande passant par TrueFoundry AI Gateway est instrumentée afin que vous puissiez voir exactement comment se comportent vos charges de travail GenAI. Les vues de surveillance présentent des mesures agrégées telles que le total des demandes, les jetons d'entrée et de sortie et les coûts, ventilées par modèle, équipe, utilisateur, client, environnement ou toute autre métadonnée que vous choisissez de joindre. Les performances sont suivies à l'aide de la latence P99, P90 et P50, du délai jusqu'au premier jeton et de la latence entre jetons, afin que vous puissiez identifier rapidement les modèles ou les itinéraires à l'origine de ralentissements ou d'erreurs.
‍
Pour un débogage plus approfondi, il existe une vue au niveau des requêtes qui vous permet d'inspecter les appels individuels, de voir l'invite et la réponse complètes et de comprendre comment le routage, les solutions de secours et les garde-fous ont été appliqués. Pour les flux de travail des agences utilisant des outils et un MCP, la passerelle peut capturer des traces indiquant chaque étape franchie par un agent, les outils qu'il a appelés et la manière dont les résultats intermédiaires ont circulé dans le système. Tous ces journaux et mesures sont également exposés via des API, afin que les équipes chargées de la plateforme et de l'observabilité puissent créer des tableaux de bord et des alertes personnalisés dans leurs piles de surveillance existantes.

Comment les politiques, les limites tarifaires, les solutions de repli et les budgets sont-ils configurés et automatisés ?

L'AI Gateway vous permet d'exprimer les règles de fiabilité et de gouvernance sous forme de configuration afin qu'elles puissent être appliquées de manière cohérente et automatisée. Les limites de débit peuvent être définies par équipe, utilisateur, modèle, application ou environnement, afin qu'aucun consommateur ne puisse épuiser sa capacité ou dépenser trop. Les budgets et les quotas peuvent être définis de telle sorte que lorsque l'utilisation dépasse certains seuils, les demandes soient limitées, rétrogradées vers des modèles moins coûteux ou bloquées, en fonction de vos règles commerciales. Les politiques d'équilibrage de charge peuvent acheminer le trafic en fonction de poids fixes, d'une latence mesurée ou d'une priorité, tandis que les chaînes de secours décrivent la séquence de modèles à essayer en cas d'erreur ou de temporisation.
‍
Tous ces contrôles peuvent être gérés via l'interface utilisateur ou déclarés en YAML et appliqués via la CLI TrueFoundry, permettant ainsi un flux de travail GitOps où la configuration de la passerelle côtoie le code de l'application et les définitions d'infrastructure. Combinées à la mise en cache, au traitement par lots et à la gestion centralisée des clés d'API, ces fonctionnalités permettent aux équipes de la plateforme de traiter AI Gateway comme l'endroit unique où elles définissent comment GenAI doit être utilisé, combien peuvent être dépensées et comment les applications doivent se comporter en cas de défaillance, sans obliger les équipes d'applications individuelles à réimplémenter ces préoccupations à maintes reprises.

Grey wavy lines on white background, abstract wave pattern with multiple curved lines intersecting smoothly.

GenAI infra- simple, plus rapide et moins cher

Plus de 10 entreprises du Fortune 500 nous font confiance

Essayez-le dès maintenant

Parlez à des experts

Passerelle IA d'entreprise avec gouvernance et surveillance intégrées

Conçu pour une IA à grande échelle dans le monde réel