What is an AI gateway?

An AI Gateway is a specialized middleware platform designed to facilitate the integration, management, and deployment of artificial intelligence (AI) models and services within an organization's IT infrastructure. It acts as a bridge between AI systems, such as large language models (LLMs) like OpenAI's GPT or Anthropic's Claude, and end-user applications, ensuring efficient and secure communication. To know more, read our indepth guide on what is an AI gateway .

How does an AI gateway work?

An AI gateway solution sits between your applications and model providers. The TrueFoundry gateway intelligently routes requests, handles authentication, and manages failovers, ensuring your system maintains reliable, high-speed connectivity with any underlying model or tool you choose.

What are the benefits of an AI gateway?

An AI gateway provides a centralized platform for managing and optimizing AI services. It offers a unified interface to connect multiple AI models, enforces security through authentication and access controls, and ensures regulatory compliance. The gateway features usage monitoring, budget management, and intelligent load balancing to ensure optimal performance and reliability. It supports policy enforcement for data usage and ethical considerations while enabling horizontal scaling to meet growing demand and seamlessly integrate new AI services.

What are the capabilities of AI gateways?

AI gateways provide unified access and intelligent routing across multiple models with built-in fallbacks. For instance, TrueFoundry AI gateway helps with governance and security through authentication, access control, and policy enforcement; cost optimization via rate limiting and token budgeting; full observability with usage tracking and performance monitoring; and support for agentic workflows with multi-step orchestration. They act as a centralized control plane, enabling enterprises to operationalize AI safely and cost-effectively at scale.

Which AI gateway is best?

The TrueFoundry AI gateway is the best. It delivers comprehensive deployment and management of AI services with enterprise-grade security through RBAC, OAuth 2.0, and API key authentication. It features rate limiting, intelligent load balancing, and automatic failover for optimal performance and reliability. Built-in guardrails enforce ethical guidelines and prevent inappropriate outputs, while observability tools provide analytics, logs, and prompt optimization. With multi-cloud support and real-time inference capabilities, TrueFoundry provides a flexible and scalable solution for enterprise AI deployment.

What is the difference between an API gateway and an AI gateway?

While standard gateways route general web traffic, a TrueFoundry enterprise AI gateway is purpose-built for LLMs. It handles specific tasks like token counting, prompt caching, and model fallbacks—specialized logic that generic API gateways simply cannot execute efficiently.

Where does an AI Gateway sit in the GenAI architecture?

An AI Gateway sits directly in the production inference path between applications and model providers. It acts as a centralized control plane that manages routing, governance, observability, security, and cost controls across LLMs, tools, and agents, without requiring changes to application logic.

Can an AI Gateway be used with self-hosted and open-source models?

Yes. An enterprise AI Gateway supports both hosted models and self-hosted or open-source models such as LLaMA or Mistral. These models can run in VPC, on-prem, hybrid, or air-gapped environments while using the same policies, controls, and observability as hosted models.

How does an AI Gateway help control and optimize inference costs?

CAn AI Gateway provides real-time usage visibility, token-level tracking, quotas, and budget enforcement. It also enables intelligent routing, caching, and fallback strategies to reduce unnecessary calls to expensive models and prevent runaway inference spend.

How does an AI Gateway help with data privacy and compliance?

AI Gateways enforce data handling policies such as PII masking, request filtering, and controlled logging. When deployed in VPC, on-prem, or air-gapped environments, they ensure sensitive data never leaves enterprise boundaries while meeting compliance requirements.

How does an AI Gateway support multiple teams and environments?

AI Gateways enable team-level isolation using role-based access control (RBAC), per-team API keys, quotas, and usage tracking. This allows multiple teams to share models and infrastructure securely while maintaining governance, accountability, and cost visibility.

How does the TrueFoundry AI Gateway Playground help developers build and test?

The Playground is the interactive UI on top of the AI Gateway where developers can try out different LLMs, prompts, MCP tools and configurations before wiring them into applications. You can select any model that has been onboarded in the “Models” tab, adjust parameters such as temperature, max tokens, streaming and stop sequences, and immediately see the impact on responses, token usage and latency. This makes it easy to experiment with model choices and generation settings without writing code. Once you are happy with a setup, the entire configuration—prompt, model, tools, guardrails and structured output schema—can be saved as a reusable template in a shared repository. The Playground also generates ready-to-use code snippets for the OpenAI client, LangChain and other libraries, using the unified AI Gateway API, so teams can take a working experiment and drop it straight into their services with minimal effort.

What does “unified access” mean for APIs, keys, tools and agents?

With TrueFoundry AI Gateway, all model providers and tools sit behind a single, unified API. Instead of managing separate SDKs, endpoints and keys for OpenAI, Anthropic, Bedrock, self-hosted models and others, applications talk to one gateway endpoint and use one gateway key. The gateway then routes requests to the right underlying model based on configuration, so you can swap models or providers without changing your application code. This unified access layer also extends to tools via the MCP protocol and to agents via the emerging A2A protocol, so models, tools and agents can all be orchestrated through the same control plane. For developers, this means simpler integration and a cleaner security model: provider keys are stored once in the gateway, access is governed centrally using RBAC and policies, and teams can standardize on a single client pattern across languages and frameworks. As new models or providers appear, they can be added to the gateway and become immediately available behind the same unified interface.

How do prompt management, versioning and Agent Apps work together?

Prompts, tools and agent configurations are treated as first-class assets in the AI Gateway. In the Playground you can define system prompts, user prompts, input variables, MCP tools, guardrails and model settings, and then save them as named templates. Each template can have multiple versions so teams can iterate safely without overwriting each other’s logic, and roll back to previous versions when needed. This effectively becomes a prompt and agent configuration repository for your organization. When a particular configuration is ready to be shared more broadly, it can be published as an Agent App. Agent Apps are powered by the gateway but exposed through a simple, locked-down interface: business users or internal teams can interact with the agent exactly as it will run in production, while the underlying prompts, tools and guardrails remain immutable. This makes Agent Apps ideal for user acceptance testing, stakeholder demos and internal copilots, because product and platform teams retain control over the configuration while still giving others a safe way to try agentic workflows.

How do guardrails, safety checks and PII controls work end-to-end?

Guardrails in TrueFoundry AI Gateway operate on both the input and output paths to provide defense-in-depth. Before a request reaches a model, input guardrails can scan it for sensitive data such as PII, prompt injection patterns or disallowed topics, and either block, redact or transform the prompt based on your policies. After the model generates a response, output guardrails evaluate the content again for toxicity, bias, hallucinations, policy violations or accidental data leakage, and decide whether to return, modify or reject the response. The gateway can plug into existing safety and compliance services such as OpenAI Moderation, AWS Guardrails, Azure Content Safety and Azure PII detection, and it also supports custom rules written as configuration or Python code. Because guardrails are configured centrally and applied consistently across all models and applications going through the AI Gateway, security and compliance teams get a predictable way to enforce organizational policies for GenAI usage, including in regulated environments like healthcare, financial services and insurance.

What observability, tracing and debugging capabilities does the AI Gateway provide?

Every request flowing through TrueFoundry AI Gateway is instrumented so you can see exactly how your GenAI workloads behave. The monitoring views show aggregate metrics such as total requests, input and output tokens, and cost, broken down by model, team, user, customer, environment or any other metadata you choose to attach. Performance is tracked using P99, P90 and P50 latency, time-to-first-token and inter-token latency, so you can quickly identify models or routes that are causing slowdowns or errors. For deeper debugging, there is a request-level view that lets you inspect individual calls, see the full prompt and response, and understand how routing, fallbacks and guardrails were applied. For agentic workflows using tools and MCP, the gateway can capture traces that show each step an agent took, which tools it called, and how intermediate results flowed through the system. All of these logs and metrics are also exposed via APIs, so platform and observability teams can build custom dashboards and alerts in their existing monitoring stacks.

How are policies, rate limits, fallbacks and budgets configured and automated?

The AI Gateway lets you express reliability and governance rules as configuration so they can be applied consistently and automated. Rate limits can be defined per team, user, model, application or environment, ensuring that no single consumer can exhaust capacity or overspend. Budgets and quotas can be set so that when usage crosses certain thresholds, requests are throttled, downgraded to cheaper models or blocked, depending on your business rules. Load-balancing policies can route traffic based on fixed weights, measured latency or priority, while fallback chains describe the sequence of models to try when errors or timeouts occur. All of these controls can be managed through the UI or declared in YAML and applied via the TrueFoundry CLI, enabling a GitOps workflow where gateway configuration lives alongside application code and infrastructure definitions. Combined with caching, batching and centralized API key management, these features allow platform teams to treat the AI Gateway as the single place where they define how GenAI should be used, how much can be spent, and how applications should behave under failure—without forcing individual application teams to re-implement these concerns over and over again.

Gateway de IA para Empresas

Purple gradient square with white background, shiny surface, and rounded corners in rhombus shape.

Feito para IA do mundo real em escala

99,99%

Disponibilidade

Failovers centralizados, roteamento e salvaguardas garantem que seus aplicativos de IA permaneçam online, mesmo quando os provedores de modelo não estão disponíveis.

10B+

Requisições processadas/mês

Inferência escalável e de alta vazão para IA de produção.

30%

Otimização média de custos

Roteamento inteligente, agrupamento e controles de orçamento reduzem o desperdício de tokens.

1600+

Modelos

Conectado através de um único AI gateway.

AI Gateway: Acesso Unificado à API LLM

Simplifique sua pilha GenAI com um único AI Gateway que integra todos os principais modelos.

Conecte-se a OpenAI, Claude, Gemini, Groq, Mistral e mais de 250 LLMs através de uma única API do AI Gateway
Use o AI Gateway para suportar tipos de modelo de chat, conclusão, embedding e reranking
Centralize o gerenciamento de chaves de API e a autenticação de equipe em um só lugar.
Orquestre cargas de trabalho multimodelos perfeitamente através da sua infraestrutura.

Ler Mais

Gateway de IA Empresarial com Acesso Unificado à API LLM

Observabilidade do Gateway de IA

Acompanhe o desempenho do seu gateway de IA, custos e garanta a conformidade entre modelos em tempo real.

Monitore o uso de tokens, latência, taxas de erro e volumes de requisição em todo o seu sistema.
Armazene e inspecione logs completos de requisição/resposta centralmente para garantir a conformidade e simplificar a depuração.
Marque o tráfego com metadados como ID de usuário, equipe ou ambiente para obter insights granulares.
Filtre logs e métricas por modelo, equipe ou geografia para identificar rapidamente as causas-raiz e acelerar a resolução.

Ler Mais

Painel de Observabilidade do Gateway de IA Truefoundry

Cota e Controle de Acesso via Gateway de IA

Garanta a governança, controle custos e reduza riscos com o gerenciamento de políticas do gateway de IA empresarial.

Aplique limites de taxa por usuário, serviço ou endpoint.
Defina cotas baseadas em custo ou em token usando filtros de metadados.
Use o controle de acesso baseado em função (RBAC) para isolar e gerenciar o uso.
Gerencie contas de serviço e cargas de trabalho de agente em escala através de regras centralizadas.

Ler Mais

Garantindo uso previsível, limites de acesso robustos e governança escalável em nível de equipe para sua infraestrutura GenAI com controles de gateway de IA empresariais.

Inferência de Baixa Latência

Execute suas cargas de trabalho mais sensíveis ao desempenho através de uma infraestrutura de gateway de IA de alta velocidade.

Alcance latência interna inferior a 3ms mesmo sob cargas de trabalho em escala empresarial.
Escale de forma contínua para gerenciar tráfego de pico e cargas de trabalho de alto rendimento.
Ofereça tempos de resposta previsíveis para chat em tempo real, RAG e assistentes de IA.
Posicione as implantações próximo às camadas de inferência para minimizar a latência e eliminar o atraso da rede.

Roteamento e Fallbacks do AI Gateway

Garanta a confiabilidade, mesmo durante falhas de modelo, com controles inteligentes de tráfego do AI Gateway.

Suporta roteamento baseado em latência para o LLM mais rápido disponível.
Distribua o tráfego de forma inteligente usando balanceamento de carga ponderado para confiabilidade e escalabilidade.
Recorra automaticamente a modelos secundários quando uma solicitação falhar.
Utilize roteamento com reconhecimento geográfico para atender às necessidades de conformidade regional e disponibilidade.

Ler Mais

Este sistema de roteamento de gateway de IA garante que você nunca fiquem offline, mesmo quando modelos individuais enfrentam tempo de inatividade ou pico de latência.

Sirva Modelos Auto-Hospedados

Exponha modelos de código aberto com controle total.

Implante LLaMA, Mistral, Falcon e outros sem alterações no SDK.
Compatibilidade total com vLLM, SGLang, KServe e Triton.
Otimize operações com gerenciamento baseado em Helm de autoescalonamento, agendamento de GPU e implantações.
Execute seus próprios modelos em ambientes VPC, híbridos ou isolados (air-gapped).

Ler Mais

Integração AI Gateway + MCP

Potencialize fluxos de trabalho de agentes seguros através do suporte nativo a MCP do AI Gateway.

Conecte ferramentas empresariais como Slack, GitHub, Confluence e Datadog.
Registe facilmente servidores MCP internos com configuração mínima.
Aplique políticas de OAuth2, RBAC e metadados a cada chamada de ferramenta.

Ler Mais

Guardrails do Gateway de IA

Crie aplicações de IA seguras com guardrails configuráveis para o gateway de IA e controlos de política.

Aplique os seus próprios guardrails de segurança de forma contínua, incluindo filtragem de PII e deteção de toxicidade
Personalize o Gateway de IA com guardrails adaptados às suas necessidades de conformidade e segurança

Ler Mais

Pronto para Empresas

Implante um gateway de IA seguro que mantém seus dados e modelos dentro da sua infraestrutura em nuvem / on-premise.

HIPAA, GDPR, and AICPA SOC compliance badges for data security and privacy regulations standards.

Conformidade e Segurança
Padrões SOC 2, HIPAA e GDPR para garantir uma proteção de dados robusta
Governança e Controle de Acesso
SSO + Controle de Acesso Baseado em Função (RBAC) e Registro de Auditoria
Suporte Empresarial e Confiabilidade
Suporte 24/7 com garantia de SLA SLAs de resposta

Implante a TrueFoundry em qualquer ambiente

VPC, no local, com isolamento físico ou em várias nuvens.

Nenhum dado sai do seu domínio. Desfrute de soberania completa, isolamento e conformidade de nível empresarial onde quer que a TrueFoundry opere

Começar

AWS, multi-cloud, cloud computing services, isolated infrastructure, installations, and secure networking solutions.

Resultados Reais na TrueFoundry

Por que as Empresas Escolhem a TrueFoundry

Smiling man in black blazer and white shirt with short dark hair and blurred greenery background.

Pratik Agarwal

Diretor Sênior, Ciência de Dados e Inovação em IA

O AI Gateway da TrueFoundry nos forneceu uma camada unificada para gerenciar acesso a modelos, roteamento, barreiras de segurança e controles de custo entre equipes. O que antes exigia múltiplas integrações personalizadas e revisões de segurança agora acontece através de uma única interface governada. Isso acelerou a entrada em produção, aumentou a visibilidade sobre gastos e desempenho, e nos permitiu escalar a experimentação de IA com segurança em toda a organização.

Smiling man with short dark hair and glasses wearing a collared shirt and sweater indoors.

Vibhas Gejji

Engenheiro de ML Sênior

Com o AI Gateway da TrueFoundry, finalmente temos uma interface consistente para todos os provedores de modelos, políticas e telemetria. Ele eliminou a sobrecarga de gerenciar chaves, lógica de roteamento e observabilidade dispersa. Introduzir novos modelos agora é apenas configuração. O Gateway melhorou a velocidade do desenvolvedor, reduziu a carga de DevOps e nos ajudou a operar sistemas multimodelos com insights em tempo real e governança.

Smiling man with beard and mustache wearing blue shirt and gray blazer against white background.

Indroneel G.

Líder de Processos Inteligentes

O AI Gateway da TrueFoundry padronizou a forma como cada equipe interage com LLMs, embeddings e componentes RAG. Em vez de integrações dispersas, agora controlamos o acesso, as políticas de roteamento e as barreiras de segurança centralmente. A capacidade de otimizar custos ou latência sem alterar as aplicações tem sido um divisor de águas. Tornou nossa arquitetura de IA mais limpa, mais segura e muito mais fácil de escalar.

Young man with short dark hair and neutral expression in circular frame.

Nilav Ghosh

Diretor Sênior, IA

O AI Gateway da TrueFoundry tornou-se nossa camada de controle para uma adoção de IA segura e governada. Ele consolida políticas de segurança, observabilidade e uso de modelos em um só lugar, dando-nos total visibilidade sobre o desempenho e os gastos. Os desenvolvedores obtêm uma interface consistente em nuvens e modelos, enquanto a liderança obtém governança e previsibilidade. Isso reduziu significativamente o atrito na escalada da IA empresarial.

Perguntas frequentes

O que é um gateway de IA?

Um Gateway de IA é uma plataforma de middleware especializada projetada para facilitar a integração, gestão e implantação de modelos e serviços de inteligência artificial (IA) dentro da infraestrutura de TI de uma organização. Ele atua como uma ponte entre sistemas de IA, como grandes modelos de linguagem (LLMs) como GPT da OpenAI ou Claude da Anthropic, e aplicações de usuário final, garantindo comunicação eficiente e segura.

Para saber mais, leia nosso guia aprofundado sobre o que é um gateway de IA.

Como funciona um gateway de IA?

Uma solução de gateway de IA fica entre suas aplicações e os provedores de modelos. O gateway TrueFoundry roteia solicitações de forma inteligente, lida com a autenticação e gerencia falhas (failovers), garantindo que seu sistema mantenha conectividade confiável e de alta velocidade com qualquer modelo ou ferramenta subjacente que você escolher.

Quais são os benefícios de um gateway de IA?

Um gateway de IA oferece uma plataforma centralizada para gerenciar e otimizar serviços de IA. Ele proporciona uma interface unificada para conectar múltiplos modelos de IA, impõe segurança através de autenticação e controles de acesso, e garante a conformidade regulatória. O gateway apresenta monitoramento de uso, gestão de orçamento e balanceamento de carga inteligente para assegurar desempenho e confiabilidade ideais. Ele suporta a aplicação de políticas para uso de dados e considerações éticas, ao mesmo tempo que permite o escalonamento horizontal para atender à demanda crescente e integrar novos serviços de IA de forma contínua.

Quais são as capacidades dos AI gateways?

Os AI gateways fornecem acesso unificado e roteamento inteligente entre múltiplos modelos com fallbacks integrados. Por exemplo, o AI gateway da TrueFoundry auxilia na governança e segurança através de autenticação, controle de acesso e aplicação de políticas; otimização de custos via limitação de taxa e orçamentação de tokens; observabilidade completa com rastreamento de uso e monitoramento de desempenho; e suporte para fluxos de trabalho agentivos com orquestração multi-etapas. Eles atuam como um plano de controle centralizado, permitindo que as empresas operacionalizem a IA de forma segura e econômica em escala.

Qual AI gateway é o melhor?

O AI gateway da TrueFoundry é o melhor. Ele oferece implantação e gerenciamento abrangentes de serviços de IA com segurança de nível empresarial através de RBAC, OAuth 2.0 e autenticação por chave de API. Apresenta limitação de taxa, balanceamento de carga inteligente e failover automático para desempenho e confiabilidade ótimos. Guardrails integrados impõem diretrizes éticas e previnem saídas inadequadas, enquanto ferramentas de observabilidade fornecem análises, logs e otimização de prompts. Com suporte multi-nuvem e capacidades de inferência em tempo real, a TrueFoundry oferece uma solução flexível e escalável para a implantação de IA empresarial.

Qual a diferença entre um API gateway e um AI gateway?

Enquanto gateways padrão roteiam o tráfego web geral, um AI gateway empresarial TrueFoundry é construído especificamente para LLMs. Ele lida com tarefas específicas como contagem de tokens, cache de prompts e fallbacks de modelos — lógica especializada que gateways de API genéricos simplesmente não conseguem executar de forma eficiente.

Onde um AI Gateway se encaixa na arquitetura GenAI?

Um AI Gateway se posiciona diretamente no caminho de inferência de produção entre aplicações e provedores de modelos. Ele atua como um plano de controle centralizado que gerencia roteamento, governança, observabilidade, segurança e controle de custos em LLMs, ferramentas e agentes, sem exigir alterações na lógica da aplicação.

Um AI Gateway pode ser usado com modelos auto-hospedados e de código aberto?

Sim. Um AI Gateway empresarial suporta tanto modelos hospedados quanto modelos auto-hospedados ou de código aberto, como LLaMA ou Mistral. Esses modelos podem ser executados em ambientes VPC, on-premise, híbridos ou air-gapped, utilizando as mesmas políticas, controles e observabilidade que os modelos hospedados.

Como um AI Gateway ajuda a controlar e otimizar os custos de inferência?

Um AI Gateway oferece visibilidade de uso em tempo real, rastreamento em nível de token, cotas e aplicação de orçamento. Ele também permite roteamento inteligente, cache e estratégias de fallback para reduzir chamadas desnecessárias a modelos caros e evitar gastos excessivos com inferência.

Como um AI Gateway ajuda na privacidade e conformidade de dados?

Os AI Gateways impõem políticas de tratamento de dados, como mascaramento de PII, filtragem de solicitações e registro controlado. Quando implantados em ambientes VPC, on-premise ou air-gapped, eles garantem que dados sensíveis nunca saiam dos limites da empresa, ao mesmo tempo em que atendem aos requisitos de conformidade.

Como um AI Gateway suporta múltiplas equipes e ambientes?

Os AI Gateways permitem o isolamento em nível de equipe usando controle de acesso baseado em função (RBAC), chaves de API por equipe, cotas e rastreamento de uso. Isso permite que várias equipes compartilhem modelos e infraestrutura de forma segura, mantendo a governança, a responsabilidade e a visibilidade de custos.

Como o Playground do TrueFoundry AI Gateway ajuda os desenvolvedores a construir e testar?

O Playground é a interface de usuário interativa sobre o AI Gateway onde os desenvolvedores podem experimentar diferentes LLMs, prompts, ferramentas MCP e configurações antes de integrá-los em aplicações. Você pode selecionar qualquer modelo que tenha sido integrado na aba “Modelos”, ajustar parâmetros como temperatura, tokens máximos, streaming e sequências de parada, e ver imediatamente o impacto nas respostas, uso de tokens e latência. Isso facilita a experimentação com escolhas de modelos e configurações de geração sem escrever código.
‍
Uma vez satisfeito com uma configuração, toda a configuração — prompt, modelo, ferramentas, guardrails e esquema de saída estruturada — pode ser salva como um modelo reutilizável em um repositório compartilhado. O Playground também gera trechos de código prontos para uso para o cliente OpenAI, LangChain e outras bibliotecas, usando a API unificada do AI Gateway, para que as equipes possam pegar um experimento funcional e inseri-lo diretamente em seus serviços com o mínimo de esforço.

O que significa “acesso unificado” para APIs, chaves, ferramentas e agentes?

Com o TrueFoundry AI Gateway, todos os provedores de modelos e ferramentas ficam por trás de uma única API unificada. Em vez de gerenciar SDKs, endpoints e chaves separados para OpenAI, Anthropic, Bedrock, modelos auto-hospedados e outros, os aplicativos se comunicam com um único endpoint de gateway e usam uma única chave de gateway. O gateway então roteia as solicitações para o modelo subjacente correto com base na configuração, para que você possa trocar modelos ou provedores sem alterar o código do seu aplicativo. Essa camada de acesso unificado também se estende a ferramentas via protocolo MCP e a agentes via protocolo A2A emergente, de modo que modelos, ferramentas e agentes podem ser orquestrados através do mesmo plano de controle.
‍
Para desenvolvedores, isso significa integração mais simples e um modelo de segurança mais limpo: as chaves do provedor são armazenadas uma vez no gateway, o acesso é governado centralmente usando RBAC e políticas, e as equipes podem padronizar um único padrão de cliente em todas as linguagens e frameworks. À medida que novos modelos ou provedores surgem, eles podem ser adicionados ao gateway e se tornam imediatamente disponíveis por trás da mesma interface unificada.

Como o gerenciamento de prompts, o versionamento e os Agent Apps funcionam juntos?

Prompts, ferramentas e configurações de agente são tratados como ativos de primeira classe no AI Gateway. No Playground, você pode definir prompts de sistema, prompts de usuário, variáveis de entrada, ferramentas MCP, guardrails e configurações de modelo, e então salvá-los como modelos nomeados. Cada modelo pode ter várias versões para que as equipes possam iterar com segurança sem sobrescrever a lógica umas das outras, e reverter para versões anteriores quando necessário. Isso se torna efetivamente um repositório de configuração de prompts e agentes para sua organização.
‍
Quando uma configuração específica está pronta para ser compartilhada mais amplamente, ela pode ser publicada como um Agent App. Os Agent Apps são alimentados pelo gateway, mas expostos através de uma interface simples e restrita: usuários de negócios ou equipes internas podem interagir com o agente exatamente como ele funcionará em produção, enquanto os prompts, ferramentas e guardrails subjacentes permanecem imutáveis. Isso torna os Agent Apps ideais para testes de aceitação do usuário, demonstrações para stakeholders e copilotos internos, pois as equipes de produto e plataforma mantêm o controle sobre a configuração, ao mesmo tempo em que oferecem a outros uma maneira segura de experimentar fluxos de trabalho agentivos.

Como os guardrails, verificações de segurança e controles de PII funcionam de ponta a ponta?

Os guardrails no TrueFoundry AI Gateway operam tanto nos caminhos de entrada quanto de saída para fornecer defesa em profundidade. Antes que uma solicitação chegue a um modelo, os guardrails de entrada podem escaneá-la em busca de dados sensíveis, como PII, padrões de injeção de prompt ou tópicos não permitidos, e bloquear, redigir ou transformar o prompt com base em suas políticas. Depois que o modelo gera uma resposta, os guardrails de saída avaliam o conteúdo novamente em busca de toxicidade, viés, alucinações, violações de política ou vazamento acidental de dados, e decidem se devem retornar, modificar ou rejeitar a resposta.
‍
O gateway pode se integrar a serviços de segurança e conformidade existentes, como OpenAI Moderation, AWS Guardrails, Azure Content Safety e detecção de PII do Azure, e também suporta regras personalizadas escritas como configuração ou código Python. Como os guardrails são configurados centralmente e aplicados consistentemente em todos os modelos e aplicativos que passam pelo AI Gateway, as equipes de segurança e conformidade obtêm uma maneira previsível de aplicar políticas organizacionais para o uso de GenAI, inclusive em ambientes regulamentados como saúde, serviços financeiros e seguros.

Quais recursos de observabilidade, rastreamento e depuração o AI Gateway oferece?

Cada solicitação que flui pelo TrueFoundry AI Gateway é instrumentada para que você possa ver exatamente como suas cargas de trabalho GenAI se comportam. As visualizações de monitoramento mostram métricas agregadas, como total de solicitações, tokens de entrada e saída e custo, detalhadas por modelo, equipe, usuário, cliente, ambiente ou qualquer outro metadado que você escolha anexar. O desempenho é rastreado usando latência P99, P90 e P50, tempo até o primeiro token e latência inter-token, para que você possa identificar rapidamente modelos ou rotas que estão causando lentidão ou erros.
‍
Para depuração mais aprofundada, há uma visualização em nível de solicitação que permite inspecionar chamadas individuais, ver o prompt e a resposta completos e entender como o roteamento, os fallbacks e os guardrails foram aplicados. Para fluxos de trabalho agentivos usando ferramentas e MCP, o gateway pode capturar rastreamentos que mostram cada etapa que um agente realizou, quais ferramentas ele chamou e como os resultados intermediários fluíram pelo sistema. Todos esses logs e métricas também são expostos via APIs, para que as equipes de plataforma e observabilidade possam construir painéis e alertas personalizados em suas pilhas de monitoramento existentes.

Como as políticas, limites de taxa, fallbacks e orçamentos são configurados e automatizados?

O AI Gateway permite expressar regras de confiabilidade e governança como configuração para que possam ser aplicadas de forma consistente e automatizada. Limites de taxa podem ser definidos por equipe, usuário, modelo, aplicativo ou ambiente, garantindo que nenhum consumidor individual possa esgotar a capacidade ou gastar em excesso. Orçamentos e cotas podem ser definidos para que, quando o uso exceder certos limites, as solicitações sejam limitadas, rebaixadas para modelos mais baratos ou bloqueadas, dependendo das suas regras de negócio. Políticas de balanceamento de carga podem rotear o tráfego com base em pesos fixos, latência medida ou prioridade, enquanto cadeias de fallback descrevem a sequência de modelos a serem tentados quando ocorrem erros ou timeouts.
‍
Todos esses controles podem ser gerenciados pela interface do usuário ou declarados em YAML e aplicados via CLI do TrueFoundry, permitindo um fluxo de trabalho GitOps onde a configuração do gateway reside junto ao código do aplicativo e às definições de infraestrutura. Combinadas com cache, processamento em lote e gerenciamento centralizado de chaves de API, essas funcionalidades permitem que as equipes de plataforma tratem o AI Gateway como o único local onde definem como a GenAI deve ser usada, quanto pode ser gasto e como os aplicativos devem se comportar em caso de falha — sem forçar as equipes de aplicativos individuais a reimplementar essas preocupações repetidamente.