Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

TrueFoundry AI Gateway exporta rastreamentos OpenTelemetry para Traceloop via OTLP/HTTP utilizando o https://api.traceloop.com/v1/traces endpoint e um token Bearer no Authorization cabeçalho. Cada requisição LLM que passa pelo gateway produz uma árvore de spans que aparece no painel do Traceloop sem quaisquer alterações no código da aplicação ou na topologia de implantação.

Esta publicação aborda o caminho de geração de rastreamentos dentro do TrueFoundry AI Gateway e como Traceloop ingere e exibe esses dados. Também descreve as opções de configuração e os controles de privacidade de dados disponíveis no nível do gateway.

Como o Gateway Gera Rastreamentos

O TrueFoundry AI Gateway é construído sobre o framework Hono e executa como um pod sem estado, processando mais de 250 requisições por segundo em uma única vCPU com aproximadamente 3 ms de latência adicionada por requisição. O gateway opera em uma arquitetura dividida onde um plano de controle gerencia a configuração e um ou mais pods de gateway processam o tráfego de inferência.

Quando uma requisição chega, o gateway executa a seguinte sequência no caminho crítico:

Token JWT validado contra chaves públicas armazenadas em cache na memória (baixado uma vez do IdP e atualizado via NATS)
Autorização verificada contra um mapa de usuário para modelo em memória mantido atualizado por NATS pub/sub
Identificador do modelo resolvido para um endpoint de provedor físico através da lógica de roteamento do Modelo Virtual executando em memória
Requisição traduzida do formato compatível com OpenAI para o formato do provedor de destino através de uma camada adaptadora
Requisição encaminhada ao provedor e a resposta transmitida de volta ao cliente

Nenhuma dessas etapas faz chamadas externas, exceto a própria chamada ao provedor. O controle de taxa executa o algoritmo Sliding Window Token Bucket contra o estado em memória. A avaliação de guardrail (quando configurada) é executada concorrentemente com a chamada do modelo para verificações de entrada e sequencialmente para verificações de saída.

Após a conclusão da requisição, o gateway publica a árvore de spans assincronamente para o NATS. O exportador OTEL lê a partir deste caminho assíncrono e encaminha os spans para o endpoint externo configurado. Como o caminho de exportação é totalmente desacoplado do caminho da requisição, um backend OTEL lento ou inacessível nunca adiciona latência ao cliente e nunca causa falha em uma requisição. Se Traceloop estiver inacessível, os spans são descartados no exportador e registrados internamente. O armazenamento interno de rastreamento da TrueFoundry não é afetado porque a exportação é aditiva.

O gateway gera spans em cinco estágios: o manipulador HTTP de entrada, autenticação, resolução do modelo, a chamada de provedor de saída e a montagem da resposta de streaming. Cada span carrega um conjunto consistente de atributos.

Span Attribute	Description
tfy.input	Full request body sent to the LLM provider
tfy.output	Full response body returned by the LLM provider
tfy.input_short_hand	Condensed input summary with flags for file and image and audio content
tfy.span_type	Operation type: ChatCompletion or AgentResponse or MCPGateway
tfy.data_routing.destination	Target model or Virtual Model identifier
tfy.request.created_by_subject	Identity of the requesting user
service.name	Always set to tfy-llm-gateway
gen_ai.usage.prompt_tokens	Input token count for the request
gen_ai.usage.completion_tokens	Output token count for the response
gen_ai.request.model	Model name resolved at routing time
gen_ai.system	Provider system identifier (openai and anthropic etc.)

Os gen_ai.* atributos seguem as Convenções Semânticas OpenTelemetry para Sistemas de IA Generativa. Isso significa que os dados de rastreamento que chegam ao Traceloop são estruturalmente idênticos ao que qualquer aplicação instrumentada com OpenLLMetry produziria.

‍

O que o Traceloop Faz com os Dados

Traceloop é uma plataforma de observabilidade LLM construída sobre OpenLLMetry, que é sua camada de instrumentação OpenTelemetry de código aberto. O backend do Traceloop aceita dados de rastreamento OTLP/HTTP e os indexa para o painel do Traceloop. A plataforma é nativa de rastreamento. Métricas como uso de tokens, latência e custo são calculadas a partir de atributos de span, em vez de um fluxo de métricas OTLP separado. É por isso que configurar apenas o Traces Exporter no TrueFoundry é suficiente — não há /v1/metrics endpoint na superfície de ingestão do Traceloop.

O Traceloop organiza os dados em torno de três abstrações principais. Os rastreamentos são a unidade de nível superior e correspondem diretamente a uma requisição LLM ou a um fluxo de trabalho de agente. Spans dentro de um rastreamento representam operações individuais (uma chamada LLM, uma invocação de ferramenta e uma etapa de recuperação). Ambientes mapeiam para estágios de implantação e cada ambiente tem sua própria chave de API, permitindo que os rastreamentos de Desenvolvimento, Staging e Produção permaneçam isolados no painel.

O Traceloop painel exibe o uso de tokens ao longo do tempo, distribuições de latência, taxas de erro e detalhamentos de modelo diretamente de IA generativa.* atributos de span. Como o TrueFoundry preenche esses atributos em cada span, o painel do Traceloop é totalmente preenchido sem qualquer instrumentação de SDK na camada de aplicação.

‍
‍

Traceloop também suporta versionamento de prompts e pipelines de teste de regressão, mas esses recursos operam no nível do SDK da aplicação e estão fora do escopo desta integração. A integração em nível de gateway cobre toda a superfície de observabilidade: cada requisição que passa pelo TrueFoundry produz um rastreamento no Traceloop, independentemente do provedor ou modelo de LLM que é chamado.

A Superfície de Integração

A conexão entre TrueFoundry e Traceloop é um único POST OTLP/HTTP para https://api.traceloop.com/v1/traces transportando lotes de span codificados em Proto. A autenticação é um token Bearer no Authorization cabeçalho. O token é uma chave de API do Traceloop com escopo para um ambiente específico.

O TrueFoundry expõe esta configuração em Gateway de IA → Controles → Configurações → Configuração OTEL. A seção Otel Traces Exporter aceita os seguintes campos.

Field	Value
Protocol	HTTP Configuration
Endpoint	https://api.traceloop.com/v1/traces
Encoding	Proto
Header Key	Authorization
Header Value	Bearer <your-traceloop-api-key>

O endpoint deve incluir o caminho completo /v1/traces caminho. O exportador do TrueFoundry não anexa automaticamente os caminhos de sinal. Isso difere do OTel Collector otlphttp exporter que anexa o caminho automaticamente a partir da URL base. Ambos resolvem para o mesmo destino.

As chaves de API do Traceloop são geradas por ambiente a partir da página Ambientes no painel do Traceloop. Uma chave é exibida apenas uma vez no momento da criação. O valor da chave é passado no cabeçalho como Bearer <key> incluindo o Bearer prefixo como uma string literal.

Traceloop Environment	Recommended TrueFoundry Usage
Development	Non-production gateway instances or internal test traffic
Staging	Pre-production gateway with realistic model traffic
Production	Production gateway instances with live user traffic

Controles de Privacidade de Dados

O gateway oferece um Excluir Dados de Requisição alternador na seção Configuração OTEL. Quando ativado, o exportador remove tfy.input e tfy.output e tfy.input_short_hand de cada span antes de encaminhar para o Traceloop. Os atributos de span restantes (contagens de tokens, nomes de modelos, latência e metadados de roteamento) não são afetados. Este alternador é apropriado quando prompts ou conclusões contêm PII do usuário ou conteúdo proprietário que não deve sair do limite do cluster.

O campo Atributos de Recurso Adicionais permite anexar pares chave-valor personalizados a cada span exportado. Isso é útil para marcação de ambiente, atribuição de centro de custo e filtragem multi-inquilino dentro de um único ambiente Traceloop.

‍

Resumo da Arquitetura

Cada requisição LLM através do TrueFoundry AI Gateway produz uma árvore de spans que abrange autenticação e roteamento, a chamada do provedor e a resposta. Após a conclusão da requisição, o gateway publica esta árvore de spans no NATS de forma assíncrona. O exportador OTEL lê do NATS e envia lotes codificados em Proto para https://api.traceloop.com/v1/traces com um token Bearer. O Traceloop indexa os spans e exibe o uso de tokens, latência e detalhamentos do modelo em seu painel a partir dos gen_ai.atributos em cada span.

Nenhum sidecar é necessário. Nenhuma alteração no código da aplicação é necessária. Nenhum SDK OpenLLMetry precisa ser adicionado aos serviços que chamam o gateway. A integração opera inteiramente na camada do gateway e cobre 100% do tráfego que passa por ele, independentemente do estado de instrumentação da aplicação chamadora.

A propriedade arquitetural que torna isso elegante é a publicação assíncrona no NATS. Como a exportação de spans é desacoplada do caminho da requisição, a integração adiciona latência zero às chamadas de inferência e não introduz dependência de disponibilidade no Traceloop. O gateway processa as requisições com total rendimento, independentemente de o Traceloop estar acessível ou não.

‍

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now

The fastest way to build, govern and scale your AI

How Can You Prevent GenAI Costs From Spiraling at Scale?

Gartner report on best practices for optimizing generative and agentic AI costs and projected statistics.

Access Full 2026 Report

One Layer of Control for All AI

Route and govern model and tool traffic with a centralized AI Gateway

Book Demo

Table of Contents

Text Link

Govern, Deploy and Trace AI in Your Own Infrastructure

Book a 30-min with our AI expert

Book a Demo

Exportando Traces do Gateway LLM para o Traceloop com OpenTelemetry

Built for Speed: ~10ms Latency, Even Under Load

Como o Gateway Gera Rastreamentos

O que o Traceloop Faz com os Dados

A Superfície de Integração

Controles de Privacidade de Dados

Resumo da Arquitetura

The fastest way to build, govern and scale your AI

One Layer of Control for All AI

Govern, Deploy and Trace AI in Your Own Infrastructure

The fastest way to build, govern and scale your AI

Adicionando OAuth2 a Jupyter Notebooks no Kubernetes

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Acelere o Processamento de Dados em 30–40x com NVIDIA RAPIDS no TrueFoundry

Uma Parceria para IA Responsável: Truefoundry e Enkrypt AI

Recent Blogs

Projetando um Registro MCP Centralizado: Decisões de Arquitetura para Escala Empresarial

Roteamento de Modelos de Peso Aberto em Escala: GLM-5.1 vs Claude Opus 4.7 no Gateway de IA TrueFoundry

IA com Isolamento Físico: Implantação de LLMs Empresariais em Indústrias Altamente Regulamentadas

A Explosão de Tokens Agênticos: Atribuindo, Orçamentando e Controlando Custos de LLM em CI/CD

Orquestrando IA Bare-Metal: Integração TrueFoundry com Oracle Cloud Infrastructure

As 5 Melhores Alternativas ao AWS MCP Gateway

Melhores Práticas de Segurança de Servidores MCP

5 Melhores Gateways de IA em 2026

Solução de Rastreamento de Custos de LLM para Observabilidade, Governança e Otimização Empresarial

Volumes no Kubernetes

Chatbot de Perguntas e Respostas com tecnologia LLM nos seus dados na sua Nuvem

Treinamento de Modelos de Machine Learning com os Jobs da TrueFoundry

Capacitando a Revolução dos Grandes Modelos de Linguagem: GPUs no Kubernetes

Rastreamento LLM Full-Stack: Pydantic Logfire e TrueFoundry AI Gateway

O Problema da Proliferação de Agentes: Por que as Empresas Precisam de Controle Antes da Autonomia

Blog

Exportando Traces do Gateway LLM para o Traceloop com OpenTelemetry

Built for Speed: ~10ms Latency, Even Under Load

Como o Gateway Gera Rastreamentos

O que o Traceloop Faz com os Dados

A Superfície de Integração

Controles de Privacidade de Dados

Resumo da Arquitetura

The fastest way to build, govern and scale your AI

One Layer of Control for All AI

Govern, Deploy and Trace AI in Your Own Infrastructure

The fastest way to build, govern and scale your AI

Discover More

Adicionando OAuth2 a Jupyter Notebooks no Kubernetes

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Acelere o Processamento de Dados em 30–40x com NVIDIA RAPIDS no TrueFoundry

Uma Parceria para IA Responsável: Truefoundry e Enkrypt AI

Recent Blogs

Projetando um Registro MCP Centralizado: Decisões de Arquitetura para Escala Empresarial

Roteamento de Modelos de Peso Aberto em Escala: GLM-5.1 vs Claude Opus 4.7 no Gateway de IA TrueFoundry

IA com Isolamento Físico: Implantação de LLMs Empresariais em Indústrias Altamente Regulamentadas

A Explosão de Tokens Agênticos: Atribuindo, Orçamentando e Controlando Custos de LLM em CI/CD

Orquestrando IA Bare-Metal: Integração TrueFoundry com Oracle Cloud Infrastructure

As 5 Melhores Alternativas ao AWS MCP Gateway

Melhores Práticas de Segurança de Servidores MCP

5 Melhores Gateways de IA em 2026

Solução de Rastreamento de Custos de LLM para Observabilidade, Governança e Otimização Empresarial

Volumes no Kubernetes

Chatbot de Perguntas e Respostas com tecnologia LLM nos seus dados na sua Nuvem

Treinamento de Modelos de Machine Learning com os Jobs da TrueFoundry

Capacitando a Revolução dos Grandes Modelos de Linguagem: GPUs no Kubernetes

Rastreamento LLM Full-Stack: Pydantic Logfire e TrueFoundry AI Gateway

O Problema da Proliferação de Agentes: Por que as Empresas Precisam de Controle Antes da Autonomia

Blog

Assine nossa newsletter