Integração do Last9 com o TrueFoundry AI Gateway

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

À medida que a IA generativa avança para jornadas críticas do usuário, pesquisa, suporte, apoio à decisão e automação, a tolerância para a confiabilidade de "melhor esforço" desaparece. As equipes de Plataforma e SRE agora precisam do mesmo nível de observabilidade para o tráfego de LLM que já esperam dos microsserviços centrais:

Qual é a latência de ponta a ponta para cada caminho de solicitação?
Quais modelos, locatários ou regiões estão impactando os orçamentos de erro?
Como correlacionamos o comportamento do LLM com o restante da pilha?

A integração entre TrueFoundry AI Gateway e Last9 aborda exatamente este problema. Ao exportar rastreamentos OpenTelemetry (OTEL) do Gateway para o Last9, as equipes obtêm observabilidade profunda e econômica em todo o tráfego de LLM, sem reescrever aplicativos ou espalhar SDKs por vários serviços.

Este artigo explica:

O que o Last9 e o TrueFoundry AI Gateway oferecem
Como a integração funciona em nível arquitetônico
Uma visão prática e passo a passo da configuração
Os benefícios concretos para equipes de SRE, plataforma e IA

Last9: Observabilidade Projetada para Sistemas de Alta Cardinalidade

Last9 é uma plataforma de observabilidade moderna focada na gestão de telemetria de alto desempenho em logs, métricas e rastreamentos. É projetada especificamente para ambientes onde cardinalidade e escala são inegociáveis

Principais recursos relevantes para cargas de trabalho de LLM incluem:

Tratamento de alta cardinalidade: O Last9 pode ingerir e consultar telemetria marcada com dimensões ricas, como usuário, locatário, rota, provedor, modelo e versão do prompt, sem penalidades proibitivas de desempenho ou custo.
Telemetria unificada: Logs, métricas e traces residem em uma única plataforma, permitindo que as equipes transitem sem interrupções de uma violação de SLO ou pico de latência para o trace e span exatos que a causaram.
Design nativo OpenTelemetry: O Last9 é construído em torno do OTEL, tornando simples integrar qualquer componente compatível com OTEL.

Isso torna Last9 ideal para empresas que estão padronizando no OTEL em toda a sua infraestrutura e querem que a observabilidade de LLM se integre a essa mesma estratégia.

TrueFoundry AI Gateway: Plano de Controle Unificado para Tráfego de LLM

TrueFoundry AI Gateway atua como uma camada de proxy entre aplicações e provedores de LLM ou servidores MCP. Ele fornece uma interface unificada e compatível com OpenAI para centenas de modelos, enquanto centraliza governança, segurança, roteamento e observabilidade.

Os principais recursos incluem:

Acesso unificado à API a mais de 250 modelos e provedores
Roteamento de baixa latência e balanceamento de carga sofisticado
Segurança empresarial: RBAC, registro de auditoria, controles de cota e custo
Observabilidade nativa com registro de requisições/respostas, métricas e traces

Crucialmente, o AI Gateway pode exportar traces OTEL para sistemas externos, para que sua telemetria de LLM se torne parte da mesma estrutura de observabilidade que o restante da sua infraestrutura.

Key Metrics for Evaluating Gateway

Criteria	What should you evaluate ?	Priority	TrueFoundry
Latency	Adds <10ms p95 overhead for time-to-first-token?	Must Have	✅ Supported
Data Residency	Keeps logs within your region (EU/US)?	Depends on use case	✅ Supported
Latency-Based Routing	Automatically reroutes based on real-time latency/failures?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported

Evaluating an AI Gateway?

A practical guide used by platform & infra teams

Visão Geral da Integração: Como TrueFoundry e Last9 Trabalham Juntos

Em termos gerais, a integração é simples:

As aplicações enviam todo o tráfego de LLM para o TrueFoundry AI Gateway em vez de diretamente para os provedores de modelo.
O AI Gateway roteia a requisição para o modelo configurado (OpenAI, Claude, Gemini, auto-hospedado, etc.), aplicando roteamento, limites de taxa e guardrails conforme necessário.
Para cada requisição, o AI Gateway emite traces OpenTelemetry que capturam spans para tratamento de gateway, chamadas de modelo de saída, operações MCP e muito mais.
Esses rastreamentos OTEL são exportados via HTTP para o endpoint OTLP da Last9.
Dentro da Last9, os rastreamentos são visualizados na interface de usuário de Rastreamentos, com mapas de calor de duração, listas detalhadas de rastreamentos e dados em nível de span para o tfy-llm-gateway serviço.

Não há alterações de código na lógica da aplicação. Uma vez que o exportador OTEL do Gateway é configurado, cada requisição LLM se torna automaticamente observável na Last9.

Pré-requisitos

Para habilitar a integração, você precisará de:

Uma conta TrueFoundry com o AI Gateway configurado e pelo menos um provedor de modelo configurado. Você pode seguir o Guia de Início Rápido nos documentos da TrueFoundry.
Uma conta Last9 com acesso ao painel da Last9.

Com esses itens configurados, o restante da configuração é feito inteiramente através das respectivas interfaces de usuário.

Guia de Integração Passo a Passo

1. Obtenha o Cabeçalho de Autorização da Last9

No painel da Last9:

Faça login na Last9.
Navegue até Integrações na barra lateral esquerda.
Clique em Conectar no cartão de integração OpenTelemetry.
No guia de integração, localize “Autenticação com Cabeçalho de Autorização”.
Copie o valor do Cabeçalho de Autenticação fornecido, que já está formatado, por exemplo:
Basic dHJ1ZWZvdW5kcnk6...

Este cabeçalho será passado diretamente do TrueFoundry para o Last9 para autenticação OTEL.

2. Configurar a Exportação OTEL no TrueFoundry AI Gateway

No console do TrueFoundry:

Vá para AI Gateway → Controles → Configuração OTEL.
Ative o botão de alternância de Configuração do Exportador de Traces Otel.
Selecione a aba de Configuração HTTP.

3. Defina o Endpoint OTLP do Last9

Em Configuração HTTP, forneça os seguintes valores:

Endpoint de traces
https://otlp.last9.io/v1/traces
Codificação
Proto

Este é o endpoint de ingestão OTLP do Last9 para traces.

4. Adicione o Cabeçalho de Autorização Necessário

Na mesma tela de configuração, clique em “+ Adicionar Cabeçalhos” e adicione: Cole o Cabeçalho de Autenticação exatamente como copiado da interface do Last9 (por exemplo, Basic dHJ1ZWZvdW5kcnk6...). Nenhuma formatação adicional é necessária.

5. Salve a Configuração

Clique em Salvar para aplicar as configurações de exportação OTEL. A partir deste momento, todos os traces LLM do TrueFoundry AI Gateway serão exportados para o Last9.

6. Visualize os Traces LLM no Last9

Assim que o tráfego LLM fluir pelo Gateway, abra o painel do Last9:

Navegue até a seção de Traces.
Filtrar por nome de serviço:
tfy-llm-gateway
Explore:
- Mapa de calor de duração – visualize tendências de latência e anomalias ao longo do tempo.
- Detalhes do trace – veja traces individuais com nomes de operação, durações e códigos de status.
- Informações do span – inspecione spans para chamadas HTTP, operações MCP e requisições LLM subjacentes.

Isso oferece uma visão de ponta a ponta de como o Gateway e os provedores downstream se comportam em condições reais de produção.

Configuração Avançada: Enriquecendo Traces com Atributos de Recurso

A configuração OTEL da TrueFoundry suporta Atributos de Recurso Adicionais, permitindo anexar metadados personalizados a cada trace exportado. Isso é particularmente poderoso quando combinado com as capacidades de alta cardinalidade da Last9.

Atributos típicos que você pode querer adicionar incluem:

env=prod, env=staging
region=us-east-1, region=eu-west-1
team=platform, team=search
tenant_id=enterprise-customer-a

No Last9, esses atributos podem ser usados para:

Comparar latência ou taxas de erro entre regiões e ambientes
Isolar incidentes que afetam um inquilino ou superfície de produto específica
Criar painéis por equipe ou unidade de negócio sem duplicar a telemetria

Ao planejar sua estratégia de atributos antecipadamente, você possibilita consultas mais ricas e uma análise de causa raiz mais rápida posteriormente.

O que esta integração oferece para suas equipes

Para SRE e Engenharia de Plataforma

Visibilidade de nível de produção no tráfego de LLM: Identifique picos de latência, pontos críticos de erro e saturação em tempo real, com contexto de rastreamento completo por trás de cada evento.
Resposta a incidentes mais rápida: Passe de um SLO com falha para o rastreamento e o span precisos que o causam — seja um serviço upstream, um provedor de modelo específico ou uma rota mal configurada.
Ferramentas consistentes: Mantenha a observabilidade de LLM dentro dos mesmos fluxos de trabalho e painéis baseados em OTEL que você usa para o restante dos seus microsserviços.

Para equipes de IA e Aplicações

Experimentação segura com modelos e prompts: Implemente novas versões de modelos, regras de roteamento ou estratégias de prompt via TrueFoundry, e observe o impacto diretamente nos rastreamentos e mapas de calor do Last9.
Consciência de desempenho e custo: Correlacione interações lentas ou com falha com rotas, inquilinos ou modelos específicos, e realimente esses insights nas políticas de roteamento e cache no Gateway.
Separação de preocupações mais clara: Desenvolvedores focam na lógica da aplicação e no comportamento do agente; o Gateway e o Last9 lidam em conjunto com roteamento, governança e observabilidade.

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now