Blank white background with no objects or features visible.

NOVA PESQUISA: 80% dos custos de IA são invisíveis na fatura. Mais de 200 líderes revelam para onde o dinheiro vai. Leia→

Série Agent Gateway (Parte 7 de 7) | Agent DevOps: CI/CD, Evals e Implantações Canary

By Boyu Wang

Updated: January 9, 2026

No mundo dos microsserviços, aperfeiçoamos a arte de CI/CD. Testes unitários são determinísticos: assert(2 + 2 == 4). Se os testes passarem, o código é seguro para implantação.

No mundo da IA Agêntica, "Testes Unitários" não existem da mesma forma.

  • Código: 2 + 2 é sempre 4.
  • Agente: "Seja prestativo" pode significar "Escreva um poema" hoje e "Exclua o banco de dados" amanhã, dependendo da versão do modelo ou de uma pequena alteração no prompt.

Não se pode simplesmente implantar um agente porque o código compila. O prompt é um Hiperparâmetro de Comportamento. Uma pequena alteração no prompt do sistema ("Seja mais conciso") pode causar uma regressão massiva na capacidade de raciocínio ("O agente parou de verificar erros porque queria ser conciso").

Para resolver isso, o Gateway de Agentes da TrueFoundry oferece suporte a DevOps de Agentes—uma camada especializada de gerenciamento de ciclo de vida que traz "Modo Sombra", "Avaliações Online" e "Lançamentos Canário" para a pilha cognitiva.

O Problema: O Incidente da "Mudança de Tom"

Vejamos um exemplo concreto de por que o CI/CD padrão falha para agentes.

O Cenário: Você tem um Agente de Suporte ao Cliente em produção. É educado e prestativo. O Gerente de Produto quer que ele seja mais eficiente. A Mudança: Você atualiza o Prompt do Sistema de "Você é um assistente prestativo" para "Você é um assistente conciso e direto. Não desperdice palavras."

A Implantação Padrão:

  1. Você faz o commit da alteração do prompt para o Git.
  2. O pipeline constrói o contêiner.
  3. kubectl apply atualiza o serviço.

A Catástrofe: O agente interpreta "direto" como "rude".

  • Cliente: "Meu pacote está perdido, estou tão preocupado!"
  • Agente (v2): "O rastreamento diz entregue. Verifique sua varanda. Adeus."

A pontuação de Satisfação do Cliente (CSAT) despenca. Você manchou sua marca porque tratou um cognitivo mudança como um código mudança.

A Solução: Modo Sombra (Lançamento Oculto)

O Gateway TrueFoundry suporta Espelhamento de Tráfego (Modo Sombra). Em vez de substituir a v1 pela v2, implementamos a v2 ao lado da v1.

  • Tráfego de Usuário Real: Vai para a v1. O usuário vê a resposta da v1.
  • Tráfego Sombra: O Gateway duplica a requisição para a v2 de forma invisível.

O Gateway então compara as saídas assincronamente. Você pode executar uma "Autoavaliação" (usando um Modelo Avaliador) para pontuar a diferença.

  • Saída da v1: "Compreendo a sua preocupação. Deixe-me verificar o rastreamento..." (Pontuação de Empatia: 9/10)
  • Saída da v2: "O rastreamento indica entregue." (Pontuação de Empatia: 2/10)

O painel alerta você: "Regressão de Empatia da v2 Detectada." Você reverte a implantação antes que um único cliente veja a mensagem rude.

O "Portão de Avaliação": CI para Cognição

Antes mesmo de um agente chegar ao Modo Sombra, ele deve passar pelo Pipeline de Avaliação. Assim como você executa o pytest para código, você deve executar o deepeval ou o ragas para cognição.

O Registro TrueFoundry trata os "Conjuntos de Dados de Avaliação" como cidadãos de primeira classe.

  • Conjunto de Dados: 500 consultas históricas de clientes + "Respostas Ouro".
  • Métrica: "Fidelidade", "Relevância da Resposta", "Precisão no Uso da Ferramenta".

Quando você envia um Pull Request, o sistema de CI inicializa o agente e executa as 500 consultas. Critérios de Aprovação:

  • Fidelidade > 0.9
  • Latência < 2s
  • Regressão: A pontuação não pode ser >5% inferior à da branch principal.

Se o "Prompt Conciso" fizer com que a pontuação de "Fidelidade" caia 10%, a compilação falha. "Fusão Bloqueada: Agente cria alucinações."

Lançamentos Canary: Confiança Progressiva

Assim que o agente passa pela CI e pelo Modo Sombra, você está pronto para o mundo real. Mas você não ativa 100% de uma vez. Você usa Roteamento Canário.

O Gateway cria um "Serviço Virtual" que divide o tráfego com base em pesos.

  • Fase 1: 1% dos usuários recebem a v2. (Funcionários Internos ou Usuários Beta).
  • Monitorar: Verificar a taxa de "Feedback Positivo/Negativo".
  • Fase 2: 10% dos usuários.
  • Monitorar: Verificar a "Taxa de Erro da Ferramenta" (O novo prompt quebrou a saída JSON?).
  • Fase 3: 50%... 100%.

O Gateway automatiza isso. Se a "Taxa de Erro" disparar na fase de 10%, o Gateway pode ajudar a  reverter automaticamente para a v1 e aciona o engenheiro de plantão.

Fig. 1: Um Exemplo de Lançamento Canário

Versionamento de Prompts vs. Versionamento de Código

Um grande desafio em Agent DevOps é que o Prompt e o Código frequentemente estão em lugares diferentes.

  • Código: main.py (Git).
  • Prompt: system_prompt.txt (Frequentemente em um DB ou UI).

O TrueFoundry Registro de Agentes impõe Artefatos Imutáveis. Ao implantar, nós agrupamos: ID do Artefato = Hash(Código + Prompt + Configuração do Modelo + Dependências)

Você não pode alterar o prompt da v1 em produção. Você deve criar a v1.1. Esse versionamento rigoroso garante Reprodutibilidade. Se um incidente ocorrer, você sabe exatamente qual combinação de Código+Prompt o causou.

Conclusão

Agent DevOps é a disciplina de aplicar rigor de engenharia a softwares probabilísticos. Ao passar de "Implantação Baseada em Sensações" (parece mais rápido) para "Implantação Baseada em Métricas" (Modo Sombra confirmou 5% mais precisão), o TrueFoundry permite que as empresas inovem em seus prompts rapidamente sem quebrar a confiança de seus usuários.

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

Govern, Deploy and Trace AI in Your Own Infrastructure

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo

Discover More

No items found.
May 21, 2026
|
5 min read

Adicionando OAuth2 a Jupyter Notebooks no Kubernetes

Engenharia e Produto
May 21, 2026
|
5 min read

Uma equipe de 2 pessoas atendendo um modelo para 1,5 milhão de pessoas com TrueFoundry

Engenharia e Produto
May 21, 2026
|
5 min read

Acelere o Processamento de Dados em 30–40x com NVIDIA RAPIDS no TrueFoundry

GPU
Engenharia e Produto
May 21, 2026
|
5 min read

Uma Parceria para IA Responsável: Truefoundry e Enkrypt AI

No items found.
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour