Preços do Cloudflare AI Gateway: Custos, Taxas Ocultas e Alternativas

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
O Cloudflare AI Gateway rapidamente se tornou uma escolha popular para equipes que buscam gerenciar, monitorar e rotear o tráfego de LLM através de um proxy centralizado. À medida que a adoção de LLMs acelera em todos os setores, as equipes estão cada vez mais introduzindo gateways de IA para adicionar observabilidade, segurança e controle entre seus aplicativos e modelos de terceiros.
Mas à medida que o uso de IA escala, a clareza dos preços se torna um fator crítico. As equipes precisam entender não apenas os custos por chamada, mas também a infraestrutura e os padrões operacionais que influenciam o gasto a longo prazo.
Para saber mais sobre como os Gateways de IA controlam os custos e as principais considerações a serem levadas em conta antes de escolher um fornecedor, leia o Guia de Mercado Gartner para Gateways de IA 2025 aqui.
À primeira vista, o preço do Cloudflare AI Gateway parece simples, especialmente com acesso gratuito a recursos essenciais. No entanto, o uso no mundo real frequentemente revela custos ocultos ligados ao registro (logging), retenção de dados e limites de escalabilidade.
Neste blog, detalhamos:
- Exatamente o que você paga ao usar o Cloudflare AI Gateway
- Os custos indiretos que as equipes frequentemente ignoram
- Por que empresas em crescimento acabam migrando para alternativas in-VPC como TrueFoundry para ter mais controle
O Que É o Cloudflare AI Gateway?

Antes de abordar o custo do Cloudflare AI Gateway, é importante entender o que ele faz e onde se encaixa na pilha de IA. Ele atua como uma camada centralizada para equipes que implementam aplicativos de IA que dependem de provedores de LLM de terceiros.
Cloudflare AI Gateway permite que as equipes:
- Roteiem o tráfego de IA com segurança entre aplicativos e vários provedores de modelos de base como OpenAI, Anthropic e Hugging Face.
- Obtenham visibilidade sobre prompts, respostas, latência e métricas de uso para observabilidade e monitoramento.
- Integrar diretamente com o ecossistema de IA mais amplo da Cloudflare, incluindo Workers AI, cache, limitação de taxa e infraestrutura de borda global.
Recursos do Cloudflare AI Gateway que Afetam Seu Custo
Embora o Cloudflare AI Gateway não cobre por token, vários recursos afetam indiretamente o custo total à medida que o uso aumenta:
- Roteamento de solicitações e limitação de taxa: Ajuda a controlar o fluxo de tráfego, mas aumenta o número de eventos registrados à medida que o uso de IA cresce. Requer um plano pago do Cloudflare Workers para execução de alto volume.
- Cache de prompts e respostas: Reduz chamadas repetidas a modelos upstream (economizando dinheiro em taxas de token), mas a eficiência depende dos padrões de tráfego e da taxa de acerto do cache.
- Análise de uso e rastreamento de tokens: Requer registro persistente, o que pode introduzir custos adicionais relacionados ao armazenamento e retenção.
- Integração com múltiplos provedores de IA: Aumenta a flexibilidade, mas torna a observabilidade de custos de IA fatores como atribuição e previsão entre provedores mais complexa.
- Faturamento Unificado (Novidade para 2026): A Cloudflare agora permite que você pague pelo uso de modelos de terceiros (OpenAI, etc.) diretamente através da sua fatura Cloudflare, adicionando uma pequena taxa de conveniência de transação.
- Integração Logpush: A transmissão de logs para um bucket S3 externo ou ferramenta SIEM é uma funcionalidade paga que implica custos adicionais de $0,05 por milhão de registos após 10 milhões/mês em planos pagos.
Níveis de Preços do Cloudflare AI Gateway
A Cloudflare utiliza um modelo "freemium" onde o próprio gateway está disponível para todos os utilizadores, mas escalar a sua aplicação normalmente exige uma transição do nível Gratuito para o nível Pago do Workers.
O AI Gateway da Cloudflare está disponível em todos os planos de preços da Cloudflare, e as funcionalidades principais são gratuitas para usar. Não há taxa de gateway por chamada além do seu plano Cloudflare: basta adicionar o gateway e começar a enviar tráfego. Por predefinição, a Cloudflare inclui uma camada gratuita de análise/painel de controlo, caching, limitação de taxa e registo, para que muitas equipas possam ativá-lo sem custo adicional. No entanto, no plano gratuito, aplicam-se alguns limites. Por exemplo, o nível gratuito da Cloudflare (Workers Free) inclui 100.000 registos totais do AI Gateway por mês (em todos os gateways) e para de registar além desse limite. Para aumentar os limites, deve fazer upgrade para um plano Workers Pago, que oferece 1.000.000 registos no total. É importante notar que a Cloudflare não cobra por registo nos níveis gratuito ou pago – você mantém-se dentro dos registos incluídos ou faz upgrade.
Planos de Preços de IA da Cloudflare: Gratuito vs. Pago
Como o Cloudflare AI Gateway é construído sobre Workers, o uso intensivo do gateway pode acionar a faturação do Workers.
O plano Workers Pago da Cloudflare começa com uma subscrição mensal de $5 e inclui uma grande franquia de uso. Por exemplo, os Workers Standard (Pagos) incluem 10 milhões de pedidos e 30 milhões de CPU-ms de execução por mês.
Além disso, a Cloudflare cobra $0,30 por cada milhão adicional de pedidos e US$ 0,02 por milhão de milissegundos de CPU adicionais.
Na prática, isso significa que um gateway que atende 15 milhões de requisições (com uso médio de CPU) custa cerca de US$ 8 no total por mês. Em contraste, o plano gratuito do Cloudflare AI inclui apenas 100 mil requisições/dia e uso mínimo de CPU – uma vez que você excede esses limites, seus Workers simplesmente param de funcionar (sem cobranças inesperadas).
💡Em resumo: aplicativos de IA de baixo uso podem permanecer no nível gratuito do Cloudflare, mas cargas de trabalho de produção frequentemente precisam do Workers Pago (uso de US$ 5+) para escalar de forma confiável.
Volume de Requisições e Custos de Registro (Logs)
No plano Workers Pago, o Cloudflare AI Gateway ainda possui diretrizes de uso. O plano Workers Pago inclui até 1.000.000 de logs do AI Gateway por mês (em todos os gateways).
Se você enviar logs além disso, não poderá pagar por excesso – você deve excluir logs antigos ou atualizar seu plano para Enterprise. O armazenamento de logs é limitado: por padrão, cada gateway pode armazenar cerca de 10 milhões de logs (você pode definir seu próprio limite) e, uma vez cheio, nenhum novo log é salvo.
Assim, embora o registro de logs esteja “incluído,” há um limite efetivo sobre a quantidade de histórico que você mantém.
A Cloudflare também oferece uma Logpush integration (streaming de logs para seu armazenamento), mas apenas no plano pago: você recebe 10 milhões de requisições de logpush por mês gratuitamente, depois US$ 0,05 por milhão adicional.
Em essência, o Cloudflare AI gateway em si não tem taxa por requisição, mas o suporte a logs de alto volume acarreta custos ocultos.
Manter mais logs (além do limite gratuito) pode forçar o armazenamento em sistemas externos ou levar a uma exclusão de logs mais agressiva. E se você quiser o envio automático de logs (para SIEM ou conformidade), esse recurso está disponível apenas em planos pagos com taxas de uso.
Todos esses fatores significam que os custos do gateway da Cloudflare podem aumentar indiretamente com o uso – você paga pelo plano Workers mais qualquer registro/armazenamento além do básico.
Custos de Uso Indiretos
Além do serviço AI Gateway, lembre-se de que cada solicitação que o gateway processa ainda chama um provedor de modelo subjacente. A Cloudflare não substitui o modelo: ela atua como proxy para suas chamadas para OpenAI, etc., então você ainda paga as taxas de token do modelo separadamente.
Em outras palavras, a Cloudflare remove a imprevisibilidade da camada de rede, mas não elimina as cobranças por token da OpenAI/Anthropic/etc.
Além disso, o uso intenso de Workers (por exemplo, lógica de solicitação complexa ou cache) incorre em cobranças de computação, conforme observado acima. Essencialmente, usar o Cloudflare AI Gateway tem um custo base do plano Workers e limites de registro, mais o que você gasta chamando os modelos reais.
Os Custos Ocultos: O Que Não Está Incluído no Preço do Cloudflare AI Gateway
Além das taxas publicadas, existem vários custos e riscos ocultos a serem considerados com o AI Gateway da Cloudflare:
- Limites de Retenção de Logs: Embora o registro básico seja gratuito, a Cloudflare impõe limites de retenção rigorosos. Se seu aplicativo precisar reter mais de 100 mil (gratuito) ou 1 milhão (pago) de logs por mês, você não pode simplesmente pagar por mais – os logs acima do limite param de ser armazenados. Para manter históricos longos, você deve excluir manualmente entradas antigas ou fazer um upgrade (potencialmente para um plano empresarial). Isso pode ser um problema orçamentário inesperado se você depender de logs para depuração ou auditoria.
- Privacidade e Soberania de Dados: Por padrão, o gateway da Cloudflare captura todos os dados de solicitação e resposta (incluindo prompts, respostas do modelo, tokens, etc.) em sua própria infraestrutura. Embora a Cloudflare permita desativar o registro para conformidade com a privacidade, optar por não fazê-lo significa perder a visibilidade. Caso contrário, você está enviando dados potencialmente sensíveis (consultas de usuários, saídas, possivelmente PII) para a nuvem da Cloudflare. Muitos fornecedores se referem a isso como a abordagem de “caixa preta”: logs e métricas ficam fora do seu controle. Como uma análise observa, isso pode “forçar os dados do cliente – incluindo PII ou informações proprietárias – a sair de seu ambiente seguro”. Em suma, se você precisa de governança de dados rigorosa ou conformidade com isolamento físico, entregar prompts/respostas brutos à Cloudflare pode ser inaceitável.
- Roteamento de Caixa Preta: Relacionado a isso, o roteamento dinâmico e a lógica de fallback da Cloudflare são opacos. Internamente, o gateway decide qual endpoint do provedor ou resposta em cache usar. Os clientes não podem ver o roteamento detalhado ou as heurísticas de desempenho. Este plano de controle “fechado” significa que você deve confiar nos algoritmos da Cloudflare para seleção de modelos, cache e failover, sem visibilidade granular. Para algumas organizações (por exemplo, aquelas sob auditoria rigorosa), essa falta de transparência é um custo oculto: não é possível certificar completamente o que aconteceu dentro do gateway.
- Limites de Recursos e Escalabilidade: Os limites rígidos do plano gratuito (limites diários de requisições, limites de logs) podem causar estrangulamento súbito ou falhas para aplicativos em crescimento. Ao contrário das nuvens de pagamento por uso, o nível gratuito da Cloudflare simplesmente para, não gera cobranças. A migração para planos pagos pode exigir mudanças arquitetônicas. Por exemplo, atingir 100 mil logs/dia sem perceber fará com que o registro de logs seja interrompido inesperadamente. Essas restrições operacionais se traduzem em custos de produtividade “ocultos”; você pode precisar de trabalho extra de DevOps para lidar com logs excluídos ou fazer um upgrade no meio do processo.
Em resumo, o AI Gateway da Cloudflare pode parecer “gratuito”, mas qualquer implantação não trivial deve considerar taxas de uso de Workers, necessidades de log/armazenamento e questões de governança de dados.
As equipes devem orçar para o monitoramento do uso de Workers, o possível envio ou armazenamento de logs e o esforço de engenharia potencial para permanecer dentro dos limites da Cloudflare.
Quando o Preço do AI Gateway da Cloudflare Faz Sentido
O AI Gateway da Cloudflare se destaca em cenários específicos. Para recursos de IA leves ou centrados na borda, ele oferece um caminho rápido de entrada. Se você já usa CDN/Workers da Cloudflare, você pode adicionar chamadas de IA com mudanças mínimas (basta trocar o endpoint da API).
Isso é ideal para pequenas equipes ou startups que desejam um gateway instantâneo implantado na borda sem a sobrecarga de DevOps. Projetos em estágio inicial podem aproveitar o plano de preços gratuito da Cloudflare para prototipar experiências globais alimentadas por IA, armazenando em cache respostas populares para maior velocidade.
Também se encaixa em casos de uso onde a distribuição global importa. Por exemplo, chatbots ou inferência rodando diretamente na rede da Cloudflare podem se beneficiar dos mais de 250 PoPs da Cloudflare e da proteção DDoS integrada. Limitação de taxa simples e retentativas via Cloudflare também são atraentes para aplicativos que precisam de resiliência básica. Em essência, o AI Gateway da Cloudflare faz sentido quando você valoriza a velocidade de integração e a amplitude da rede da Cloudflare, e quando seu uso é modesto o suficiente para permanecer dentro (ou apenas exceder moderadamente) o plano gratuito.
No entanto, para grandes organizações com cargas de trabalho de alto volume ou altamente regulamentadas, essas vantagens podem ser superadas pelos custos ocultos da Cloudflare AI. A falta de controle granular e as alocações de uso fixas podem dificultar o orçamento e a conformidade.
Por que Algumas Equipes Olham Além do AI Gateway da Cloudflare
À medida que os sistemas de IA amadurecem, as prioridades mudam da configuração rápida para a previsibilidade de custos, segurança e propriedade. As equipes começam a superar o AI Gateway da Cloudflare devido a:
- Uso crescente de IA: À medida que o uso do modelo escala, o volume de tokens aumenta e a necessidade de preços alinhados à infraestrutura torna-se urgente. As abstrações da Cloudflare podem dificultar a previsão.
- Requisitos de conformidade e residência de dados: Indústrias regulamentadas frequentemente precisam de controle total sobre onde os prompts e as conclusões são processados. O modelo SaaS da Cloudflare introduz complicações legais e de auditoria quando se trata de conformidade com a residência de dados.
- Fluxos de trabalho agentivos e pipelines RAG: Cargas de trabalho de raciocínio multi-etapas e geração aumentada por recuperação exigem controle rigoroso, logs mais detalhados e, por vezes, hospedagem de modelo local, tudo isso limitado pela infraestrutura de caixa preta da Cloudflare.
Como a TrueFoundry Aborda os Preços do AI Gateway de Forma Diferente
Se você precisa dos benefícios de um AI Gateway, mas não pode comprometer a segurança, a observabilidade ou o controle da infraestrutura, TrueFoundry oferece uma abordagem fundamentalmente diferente.
A TrueFoundry implanta o AI Gateway diretamente dentro da sua própria conta de nuvem (AWS, GCP, Azure) ou servidor. O plano de controle (que gerencia a configuração e as definições) é operado pela TrueFoundry, mas o plano de dados, onde os prompts e as respostas reais são processados, permanece inteiramente na sua VPC.
Seus dados nunca saem da sua infraestrutura, a menos que você escolha explicitamente movê-los.
Na prática, isso significa:
- Você hospede o serviço de gateway na sua infraestrutura, direcionando todo o tráfego de LLM através da sua própria rede.
- Logs, pedidos e respostas nunca saem da sua conta na cloud a menos que configure exportações externas.
- A observabilidade é nativamente integrada – os logs vão para o seu bucket S3, base de dados ou ferramentas de análise internas, preservando total soberania dos dados.
- Você controla backups, alocação de recursos, políticas de encriptação e escalabilidade utilizando a sua própria infraestrutura e protocolos de segurança.
Isto elimina a desvantagem da “caixa preta” observada em plataformas que priorizam SaaS, como a Cloudflare. Você obtém desempenho transparente, visibilidade de custos e total propriedade com TrueFoundry AI Gateway.
Preços da TrueFoundry
Se auto-hospedado sob um plano Enterprise, o único custo marginal é a infraestrutura (tipicamente ~$600–$1.000/mês, dependendo da escala). Mesmo na versão SaaS, a TrueFoundry cobra nenhuma taxa de alojamento além do seu armazenamento selecionado ou utilização da cloud.
Isto resulta numa estrutura de custos altamente previsível — as equipas podem prever o crescimento, atualizar os níveis gradualmente e manter o controlo a nível da infraestrutura durante todo o processo.
Com o TrueFoundry, pode:
- Garantir orçamentação granular: Atribuir limites de utilização por equipa, por exemplo, "Engenharia recebe $500, Marketing recebe $200" e monitorizar a utilização em tempo real.
- Implementar encaminhamento aberto: Ligar a APIs comerciais (OpenAI, Anthropic) ou encaminhar o tráfego para os seus próprios modelos otimizados a correr em instâncias EC2, GKE ou spot.
- Ativar isolamento de nível empresarial: Manter total conformidade com IAM, rede privada e mandatos de localidade de dados.
Escolher a infraestrutura certa é um compromisso a longo prazo; para ver como a nossa arquitetura se encaixa na sua estratégia de machine learning mais abrangente, leia o nosso guia detalhado sobre se a plataforma ML TrueFoundry é a certa para si.
Cloudflare AI Gateway vs TrueFoundry: Comparação Detalhada
As empresas que avaliam gateways de IA frequentemente comparam um serviço gerido como o Cloudflare com uma plataforma auto-hospedada como o TrueFoundry. Abaixo está uma comparação dos principais fatores:
Pronto para Construir IA Sem Surpresas de Preço?
Selecionar um gateway de IA é uma decisão de infraestrutura de longo prazo, não apenas uma questão de custo inicial. Cloudflare AI Gateway funciona bem para cargas de trabalho de IA leves e focadas na borda, e para experimentação inicial. Mas à medida que os sistemas avançam para a escala de produção, as prioridades mudam para controle de custos, observabilidade, conformidade e flexibilidade.
Plataformas como TrueFoundry são construídas para equipes que escalam IA em produção, onde a propriedade da infraestrutura, a privacidade dos dados e o orçamento baseado no uso são de extrema importância.
Uma startup em crescimento migrou da Cloudflare para a TrueFoundry depois que os custos imprevisíveis de registro começaram a exceder os orçamentos de computação. Ao mudar para um gateway auto-hospedado em sua VPC da AWS, eles alcançaram 35% de redução de custos, registro unificado para S3 e roteamento de tráfego para uma combinação de modelos OpenAI e Mistral privados - tudo com controles orçamentários claros por equipe.
Você também pode obter resultados semelhantes para sua organização. Agende uma demonstração para ver como a TrueFoundry pode trazer previsibilidade e controle de custos de IA para sua equipe.
Perguntas frequentes
O Cloudflare AI Gateway é gratuito?
Sim, o Cloudflare oferece acesso gratuito aos recursos do AI Gateway nos seus planos Standard e Workers Paid. No entanto, limites de uso, políticas de retenção de logs e o poder de computação subjacente (por exemplo, tempo de CPU dos Workers) podem introduzir custos ocultos à medida que a escala aumenta.
Quanto custará o Cloudflare AI?
O próprio Cloudflare AI Gateway não tem uma taxa por solicitação. Os custos surgem com base em:
- Volume e retenção de logs (por exemplo, 100.000 logs no plano gratuito, 1M no Workers Paid)
- Uso de Workers para processamento e roteamento de solicitações
- Nível do plano Cloudflare (por exemplo, Standard vs Enterprise)
Os preços podem tornar-se imprevisíveis em alto volume sem planos personalizados ou gerenciamento externo de logs. A TrueFoundry oferece uma alternativa melhor; você pode encontrar os preços aqui.
Como a TrueFoundry é mais econômica que o Cloudflare AI?
A TrueFoundry funciona inteiramente dentro da sua própria nuvem (AWS, GCP, Azure), eliminando custos de transferência de dados e margens de SaaS. Você paga apenas pela computação e armazenamento que aloca — com total flexibilidade de roteamento, logs transparentes e sem dependência de fornecedor (vendor lock-in). As equipes também podem rotear para modelos privados ou usar instâncias spot para reduzir o custo em 60–70% em comparação com APIs gerenciadas.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI













.webp)






.webp)

.webp)
.webp)





.png)



