Tarification de Cloudflare AI Gateway : coûts, frais cachés et alternatives

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Cloudflare AI Gateway est rapidement devenu un choix populaire pour les équipes qui souhaitent gérer, surveiller et acheminer le trafic LLM via un proxy centralisé. Alors que l'adoption du LLM s'accélère dans tous les secteurs, les équipes introduisent de plus en plus de passerelles d'IA pour améliorer l'observabilité, la sécurité et le contrôle entre leurs applications et les modèles tiers.
Mais à mesure que l'utilisation de l'IA augmente, la clarté des prix devient un facteur essentiel. Les équipes doivent comprendre non seulement les coûts par appel, mais aussi l'infrastructure et les modèles opérationnels qui influencent les dépenses à long terme.
Pour en savoir plus sur la manière dont les passerelles IA contrôlent les coûts et sur les principales considérations à prendre en compte avant de choisir un fournisseur, lisez l'intégralité Le guide du marché Gartner pour les passerelles IA 2025 est disponible ici.
À première vue, la tarification de Cloudflare AI Gateway semble simple, en particulier si l'on tient compte de l'accès gratuit aux fonctionnalités de base. Cependant, l'utilisation dans le monde réel révèle souvent des coûts cachés liés à la journalisation, à la conservation des données et aux limites de dimensionnement.
Dans ce blog, nous détaillons :
- Exactement ce pour quoi vous payez lorsque vous utilisez Cloudflare AI Gateway
- Les coûts indirects que les équipes négligent souvent
- Pourquoi les entreprises en pleine expansion finissent par migrer vers des alternatives intégrées au VPC telles que TrueFoundry pour plus de contrôle
Qu'est-ce que Cloudflare AI Gateway ?

Avant de couvrir le coût de Cloudflare AI Gateway, il est important de comprendre ce que fait Cloudflare AI Gateway et sa place dans la pile d'IA. Il agit comme une couche centralisée pour les équipes déployant des applications d'IA qui s'appuient sur des fournisseurs LLM tiers.
Cloudflare AI Gateway permet aux équipes de :
- Acheminez le trafic AI en toute sécurité entre les applications et plusieurs fournisseurs de modèles de base tels qu'OpenAI, Anthropic et Hugging Face.
- Gagnez en visibilité sur les invites, les réponses, la latence et les mesures d'utilisation pour l'observabilité et la surveillance.
- Intégrez directement à la suite d'IA plus large de Cloudflare, y compris l'IA Workers, la mise en cache, la limitation de débit et l'infrastructure périphérique mondiale.
Fonctionnalités de Cloudflare AI Gateway qui ont un impact sur ses coûts
Bien que Cloudflare AI Gateway ne facture pas par jeton, plusieurs fonctionnalités ont une incidence indirecte sur le coût global à mesure que l'utilisation augmente :
- Routage des demandes et limitation du débit : Permet de contrôler le flux de trafic mais augmente le nombre d'événements enregistrés à mesure que l'utilisation de l'IA augmente. Cela nécessite un Forfait payant Cloudflare Workers pour l'exécution de gros volumes.
- Mise en cache des réponses et des réponses : Réduit les appels répétés vers les modèles en amont (ce qui permet d'économiser de l'argent sur les frais liés aux jetons), mais l'efficacité dépend des modèles de trafic et du taux d'accès au cache.
- Analyse de l'utilisation et suivi des jetons : Nécessite une journalisation permanente, ce qui peut entraîner des coûts supplémentaires liés au stockage et à la rétention.
- Intégration avec plusieurs fournisseurs d'IA : Augmente la flexibilité mais améliore Observabilité des coûts liés à l'IA des facteurs tels que l'attribution et les prévisions entre les fournisseurs sont plus complexes.
- Facturation unifiée (nouveauté pour 2026) : Cloudflare vous permet désormais de payer l'utilisation de modèles tiers (OpenAI, etc.) directement via votre facture Cloudflare, moyennant des frais de transaction minimes.
- Intégration Logpush : La diffusion des journaux vers un compartiment S3 externe ou un outil SIEM est une fonctionnalité payante qui entraîne des coûts supplémentaires de 0,05$ par million d'enregistrements après 10 millions par mois de forfaits payants.
Niveaux de tarification de Cloudflare AI Gateway
Cloudflare utilise un modèle « freemium » dans lequel la passerelle elle-même est accessible à tous les utilisateurs, mais la mise à l'échelle de votre application nécessite généralement une transition du niveau gratuit au niveau Workers Paid.
La passerelle IA de Cloudflare est disponible sur tous les plans tarifaires de Cloudflare, et les fonctionnalités de base sont gratuites à utiliser. Il n'y a pas de frais de passerelle par appel au-delà de votre forfait Cloudflare : il vous suffit d'ajouter la passerelle et de commencer à envoyer du trafic. Par défaut, Cloudflare inclut une analyse et un tableau de bord gratuits, une mise en cache, une limitation de débit et une couche de journalisation, afin que de nombreuses équipes puissent le lancer sans frais supplémentaires. Dans le cadre du plan gratuit, certaines limites s'appliquent toutefois. Par exemple, le niveau gratuit (Workers Free) de Cloudflare inclut 100 000 journaux AI Gateway au total par mois (sur toutes les passerelles) et arrête de se connecter au-delà. Pour augmenter les limites, vous devez passer à un plan Workers Paid, qui fournit 1 000 000 journaux au total. Cloudflare fait notamment pas facturation par connexion sur les niveaux gratuits ou payants : soit vous restez dans les limites des journaux inclus, soit vous passez à la version supérieure.
Plans tarifaires Cloudflare AI gratuits ou payants
Cloudflare AI Gateway étant construit sur Workers, une utilisation intensive de la passerelle peut entraîner la facturation des Workers.
Cloudflare Travailleurs payés le plan commence par un abonnement mensuel de 5$ et comprend une importante allocation d'utilisation. Par exemple, Standard (Paid) Workers inclut 10 millions de requêtes et 30 millions de CPU-Ms d'exécution par mois.
Au-delà de cela, Cloudflare facture 0,30$ par million de demandes supplémentaires et 0,02$ par million de millisecondes de processeur supplémentaires.
En pratique, cela signifie qu'une passerelle servant 15 millions de requêtes (avec une utilisation moyenne du processeur) coûte environ 8 dollars au total par mois. En revanche, le forfait gratuit pour Cloudflare AI ne comprend que 100 000 requêtes par jour et une utilisation minimale du processeur. Une fois que vous dépassez ces limites, vos Workers cesseront tout simplement de fonctionner (sans frais surprises).
💡 En résumé : les applications d'IA à usage léger peuvent rester dans le niveau gratuit de Cloudflare, mais les charges de travail de production nécessitent souvent des travailleurs payés (utilisation de 5$ et plus) pour évoluer de manière fiable.
Volume des demandes et coûts de journalisation
Dans le cadre du plan Workers Paid, Cloudflare AI Gateway applique toujours des directives d'utilisation. Le Plan rémunéré pour les travailleurs inclut jusqu'à 1 000 000 journaux AI Gateway par mois (sur toutes les passerelles).
Si vous transférez des journaux au-delà de cette limite, vous ne pouvez pas payer d'excédent. Vous devez soit supprimer les anciens journaux, soit passer à la version Enterprise. Le stockage des journaux est limité : par défaut, chaque passerelle peut contenir environ 10 millions de journaux (vous pouvez définir votre propre limite), et une fois pleine, aucun nouveau journal n'est enregistré.
Ainsi, bien que la journalisation soit « incluse », il existe une limite effective à la quantité d'historique que vous conservez.
Cloudflare propose également un Intégration Logpush (les journaux de streaming sur votre espace de stockage), mais uniquement sur le plan payant : vous obtenez 10 millions de demandes » une valeur de logpush par mois gratuite, puis 0,05$ par million supplémentaire.
En substance, l'IA Cloudflare la passerelle elle-même n'a aucun frais par demande, mais la prise en charge de volumes élevés de journalisation entraîne des coûts cachés.
La conservation d'un plus grand nombre de journaux (au-delà de l'autorisation gratuite) peut forcer le stockage sur des systèmes externes ou entraîner une suppression plus agressive des journaux. Et si vous souhaitez l'envoi automatique des journaux (pour le SIEM ou la conformité), cette fonctionnalité n'est disponible que sur les forfaits payants avec frais d'utilisation.
Tous ces facteurs font que les coûts de passerelle de Cloudflare peuvent augmenter indirectement en fonction de l'utilisation : vous payez pour le plan Workers plus toute journalisation/stockage au-delà du niveau de référence.
Coûts d'utilisation indirects
Au-delà du service AI Gateway, n'oubliez pas que chaque demande traitée par la passerelle appelle toujours un fournisseur de modèle sous-jacent. Cloudflare ne remplace pas le modèle : il transmet vos appels par proxy à OpenAI, etc., donc vous payez toujours les frais de jeton du modèle séparément.
En d'autres termes, Cloudflare supprime l'imprévisibilité de la couche réseau mais n'élimine pas les frais par jeton d'OpenAI/Anthropic/etc.
De plus, une utilisation intensive de Workers (par exemple, une logique de requête complexe ou une mise en cache) entraîne des frais de calcul, comme indiqué ci-dessus. Essentiellement, l'utilisation de Cloudflare AI Gateway entraîne un coût de base correspondant au forfait Workers et aux limites de journalisation, plus les dépenses que vous dépensez pour appeler les modèles réels.
Les coûts cachés : ce qui n'est pas inclus dans la tarification de Cloudflare AI Gateway
Au-delà des frais publiés, il existe plusieurs coûts et risques cachés à prendre en compte avec la passerelle AI de Cloudflare :
- Limites de conservation des journaux : Bien que la journalisation de base soit gratuite, Cloudflare applique des limites de rétention strictes. Si votre application doit conserver plus de 100 000 journaux (gratuits) ou 1 million (payants) par mois, vous ne pouvez pas simplement payer pour un supplément : les journaux dépassant le plafond ne sont plus stockés. Pour conserver de longs historiques, vous devez supprimer manuellement les anciennes entrées ou effectuer une mise à niveau (éventuellement vers un plan d'entreprise). Cela peut être un problème budgétaire surprenant si vous comptez sur les journaux pour le débogage ou l'audit.
- Confidentialité et souveraineté des données : Par défaut, la passerelle de Cloudflare capture toutes les données de demande et de réponse (y compris les invites, les modèles de réponses, les jetons, etc.) dans sa propre infrastructure. Cloudflare vous permet de désactiver la journalisation pour des raisons de confidentialité, mais vous désabonner signifie perdre de la visibilité. Sinon, vous envoyez des données potentiellement sensibles (requêtes des utilisateurs, résultats, éventuellement des informations personnelles) dans le cloud de Cloudflare. De nombreux fournisseurs qualifient cette approche de « boîte noire » : les journaux et les statistiques échappent à votre contrôle. Comme le note une analyse, cela peut « forcer les données du client, y compris les informations personnelles ou les informations exclusives, à quitter son environnement sécurisé ». En résumé, si vous avez besoin d'une gouvernance des données stricte ou d'une conformité limitée, il peut être inacceptable de transmettre des invités/réponses brutes à Cloudflare.
- Routage en boîte noire : De même, la logique de routage dynamique et de repli de Cloudflare est opaque. En interne, la passerelle décide du point de terminaison du fournisseur ou de la réponse mise en cache à utiliser. Les clients ne peuvent pas voir l'heuristique détaillée du routage ou des performances. Ce plan de contrôle « fermé » signifie que vous devez faites confiance aux algorithmes de Cloudflare pour la sélection de modèles, la mise en cache et le basculement, sans informations précises. Pour certaines organisations (par exemple celles soumises à un audit strict), ce manque de transparence est un coût caché : vous ne pouvez pas certifier entièrement ce qui s'est passé au sein de la passerelle.
- Limites des ressources et mise à l'échelle : Les limites strictes du forfait gratuit (limites de demandes quotidiennes, limites de journalisation) peuvent entraîner des ralentissements soudains ou des pannes pour les applications en pleine croissance. Contrairement aux clouds payants à l'utilisation, le niveau gratuit de Cloudflare s'arrête simplement, pas les factures. Le passage à des forfaits payants peut nécessiter des modifications architecturales. Par exemple, si vous atteignez 100 000 journaux par jour sans vous en rendre compte, la journalisation sera interrompue de manière inattendue. Ces contraintes opérationnelles se traduisent par des coûts de productivité « cachés » ; vous pourriez avoir besoin d'un travail DevOps supplémentaire pour gérer les journaux supprimés ou effectuer une mise à niveau en cours de route.
En résumé, la passerelle IA de Cloudflare peut sembler « gratuite », mais tout déploiement non trivial doit tenir compte des frais d'utilisation des travailleurs, des besoins en journaux/stockage et des problèmes de gouvernance des données.
Les équipes doivent prévoir un budget pour surveiller l'utilisation des travailleurs, l'expédition ou le stockage éventuels des journaux et les efforts d'ingénierie potentiels visant à respecter les limites de Cloudflare.
Quand la tarification de Cloudflare AI Gateway prend tout son sens
Cloudflare AI Gateway brille dans des scénarios spécifiques. Pour fonctionnalités d'IA légères ou centrées sur la périphérie, il offre une rampe d'accès rapide. Si vous utilisez déjà le CDN/Workers de Cloudflare, vous pouvez ajouter des appels AI avec un minimum de modifications (il suffit de changer le point de terminaison de l'API).
C'est la solution idéale pour les petites équipes ou les startups qui souhaitent une passerelle déployée instantanément en périphérie sans frais liés à DevOps. Les projets en phase de démarrage peuvent tirer parti du plan tarifaire gratuit de Cloudflare pour prototyper des expériences mondiales basées sur l'IA, en mettant en cache les réponses populaires pour plus de rapidité.
Il convient également aux cas d'utilisation où questions relatives à la distribution mondiale. Par exemple, les chatbots ou l'inférence exécutés directement sur le réseau de Cloudflare peuvent bénéficier des plus de 250 POP de Cloudflare et de la protection DDoS intégrée. La simple limitation du débit et les nouvelles tentatives via Cloudflare sont également intéressantes pour les applications qui ont besoin d'une résilience de base. En substance, Cloudflare AI Gateway prend tout son sens lorsque vous valorisez rapidité d'intégration et étendue du réseau Cloudflare, et lorsque votre utilisation est suffisamment modeste pour respecter (ou ne dépasser que modérément) le forfait gratuit.
Cependant, pour les grandes entreprises dont les charges de travail sont volumineuses ou très réglementées, ces avantages peuvent être compensés par les coûts cachés de Cloudflare AI. L'absence de contrôle précis et d'allocations d'utilisation fixes peut entraver la budgétisation et la conformité.
Pourquoi certaines équipes vont au-delà de Cloudflare AI Gateway
À mesure que les systèmes d'IA arrivent à maturité, les priorités passent d'une configuration rapide à la prévisibilité des coûts, à la sécurité et à la propriété. Les équipes commencent à devenir trop nombreuses pour Cloudflare AI Gateway pour les raisons suivantes :
- Utilisation croissante de l'IA: À mesure que l'utilisation des modèles évolue, le volume des jetons augmente et la nécessité d'une tarification alignée sur l'infrastructure devient urgente. Les abstractions de Cloudflare peuvent compliquer les prévisions.
- Exigences de conformité et de résidence des données: Les secteurs réglementés ont souvent besoin d'un contrôle total sur l'endroit où les demandes et les réponses sont traitées. Le modèle SaaS de Cloudflare entraîne des complications juridiques et d'audit en matière de conformités relatives à la résidence des données.
- Flux de travail agentiques et pipelines RAG: Le raisonnement en plusieurs étapes et les charges de travail de génération augmentées par la récupération exigent un contrôle strict, des journaux plus approfondis et parfois un hébergement sur un modèle local, qui sont tous limités par l'infrastructure en boîte noire de Cloudflare.
Comment TrueFoundry aborde différemment la tarification d'AI Gateway
Si vous avez besoin des avantages d'une passerelle IA mais que vous ne pouvez pas faire de compromis sur la sécurité, l'observabilité ou le contrôle de l'infrastructure, True Foundry propose une approche fondamentalement différente.
TrueFoundry déploie l'AI Gateway directement dans votre propre compte cloud (AWS, GCP, Azure) ou serveur. Le plan de contrôle (qui gère la configuration et les paramètres) est géré par TrueFoundry, mais le le plan de données, où les demandes et les réponses sont traitées, reste entièrement dans votre VPC.
Vos données ne quittent jamais votre infrastructure à moins que vous ne choisissiez explicitement de les déplacer.
Dans la pratique, cela signifie que :
- Vous héberger le service de passerelle sur votre infrastructure, en dirigeant tout le trafic LLM via votre propre réseau.
- Journaux, demandes et réponses ne quittez jamais votre compte cloud sauf si vous configurez des exportations externes.
- L'observabilité est intégrée de manière native : les journaux sont envoyés à votre Bucket S3, base de données ou outils d'analyse internes, en préservant la pleine souveraineté des données.
- Vous contrôlez les sauvegardes, l'allocation des ressources, les politiques de chiffrement et la mise à l'échelle en utilisant votre propre infrastructure et vos propres protocoles de sécurité.
Cela élimine le compromis de la « boîte noire » observé sur les plateformes SaaS comme Cloudflare. Vous obtenez des performances transparentes, une visibilité des coûts et une propriété totale avec Passerelle TrueFoundry AI.
Tarification TrueFoundry
En cas d'auto-hébergement dans le cadre d'un plan Enterprise, le seul coût marginal est celui de l'infrastructure (généralement entre 600 et 1 000 dollars par mois selon l'échelle). Même dans la version SaaS, TrueFoundry facture pas de frais d'hébergement au-delà du stockage ou de l'utilisation du cloud que vous avez sélectionnés.
Cela se traduit par une structure de coûts hautement prévisible — les équipes peuvent prévoir la croissance, améliorer les niveaux progressivement et conserver le contrôle au niveau de l'infrastructure tout au long de l'opération.
Avec TrueFoundry, vous pouvez :
- Garantir une budgétisation granulaire: Attribuez des limites d'utilisation par équipe, par exemple « L'ingénierie reçoit 500$, le marketing reçoit 200$ » et surveillez l'utilisation en direct.
- Mettre en œuvre un routage ouvert: Connectez-vous à des API commerciales (OpenAI, Anthropic) ou acheminez le trafic vers vos propres modèles affinés s'exécutant sur des instances EC2, GKE ou spot.
- Permettre une isolation de niveau professionnel: Respectez pleinement les exigences relatives à l'IAM, aux réseaux privés et à la localisation des données.
Le choix de la bonne infrastructure est un engagement à long terme ; pour voir comment notre architecture s'intègre dans votre stratégie globale d'apprentissage automatique, lisez notre guide détaillé sur si la plateforme TrueFoundry ML est la bonne pour toi.
Cloudflare AI Gateway et TrueFoundry : comparaison détaillée
Les entreprises qui évaluent les passerelles d'IA évaluent souvent un service géré comme Cloudflare par rapport à une plateforme auto-hébergée telle que True Foundry. Vous trouverez ci-dessous une comparaison des principaux facteurs :
Êtes-vous prêt à développer l'IA sans surprises en matière de prix ?
Le choix d'une passerelle IA est une décision d'infrastructure à long terme, et pas seulement une question de coût initial. Passerelle IA Cloudflare convient parfaitement aux charges de travail d'IA légères et axées sur la périphérie et aux premières expérimentations. Mais à mesure que les systèmes évoluent vers l'échelle de production, les priorités se tournent vers contrôle des coûts, observabilité, conformité et flexibilité.
Des plateformes comme True Foundry sont conçus pour les équipes qui font évoluer l'IA en production lorsque la propriété de l'infrastructure, la confidentialité des données et la budgétisation basée sur l'utilisation revêtent une importance primordiale.
Une start-up en pleine expansion a migré de Cloudflare vers TrueFoundry après que des coûts de journalisation imprévisibles aient commencé à dépasser les budgets de calcul. En passant à un passerelle auto-hébergée dans leur AWS VPC, ils ont obtenu 35 % de réduction des coûts, une journalisation unifiée vers S3 et un trafic acheminé vers une combinaison de modèles OpenAI et Mistral privés, le tout avec des contrôles budgétaires clairs par équipe.
Vous pouvez également obtenir des résultats similaires pour votre organisation. Réservez une démo pour découvrir comment TrueFoundry peut apporter à votre équipe la prévisibilité et le contrôle des coûts liés à l'IA.
Questions fréquemment posées
Est-ce que Cloudflare AI Gateway est gratuit ?
Oui, Cloudflare propose un accès gratuit aux fonctionnalités d'AI Gateway dans le cadre de ses niveaux standard et Workers Paid. Cependant, les limites d'utilisation, les politiques de conservation des journaux et le calcul sous-jacent (par exemple, le temps de traitement des employés) peuvent entraîner des coûts cachés à mesure que l'échelle augmente.
Combien coûtera Cloudflare AI ?
Cloudflare AI Gateway n'impose aucun frais par demande. Les coûts apparaissent en fonction de :
- Volume et conservation des journaux (par exemple, 100 000 journaux sur le niveau gratuit, 1 million sur Workers Paid)
- Utilisation des travailleurs pour le traitement et le routage des demandes
- Niveau de forfait Cloudflare (par exemple, Standard ou Enterprise)
Les prix peuvent devenir imprévisibles en cas de volume élevé sans plans personnalisés ni gestion externe des journaux. TrueFoundry offre une meilleure alternative ; vous pouvez trouver le tarification ici.
En quoi TrueFoundry est-il plus rentable que Cloudflare AI ?
TrueFoundry s'exécute entièrement dans votre propre cloud (AWS, GCP, Azure), ce qui élimine les coûts de transfert de données et les balises SaaS. Vous ne payez que pour le calcul et le stockage que vous allouez, avec une flexibilité de routage totale, des journaux transparents et aucune dépendance vis-à-vis d'un fournisseur. Les équipes peuvent également passer à des modèles privés ou utiliser des instances ponctuelles pour réduire les coûts de 60 à 70 % par rapport aux API gérées.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA











.webp)



.png)


.webp)




.webp)







