Cline avec TrueFoundry AI Gateway : guide de configuration pour VS Code

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Si vous utilisez VS Code et AI pendant que vous codez, Cline est la solution idéale. Lorsque vous exécutez Cline via la passerelle AI de TrueFoundry, vous conservez la même expérience de codage dans l'éditeur tout en ajoutant des barrières d'entreprise, une observabilité et un contrôle des coûts. Ce guide explique ce qu'est Cline, pourquoi il est utile de l'acheminer via la passerelle et comment le configurer en quelques minutes.

Qu'est-ce que Cline ?

Cline s'exécute dans votre éditeur et peut écrire des fichiers, modifier du code et vous aider à déboguer par le biais d'une conversation naturelle. Cela ressemble à un coéquipier qui comprend le contexte de votre dépôt et peut agir directement depuis VS Code, ce qui le rend utile à la fois pour les modifications rapides et les refactorings plus longs.

Pourquoi associer Cline à TrueFoundry AI Gateway

Le routage de Cline via TrueFoundry AI Gateway offre aux équipes un endroit unique pour gérer les accès et les clés. Au lieu de distribuer des clés de fournisseur brutes sur des ordinateurs portables et des scripts, vous donnez à Cline une clé d'API TrueFoundry et une URL de base, et la passerelle gère les informations d'identification des fournisseurs de modèles en arrière-plan. Cela facilite également la rotation ou l'expiration des jetons en cas de besoin sans perturber la configuration de chaque développeur.

Le Gateway vous aide également à ne dépenser que ce que vous comptez dépenser. Vous pouvez définir des budgets stricts par utilisateur, par équipe, par application ou par modèle de manière à ce que l'utilisation cesse si une limite est franchie, ce qui évite les factures surprises dues à des boucles ou à des habitudes d'utilisation intensives. Outre les budgets, vous pouvez appliquer des limites de débit pour maintenir un trafic sain et garantir une utilisation équitable entre les équipes, tout en protégeant la capacité du backend.

La visibilité opérationnelle s'améliore également. Vous pouvez utiliser des tableaux de bord pour suivre la latence, l'utilisation des jetons, les coûts, les erreurs et les règles déclenchées, et vous pouvez découper ces données par modèle, utilisateur, équipe ou étiquettes personnalisées. Lorsque vous avez besoin d'une trace, vous pouvez activer l'enregistrement des demandes à la demande à l'aide d'un en-tête, et continuer à fermer la session lorsque vous n'en avez pas besoin. Vous pouvez également baliser chaque appel à l'aide de métadonnées telles que le projet, l'environnement, le locataire ou la fonctionnalité, puis filtrer et créer un graphique à l'aide de ces balises, et même définir des budgets ou des limites de débit pour ces dimensions.

Ce dont vous avez besoin

UNE compte TrueFoundry et Gateway Access. Le démarrage rapide montre comment procéder à la configuration.
VS Code avec l'extension Cline installée.

Configuration étape par étape

Commencez par ouvrir VS Code avec Cline installé. Ouvrez la palette de commandes à l'aide des touches Cmd/Ctrl + Shift + P et exécutez « Cline : Ouvrir dans un nouvel onglet ». Une fois Cline ouvert, cliquez sur l'icône représentant un engrenage dans l'onglet Cline pour ouvrir ses paramètres.

Pointez Cline vers la passerelle

Dans les paramètres de l'API de Cline, définissez le fournisseur d'API sur Compatible avec OpenAI, puis saisissez votre URL de base de la passerelle TrueFoundry, collez votre Clé d'API TrueFoundry, et choisissez ID du modèle que vous exposez via la passerelle quelque chose comme openai-main/gpt-4o, ou tout autre modèle routé que vous avez configuré. Enregistrez les paramètres et, à partir de ce moment, Cline enverra des demandes via la passerelle en utilisant le modèle que vous avez sélectionné.

Si vous préférez vérifier l'intégrité de la connectivité en dehors de l'éditeur, vous pouvez également tester à l'aide d'un court script : les clients compatibles avec OpenAI peuvent communiquer avec la passerelle en définissant l'URL de base et en utilisant votre clé TrueFoundry, comme vous le feriez avec n'importe quel point de terminaison compatible avec OpenAI.

Essayez ces premières instructions dans Cline

Un moyen simple de vérifier que tout fonctionne correctement est d'essayer une combinaison des instructions « créer, modifier, expliquer, déboguer ». Par exemple, demandez à Cline de créer une fonction Python pour les N premiers nombres de Fibonacci, puis demandez-lui d'ajouter la validation des entrées et la gestion des erreurs, puis demandez-lui d'expliquer la fonction en anglais clair. Si vous souhaitez tester les flux de débogage, donnez-lui un fichier et décrivez une ValueError qui s'affiche, puis demandez-lui de vous aider à résoudre le problème.

Configuration de passerelle recommandée pour les équipes

Pour les déploiements en équipe, commencez par choisir le bon type de clé. Les jetons d'accès personnels fonctionnent bien pour les développeurs individuels, tandis que les jetons d'accès virtuels conviennent mieux aux outils et applications partagés, car ils ne sont pas liés à une seule personne et peuvent être définis et révoqués par un administrateur. Une fois les clés triées, ajoutez des budgets afin qu'une personne ou un outil ne puisse pas dépenser trop. Les limites peuvent être quotidiennes ou mensuelles et peuvent correspondre aux utilisateurs, aux équipes, aux comptes virtuels, aux modèles ou à toute autre combinaison. Lorsqu'une règle correspondante dépasse sa limite, l'appel est bloqué.

Après les budgets, ajoutez des limites de débit pour protéger les backends et appliquer une utilisation équitable. Vous pouvez limiter par jetons ou par demandes et appliquer des limites par minute, heure ou jour. Les règles peuvent correspondre à un utilisateur, à une équipe, à un compte virtuel, à un modèle ou même à des métadonnées telles que l'environnement ou le projet. Si votre équipe s'appuie sur le suivi de l'utilisation par contexte commercial, prenez l'habitude de baliser les demandes en envoyant MÉTADONNÉES X-TFY avec des valeurs de chaîne telles que client, projet, environnement ou fonctionnalité. Ces balises sont utiles à la fois pour filtrer les tableaux de bord et pour définir la portée des budgets et les limites tarifaires.

La journalisation doit être délibérée. Vous pouvez activer la journalisation par demande à l'aide du X-TFY-LOGGING-CONFIG en-tête, et dans les déploiements de Gateway auto-hébergés, vous pouvez également définir un mode global pour toujours enregistrer ou ne jamais enregistrer. Lorsque vous devez consulter une trace, vous pouvez consulter les journaux dans la section Monitor de l'interface utilisateur de Gateway.

C'est ça. Cline enverra désormais des demandes via la passerelle avec le modèle que vous avez choisi.

Conseil : Si vous préférez tester avec un script court, les clients OpenAI peuvent communiquer avec la passerelle en définissant l'URL de base et votre clé TrueFoundry comme indiqué dans le guide de contrôle d'accès.

Une observabilité qui vous aide à expédier

Une fois que le trafic Cline passe par la passerelle, vous pouvez utiliser le tableau de bord des métriques pour suivre la latence, le délai jusqu'au premier jeton, la latence entre les jetons, le nombre de jetons, le coût et les codes d'erreur. Le regroupement par modèle permet de comparer les performances et la stabilité entre les fournisseurs, tandis que le regroupement par utilisateur ou par équipe facilite la compréhension des modèles d'utilisation. Le regroupement par métadonnées vous permet de suivre le comportement spécifique des locataires ou des fonctionnalités, et si vous avez besoin d'une analyse plus approfondie, vous pouvez exporter les mesures au format CSV.

Ce que vous y gagnez

Avec Cline, vous bénéficiez d'une aide au codage rapide et autonome dans l'éditeur. Avec la passerelle, vous pouvez contrôler l'accès aux modèles, les dépenses et la sécurité, tout en bénéficiant de plus de clarté grâce à des journaux, des analyses et des métadonnées cohérentes. Cette combinaison facilite la mise à l'échelle du codage assisté par l'IA au sein d'une équipe sans perdre la gouvernance.

Réflexions finales

Cline simplifie le codage car il permet d'agir directement dans votre dépôt. TrueFoundry AI Gateway permet de déployer cette puissance en toute sécurité au sein d'une organisation. Une fois que vous avez défini l'URL de base, choisi un modèle et ajouté une clé, vous êtes prêt à coder. À mesure que l'adoption augmente, la superposition des budgets, des limites de débit, des contrôles de journalisation et des métadonnées permet de maintenir la vitesse à un niveau élevé sans sacrifier le contrôle.

Criteria	What should you evaluate ?	Priority	TrueFoundry
Latency	Adds <10ms p95 overhead for time-to-first-token?	Must Have	✅ Supported
Data Residency	Keeps logs within your region (EU/US)?	Depends on use case	✅ Supported
Latency-Based Routing	Automatically reroutes based on real-time latency/failures?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported

AI Gateway Evaluation Checklist

A practical guide used by platform & infra teams

Thank you for requesting access to "AI Gateway Evaluation Checklist". We have shared the link to download the checklist to your mail. Happy reading :)

Oops! Something went wrong while submitting the form.

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant