Cline mit TrueFoundry AI Gateway: Einrichtungsleitfaden für VS Code

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wenn Sie beim Programmieren VS Code und KI verwenden, ist Cline genau das Richtige für Sie. Wenn Sie Cline über das AI Gateway von TrueFoundry ausführen, behalten Sie die gleiche Programmiererfahrung im Editor bei und fügen gleichzeitig Unternehmensleitlinien, Beobachtbarkeit und Kostenkontrolle hinzu. In diesem Handbuch wird erklärt, was Cline ist, warum es hilfreich ist, es über das Gateway zu leiten, und wie Sie es in wenigen Minuten einrichten können.

Was ist Cline?

Cline läuft in Ihrem Editor und kann Dateien schreiben, Code ändern und Ihnen durch eine natürliche Konversation beim Debuggen helfen. Es fühlt sich an wie ein Teamkollege, der Ihren Repo-Kontext versteht und direkt von VS Code aus Maßnahmen ergreifen kann, was es sowohl für schnelle Änderungen als auch für längere Refaktorierungen nützlich macht.

Warum Cline mit TrueFoundry AI Gateway kombinieren?

Das Routing von Cline über TrueFoundry AI Gateway bietet Teams einen zentralen Ort, an dem sie Zugriff und Schlüssel verwalten können. Anstatt die unformatierten Provider-Schlüssel auf Laptops und Skripten zu verteilen, geben Sie Cline einen TrueFoundry-API-Schlüssel und eine Basis-URL, und das Gateway kümmert sich hinter den Kulissen um die Anmeldeinformationen des Modelanbieters. Dadurch ist es auch einfacher, Tokens bei Bedarf zu rotieren oder ablaufen zu lassen, ohne die Einrichtung jedes Entwicklers zu stören.

Das Gateway hilft Ihnen auch dabei, nur das auszugeben, was Sie beabsichtigen. Sie können feste Budgets pro Benutzer, Team, App oder Modell festlegen, sodass die Nutzung eingestellt wird, wenn ein Limit überschritten wird. Auf diese Weise wird verhindert, dass unvorhergesehene Rechnungen aufgrund von Wiederholungen oder starken Nutzungsmustern entstehen. Neben Budgets können Sie auch Ratenbegrenzungen durchsetzen, um für einen gesunden Traffic zu sorgen und eine faire Nutzung durch alle Teams zu gewährleisten und gleichzeitig die Backend-Kapazität zu schützen.

Die betriebliche Sichtbarkeit verbessert sich ebenfalls. Sie können Dashboards verwenden, um Latenz, Token-Nutzung, Kosten, Fehler und die ausgelösten Regeln nachzuverfolgen, und Sie können diese Daten nach Modell, Benutzer, Team oder benutzerdefinierten Bezeichnungen aufteilen. Wenn Sie einen Trace benötigen, können Sie die Anforderungsprotokollierung bei Bedarf mithilfe eines Headers aktivieren und sich immer wieder abmelden, wenn Sie ihn nicht benötigen. Sie können auch jeden Anruf mit Metadaten wie Projekt, Umgebung, Mandant oder Funktion kennzeichnen und dann anhand dieser Tags filtern und grafisch darstellen — und sogar den Umfang, Budgets oder Ratenlimits für diese Dimensionen festlegen.

Was du brauchst

EIN TrueFoundry-Konto und Gateway-Zugang. Das schneller Start zeigt, wie man es einrichtet.
VS Code mit installierter Cline-Erweiterung.

Einrichtung Schritt für Schritt

Öffnen Sie zunächst VS Code mit installiertem Cline. Öffnen Sie die Befehlspalette mit Cmd/Strg + Shift + P und führen Sie „Cline: In neuem Tab öffnen“ aus. Sobald Cline geöffnet ist, klicken Sie auf das Zahnradsymbol im Cline-Tab, um die Einstellungen zu öffnen.

Zeig Cline zum Gateway

Stellen Sie in den API-Einstellungen von Cline den API-Anbieter auf OpenAI-kompatibel, dann gib deine TrueFoundry Gateway-Basis-URL, füge deine TrueFoundry API-Schlüssel, und wähle eine Modell-ID das du über das Gateway so etwas ausstellst wie openai-main/gpt-4o, oder jedes andere geroutete Modell, das Sie konfiguriert haben. Speichern Sie die Einstellungen. Ab diesem Zeitpunkt sendet Cline mithilfe des von Ihnen ausgewählten Modells Anfragen über das Gateway.

Wenn Sie es vorziehen, die Konnektivität außerhalb des Editors auf ihre Richtigkeit zu überprüfen, können Sie auch mit einem kurzen Skript testen: OpenAI-kompatible Clients können mit dem Gateway kommunizieren, indem sie die Basis-URL festlegen und Ihren TrueFoundry-Schlüssel verwenden, genauso wie Sie es mit jedem OpenAI-kompatiblen Endpunkt tun würden.

Probieren Sie diese ersten Aufforderungen in Cline aus

Eine einfache Methode, um zu überprüfen, ob alles funktioniert, besteht darin, eine Mischung aus Aufforderungen zum Erstellen, Ändern, Erklären, Debuggen auszuprobieren. Bitten Sie Cline beispielsweise, eine Python-Funktion für die ersten N Fibonacci-Zahlen zu erstellen, bitten Sie sie dann, die Eingabevalidierung und Fehlerbehandlung hinzuzufügen, und bitten Sie sie dann, die Funktion in einfachem Englisch zu erklären. Wenn Sie Debugging-Flows testen möchten, geben Sie ihr eine Datei und beschreiben Sie einen ValueError, den Sie sehen, und bitten Sie sie, Ihnen bei der Behebung des Problems zu helfen.

Empfohlene Gateway-Konfiguration für Teams

Wählen Sie bei Team-Rollouts zunächst die richtige Art von Schlüssel aus. Persönliche Zugriffstoken eignen sich gut für einzelne Entwickler, während virtuelle Zugriffstoken besser für gemeinsam genutzte Tools und Anwendungen geeignet sind, da sie nicht an eine Person gebunden sind und von einem Administrator festgelegt und widerrufen werden können. Sobald die Schlüssel sortiert sind, fügen Sie Budgets hinzu, damit eine Person oder ein Tool nicht zu viel ausgeben kann. Die Limits können täglich oder monatlich festgelegt werden und können Benutzern, Teams, virtuellen Konten, Modellen oder einer beliebigen Kombination entsprechen. Wenn eine passende Regel ihr Limit überschreitet, wird der Anruf blockiert.

Fügen Sie nach den Budgets Ratenlimits hinzu, um Backends zu schützen und eine faire Nutzung durchzusetzen. Sie können das Limit nach Tokens oder Anfragen festlegen und Limits pro Minute, Stunde oder Tag anwenden. Die Regeln können je nach Benutzer, Team, virtuellem Konto, Modell oder sogar Metadaten wie Umgebung oder Projekt übereinstimmen. Wenn Ihr Team darauf angewiesen ist, die Nutzung anhand des Geschäftskontextes zu verfolgen, machen Sie es sich zur Gewohnheit, Anfragen mit Tags zu versehen, indem Sie Folgendes senden X-TFY-METADATEN mit Zeichenfolgenwerten wie Kunde, Projekt, Umgebung oder Feature. Diese Tags sind sowohl für das Filtern von Dashboards als auch für die Festlegung von Budgets und Ratenlimits nützlich.

Die Protokollierung sollte bewusst erfolgen. Sie können die Protokollierung pro Anfrage mit dem X-TFY-LOGGING-KONFIGURATION Header, und in selbst gehosteten Gateway-Bereitstellungen können Sie auch einen globalen Modus festlegen, um immer oder nie zu protokollieren. Wenn Sie einen Trace überprüfen müssen, können Sie die Protokolle im Monitor-Bereich der Gateway-Benutzeroberfläche einsehen.

Das ist es. Cline sendet jetzt Anfragen mit dem von Ihnen ausgewählten Modell über das Gateway.

Tipp: Wenn Sie es vorziehen, mit einem kurzen Skript zu testen, können die OpenAI-Clients mit dem Gateway kommunizieren, indem Sie die Basis-URL und Ihren TrueFoundry-Schlüssel festlegen, wie in der Anleitung zur Zugriffskontrolle gezeigt.

Beobachtbarkeit, die Ihnen beim Versand hilft

Sobald der Cline-Verkehr durch das Gateway fließt, können Sie das Metrics Dashboard verwenden, um die Latenz, die Zeit bis zum ersten Token, die Latenz zwischen den Token, die Token-Anzahl, die Kosten und Fehlercodes zu verfolgen. Die Gruppierung nach Modell hilft dabei, Leistung und Stabilität zwischen Anbietern zu vergleichen, während die Gruppierung nach Benutzern oder Teams das Verständnis der Nutzungsmuster erleichtert. Die Gruppierung nach Metadaten hilft Ihnen dabei, das Verhalten von Mandanten oder Funktionen nachzuverfolgen. Wenn Sie eine eingehendere Analyse benötigen, können Sie Metriken in eine CSV-Datei exportieren.

Was du gewinnst

Mit Cline erhalten Sie schnelle, autonome Programmierhilfe im Editor. Mit dem Gateway haben Sie die Kontrolle über Modellzugriff, Ausgaben und Sicherheit sowie Klarheit durch Protokolle, Analysen und konsistente Metadaten. Die Kombination macht es einfacher, KI-gestützte Codierung im gesamten Team zu skalieren, ohne die Kontrolle zu verlieren.

Abschließende Gedanken

Mit Cline fühlt sich das Programmieren leichter an, da direkt in Ihrem Repo Maßnahmen ergriffen werden können. TrueFoundry AI Gateway sorgt dafür, dass diese Leistung sicher in einem Unternehmen eingeführt werden kann. Sobald Sie die Basis-URL festgelegt, ein Modell ausgewählt und einen Schlüssel hinzugefügt haben, können Sie mit dem Programmieren beginnen. Wenn die Akzeptanz zunimmt, sorgt die Kombination von Budgets, Ratenlimits, Protokollierungskontrollen und Metadaten dafür, dass die Geschwindigkeit hoch bleibt, ohne dass die Kontrolle verloren geht.

Criteria	What should you evaluate ?	Priority	TrueFoundry
Latency	Adds <10ms p95 overhead for time-to-first-token?	Must Have	✅ Supported
Data Residency	Keeps logs within your region (EU/US)?	Depends on use case	✅ Supported
Latency-Based Routing	Automatically reroutes based on real-time latency/failures?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported

AI Gateway Evaluation Checklist

A practical guide used by platform & infra teams

Thank you for requesting access to "AI Gateway Evaluation Checklist". We have shared the link to download the checklist to your mail. Happy reading :)

Oops! Something went wrong while submitting the form.

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo