Sicherer OpenCode im eigenen Haus: TrueFoundry Private Code Interpreter

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Wir alle hatten diesen Moment mit dem Code Interpreter von ChatGPT (jetzt „Advanced Data Analysis“). Du lädst eine chaotische CSV-Datei hoch, bittest sie, „die Daten zu korrigieren und den Trend zu zeichnen“, und beobachtest voller Ehrfurcht, wie Python-Code in Echtzeit geschrieben und ausgeführt wird.

Es ist eine Produktivitäts-Superwaffe. Es ist auch eine massive Sicherheitslücke, wenn Sie mit sensiblen Daten arbeiten.

In dem Moment, in dem du die CSV-Datei hochlädst, verlässt sie deinen Umkreis. Für unser Team bestand das Ziel darin, diese „OpenCode“ -Funktion zu replizieren und unseren LLM-Agenten die Möglichkeit zu geben, Code zu schreiben und auszuführen — ohne das Risiko einer Datenexfiltration. Wir wollten keine „Blackbox“ -API; wir brauchten eine Privater Code-Interpreter wo die Berechnung neben den Daten stattfindet.

So haben wir die sichere Toolnutzung und Codeausführung mithilfe der Infrastrukturkomponenten von TrueFoundry implementiert.

Die Architektur eines privaten Code-Interpreters

Bei „OpenCode“ geht es nicht nur darum, ein Modell zu haben, das Python schreiben kann. Es erfordert drei verschiedene Komponenten, die zusammenarbeiten:

Das Gehirn (LLM): Ein Modell, das in der Lage ist, logisch zu denken und Funktionen aufzurufen (z. B. Llama 3, DeepSeek-Coder oder GPT-4o via Gateway).
Die Hände (Sandbox): Eine isolierte, kurzlebige Umgebung, in der der Code tatsächlich ausgeführt wird.
Der Kleber (Gateway): Die Middleware, die die Absicht des Modells analysiert und die Ausführungsanforderung weiterleitet.

Die meisten Leute bleiben bei „The Hands“ hängen. Sie können nicht einfach ein LLM os.system ('rm -rf /') auf Ihrem Produktionscluster ausführen lassen. Sie benötigen eine Sandbox.

TrueFoundry löst dieses Problem, indem es uns die Bereitstellung ermöglicht kurzlebige Ausführungsumgebungen (Dienste oder Jobs), die als Sandbox dienen. Das LLM Gateway verarbeitet die Definitionen der Toolnutzung, und die eigentliche Ausführung erfolgt in einem gesperrten Container innerhalb unserer VPC.

Hier ist der Arbeitsablauf, wie aus einer Benutzeranfrage eine sichere Codeausführung wird.

Bild 1: Arbeitsablauf der OpenCode-Ausführungsschleife

Das Sandbox-Problem: Umgang mit „The Hands“

Als wir zum ersten Mal versuchten, dies zu erstellen, haben wir die Komplexität der Ausführungsumgebung unterschätzt. Wenn Sie eine standardmäßige SaaS-Code-Interpreter-API verwenden, senden Sie Ihre Daten an sie. Wenn Sie es lokal ausführen, riskieren Sie, den Host zu gefährden.

Wir verwenden TrueFoundry Dienstleistungen um einen benutzerdefinierten „Code Execution Agent“ zu hosten. Dies ist im Wesentlichen ein Python-FastAPI-Dienst, der in einen Docker-Container eingebettet ist und Folgendes enthält:

Eingeschränkter Netzwerkzugriff: Kein Internetzugang außer zu bestimmten internen PyPI-Spiegeln.
Ressourcenbeschränkungen: Feste Obergrenzen für RAM und CPU (festgelegt über den Resource Toggle von TrueFoundry), um zu verhindern, dass While (true) -Schleifen den Knoten schmelzen.
Kurzlebiger Speicher: Das Dateisystem wird nach jeder Anfrage gelöscht.

Da TrueFoundry das zugrunde liegende Kubernetes-Manifest verwaltet, können wir diese Sicherheitseinschränkungen (SecurityContext, NetworkPolicies) direkt über die Bereitstellungsoberfläche oder Terraform einfügen, um sicherzustellen, dass die Sandbox wirklich eine Sandbox ist.

Vergleich: Öffentliche und private Toolnutzung

Der Kompromiss war schon immer Bequemlichkeit und Kontrolle. Indem wir TrueFoundry nutzen, um das „OpenCode“ -Muster zu orchestrieren, verschieben wir das Gleichgewicht. Wir genießen den Komfort einer verwalteten Bereitstellung ohne das Datenrisiko.

Code Interpreter vs Private Sandbox

Feature	Public SaaS Code Interpreter	TrueFoundry Private Sandbox
Data Privacy	Low. Data is uploaded to the vendor’s cloud environment.	High. Data stays in your VPC / S3 bucket; code comes to the data.
Library Control	Limited. Standard pre-installed packages (e.g., pandas, numpy).	Full control. You define the Docker image. Need a niche bioinformatics library? Just add it.
Network Access	Blocked or public internet access (risky).	Configurable. Private networking to internal systems like RDS or Snowflake.
Cost	Per-token usage plus premium subscription fees.	Infrastructure-based pricing. You pay for the underlying pod or GPU only while running.

Tabelle 1: Dies ist das Beispiel für einen Vergleich zwischen Gateway und Sandbox

Werkzeuggebrauch und der „Ah-ha“ -Moment

Die wahre Kraft entfaltet sich, wenn du kombinierst Verwendung des Tools mit Ihren internen APIs.

Wir haben das TrueFoundry LLM Gateway so konfiguriert, dass nicht nur das Tool „Python Interpreter“ verfügbar ist, sondern auch Tools für unseren internen Data Lake (z. B. get_user_churn_metrics (user_id)).

Da das LLM durch das Gateway leitet und das Gateway mit unseren privaten Diensten verbunden ist, kann das Modell jetzt:

Abfrage unsere interne SQL-Datenbank (über ein Tool).
Ziehen diese Daten in die Python-Sandbox.
Analysieren es verwendet das „OpenCode“ -Muster.
Rückkehr die Antwort an den Benutzer.

All dies geschieht, ohne dass ein einziges Byte an Kundendaten unser privates Subnetz verlässt.

Wir machen es bereit für die Produktion

Die Implementierung von „OpenCode“ ist nicht mehr nur ein lustiges Hackathon-Projekt, sondern eine Voraussetzung für moderne KI-Agenten. Aber du kannst es nicht einfach zusammen mit LangChain hacken und auf das Beste hoffen.

Wir behandeln unseren Code-Interpreter als kritische Infrastruktur. Wir überwachen es mithilfe des Observability-Stacks von TrueFoundry und verfolgen nicht nur die LLM-Token, sondern auch die CPU-Spitzen in der Sandbox und die Ausführungslatenz. Wenn ein Benutzer ein Skript schreibt, das versucht, 50 GB RAM zuzuweisen, beendet TrueFoundry den Pod, bevor er sich auf den Cluster auswirkt, und der Benutzer erhält eine höfliche Fehlermeldung.

Das ist der Unterschied zwischen einer Demo und einer Plattform.

‍

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo