Intégrer OpenCode en interne : utilisation sécurisée des outils sur TrueFoundry

Mis à jour : January 19, 2026

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Nous avons tous connu ce moment avec l'interpréteur de code de ChatGPT (désormais « Analyse avancée des données »). Vous chargez un fichier CSV désordonné, vous lui demandez de « fixer les dates et tracer la tendance », et vous le regardez avec émerveillement écrire et exécuter du code Python en temps réel.

C'est une super arme en matière de productivité. Il s'agit également d'une faille de sécurité massive si vous travaillez avec des données sensibles.

Au moment où vous chargez ce fichier CSV, il quitte votre périmètre. Pour notre équipe, l'objectif était de reproduire cette fonctionnalité « OpenCode », en donnant à nos agents LLM la capacité d'écrire et d'exécuter du code, sans risques d'exfiltration de données. Nous ne voulions pas d'API « boîte noire » ; nous avions besoin d'une Interprète de code privé où le calcul s'effectue à côté des données.

Voici comment nous avons mis en œuvre une utilisation sécurisée des outils et une exécution de code à l'aide des composants d'infrastructure de TrueFoundry.

L'architecture d'un interprète de code privé

« OpenCode » ne consiste pas simplement à disposer d'un modèle capable d'écrire Python. Elle nécessite trois composants distincts qui fonctionnent à l'unisson :

Le cerveau (LLM) : Un modèle capable de raisonner et d'appeler des fonctions (par exemple, Llama 3, DeepSeek-Coder ou GPT-4o via Gateway).
The Hands (Sandbox) : Un environnement isolé et éphémère dans lequel le code s'exécute réellement.
The Glue (Gateway) : Intergiciel qui analyse l'intention du modèle et achemine la demande d'exécution.

La plupart des gens restent bloqués sur « The Hands ». Vous ne pouvez pas simplement laisser un LLM exécuter os.system ('rm -rf /') sur votre cluster de production. Tu as besoin d'un bac à sable.

TrueFoundry résout ce problème en nous permettant de déployer environnements d'exécution éphémères (Services ou Jobs) qui font office de bac à sable. La passerelle LLM gère les définitions d'utilisation des outils, et l'exécution proprement dite a lieu dans un conteneur verrouillé au sein de notre VPC.

Voici le flux de travail qui explique comment une demande utilisateur se transforme en exécution de code sécurisée.

Figure 1 : Flux de travail de la boucle d'exécution OpenCode

Le problème du bac à sable : gérer « The Hands »

Lorsque nous avons essayé de le créer pour la première fois, nous avons sous-estimé la complexité de l'environnement d'exécution. Si vous utilisez une API d'interprétation de code SaaS standard, vous lui envoyez vos données. Si vous l'exécutez localement, vous risquez de compromettre l'hôte.

Nous utilisons TrueFoundry Des services pour héberger un « agent d'exécution de code » personnalisé. Il s'agit essentiellement d'un service Python FastAPI encapsulé dans un conteneur Docker qui contient :

Accès réseau restreint : Pas d'accès à Internet, à l'exception de miroirs PyPI internes spécifiques.
Limites de ressources : Limites de la RAM et du processeur (définies via le commutateur de ressources de TrueFoundry) pour empêcher les boucles while (true) de faire fondre le nœud.
Stockage éphémère : Le système de fichiers est effacé après chaque demande.

Comme TrueFoundry gère le manifeste Kubernetes sous-jacent, nous pouvons injecter ces contraintes de sécurité (SecurityContext, NetworkPolicies) directement depuis l'interface utilisateur de déploiement ou Terraform, garantissant ainsi que le sandbox est véritablement un sandbox.

Comparaison : utilisation des outils publics et privés

Le compromis a toujours été la commodité par rapport au contrôle. En utilisant TrueFoundry pour orchestrer le modèle « OpenCode », nous changeons l'équilibre. Nous bénéficions de la commodité d'un déploiement géré sans les risques liés aux données.

Code Interpreter vs Private Sandbox

Feature	Public SaaS Code Interpreter	TrueFoundry Private Sandbox
Data Privacy	Low. Data is uploaded to the vendor’s cloud environment.	High. Data stays in your VPC / S3 bucket; code comes to the data.
Library Control	Limited. Standard pre-installed packages (e.g., pandas, numpy).	Full control. You define the Docker image. Need a niche bioinformatics library? Just add it.
Network Access	Blocked or public internet access (risky).	Configurable. Private networking to internal systems like RDS or Snowflake.
Cost	Per-token usage plus premium subscription fees.	Infrastructure-based pricing. You pay for the underlying pod or GPU only while running.

Tableau 1 : Voici un exemple de comparaison entre une passerelle et un bac à sable

L'utilisation des outils et le moment « Ah-ha »

Le véritable pouvoir se débloque lorsque vous combinez Utilisation de l'outil avec vos API internes.

Nous avons configuré la passerelle TrueFoundry LLM pour exposer non seulement l'outil « Python Interpreter », mais également des outils pour notre lac de données interne (par exemple, get_user_churn_metrics (user_id)).

Étant donné que le LLM est acheminé via la passerelle et que celle-ci est connectée à nos services privés, le modèle peut désormais :

Requête notre base de données SQL interne (via un outil).
Tirer ces données dans le Python Sandbox.
Analyser en utilisant le modèle « OpenCode ».
Retourner la réponse à l'utilisateur.

Tout cela se fait sans qu'un seul octet de données client ne quitte notre sous-réseau privé.

Le préparer pour la production

La mise en œuvre d' « OpenCode » n'est plus seulement un projet de hackathon amusant ; c'est une exigence pour les agents d'IA modernes. Mais vous ne pouvez pas simplement le pirater avec LangChain et espérer que tout ira pour le mieux.

Nous traitons notre interpréteur de code comme infrastructures critiques. Nous le surveillons à l'aide de la pile d'observabilité de TrueFoundry, qui permet de suivre non seulement les jetons LLM, mais aussi les pics de processeur dans le sandbox et la latence d'exécution. Si un utilisateur écrit un script qui tente d'allouer 50 Go de RAM, TrueFoundry tue le pod avant qu'il n'affecte le cluster et l'utilisateur reçoit un message d'erreur poli.

C'est la différence entre une démo et une plateforme.

‍

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS

Comment pouvez-vous empêcher les coûts de GenAI de grimper en flèche à grande échelle ?

Gartner report on best practices for optimizing generative and agentic AI costs and projected statistics.

Accédez au rapport complet de 2026

Gartner Hype Cycle for Platform Engineering 2026

Access Full 2026 Report

One Layer of Control for All AI

Route and govern model and tool traffic with a centralized AI Gateway

Book Demo

Table des matières

Lien textuel

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Boyu Wang

Intégrer OpenCode en interne : utilisation sécurisée des outils sur TrueFoundry

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

L'architecture d'un interprète de code privé

Le problème du bac à sable : gérer « The Hands »

Comparaison : utilisation des outils publics et privés

L'utilisation des outils et le moment « Ah-ha »

Le préparer pour la production

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

One Layer of Control for All AI

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

Meilleurs outils d'observabilité LLM

Outils de gestion rapide pour les systèmes d'IA de production

Blogs récents

Decoding the Gartner® Hype Cycle™ for Platform Engineering 2026

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

What Is Multi-Agent Orchestration? A Practical Guide for Enterprise Teams

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Agent Platforms in 2026: Compared for Enterprise and Developer Teams

PII Redaction at the Gateway vs. the Application Layer: A Performance and Correctness Analysis

Context Engineering at the Gateway Layer: How Session Management Enables Long-Running Agents

Separating Agent Logic from Runtime: The Case for a Managed Agent Layer

Converting an OpenAPI Spec to an MCP Server: Architecture and Edge Cases

How to Test AI-Powered Systems and LLM Workflows in Production-Like Environments

Implementing SCIM at TrueFoundry: Automating User & Team Management with Okta

Real-Time LLM Cost Attribution: From Token Counts to Team Budgets

OpenTelemetry for LLMs: How we instrument a multi-provider AI gateway

Introducing Agent Gateway: A Unified Control Plane for Enterprise AI Agents

Provider-Agnostic Prompt Caching: How an LLM Gateway Normalizes Anthropic, OpenAI, and Bedrock

Blogue

Intégrer OpenCode en interne : utilisation sécurisée des outils sur TrueFoundry

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

L'architecture d'un interprète de code privé

Le problème du bac à sable : gérer « The Hands »

Comparaison : utilisation des outils publics et privés

L'utilisation des outils et le moment « Ah-ha »

Le préparer pour la production

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

One Layer of Control for All AI

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Découvrez-en plus

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

Meilleurs outils d'observabilité LLM

Outils de gestion rapide pour les systèmes d'IA de production

Blogs récents

Decoding the Gartner® Hype Cycle™ for Platform Engineering 2026

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

What Is Multi-Agent Orchestration? A Practical Guide for Enterprise Teams

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Agent Platforms in 2026: Compared for Enterprise and Developer Teams

PII Redaction at the Gateway vs. the Application Layer: A Performance and Correctness Analysis

Context Engineering at the Gateway Layer: How Session Management Enables Long-Running Agents

Separating Agent Logic from Runtime: The Case for a Managed Agent Layer

Converting an OpenAPI Spec to an MCP Server: Architecture and Edge Cases

How to Test AI-Powered Systems and LLM Workflows in Production-Like Environments

Implementing SCIM at TrueFoundry: Automating User & Team Management with Okta

Real-Time LLM Cost Attribution: From Token Counts to Team Budgets

OpenTelemetry for LLMs: How we instrument a multi-provider AI gateway

Introducing Agent Gateway: A Unified Control Plane for Enterprise AI Agents

Provider-Agnostic Prompt Caching: How an LLM Gateway Normalizes Anthropic, OpenAI, and Bedrock

Blogue

Abonnez-vous à notre newsletter