Interpretador de Código Privado OpenCode Seguro e Interno: TrueFoundry

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

Todos nós já tivemos aquele momento com o Interpretador de Código do ChatGPT (agora "Análise Avançada de Dados"). Você carrega um CSV bagunçado, pede para ele "corrigir as datas e plotar a tendência", e observa maravilhado enquanto ele escreve e executa código Python em tempo real.

É uma superarma de produtividade. É também uma enorme falha de segurança se você estiver trabalhando com dados sensíveis.

No momento em que você carrega esse CSV, ele está saindo do seu perímetro. Para a nossa equipe, o objetivo era replicar essa capacidade "OpenCode" – dando aos nossos agentes LLM a capacidade de escrever e executar código – sem os riscos de exfiltração de dados. Não queríamos uma API de "caixa preta"; precisávamos de um Interpretador de Código Privado onde o processamento acontece próximo aos dados.

Veja como implementamos o Uso Seguro de Ferramentas e a execução de código usando os componentes de infraestrutura da TrueFoundry.

A Arquitetura de um Interpretador de Código Privado

'OpenCode' não se trata apenas de ter um modelo que pode escrever Python. Ele requer três componentes distintos trabalhando em uníssono:

O Cérebro (LLM): Um modelo capaz de raciocínio e Chamada de Função (por exemplo, Llama 3, DeepSeek-Coder ou GPT-4o via Gateway).
As Mãos (Sandbox): Um ambiente isolado e efêmero onde o código realmente é executado.
A Cola (Gateway): O middleware que analisa a intenção do modelo e roteia a solicitação de execução.

A maioria das pessoas trava em "As Mãos". Você não pode simplesmente deixar um LLM executar os.system('rm -rf /') no seu cluster de produção. Você precisa de um sandbox.

A TrueFoundry resolve isso permitindo-nos implantar ambientes de execução efêmeros (Serviços ou Jobs) que atuam como o sandbox. O LLM Gateway lida com as definições de uso de ferramentas, e a execução real acontece em um contêiner isolado dentro da nossa VPC.

Aqui está o fluxo de trabalho de como uma solicitação do usuário se transforma em execução segura de código.

Fig. 1: Fluxo de trabalho do Loop de Execução OpenCode

O Problema do Sandbox: Gerenciando "As Mãos"

Quando tentamos construir isso pela primeira vez, subestimamos a complexidade do ambiente de execução. Se você usa uma API de Intérprete de Código SaaS padrão, você está enviando seus dados para eles. Se você o executa localmente, você corre o risco de comprometer o host.

Utilizamos TrueFoundry Serviços para hospedar um "Agente de Execução de Código" personalizado. Isso é essencialmente um serviço Python FastAPI empacotado em um contêiner Docker que possui:

Acesso Restrito à Rede: Sem acesso à internet, exceto para espelhos PyPI internos específicos.
Limites de Recursos: Limites rígidos de RAM e CPU (definidos através do seletor de recursos da TrueFoundry) para evitar que loops while(true) derretam o nó.
Armazenamento Efêmero: O sistema de arquivos é limpo após cada solicitação.

Como a TrueFoundry gerencia o manifesto Kubernetes subjacente, podemos injetar essas restrições de segurança (SecurityContext, NetworkPolicies) diretamente da UI de implantação ou do Terraform, garantindo que o sandbox seja realmente um sandbox.

Comparação: Uso de Ferramentas Público vs. Privado

A compensação sempre foi conveniência vs. controle. Ao alavancar a TrueFoundry para orquestrar o padrão "OpenCode", alteramos o equilíbrio. Obtemos a conveniência de uma implantação gerenciada sem o risco de dados.

Code Interpreter vs Private Sandbox

Feature	Public SaaS Code Interpreter	TrueFoundry Private Sandbox
Data Privacy	Low. Data is uploaded to the vendor’s cloud environment.	High. Data stays in your VPC / S3 bucket; code comes to the data.
Library Control	Limited. Standard pre-installed packages (e.g., pandas, numpy).	Full control. You define the Docker image. Need a niche bioinformatics library? Just add it.
Network Access	Blocked or public internet access (risky).	Configurable. Private networking to internal systems like RDS or Snowflake.
Cost	Per-token usage plus premium subscription fees.	Infrastructure-based pricing. You pay for the underlying pod or GPU only while running.

Tabela 1: Este é o Exemplo de Comparação de Gateway e Sandbox

Uso de Ferramentas e O Momento "Ah-ha"

O verdadeiro poder se revela quando você combina Uso de Ferramentas com suas APIs internas.

Configuramos o Gateway LLM da TrueFoundry para expor não apenas a ferramenta "Interpretador Python", mas também ferramentas para o nosso data lake interno (por exemplo, get_user_churn_metrics(user_id)).

Como o LLM está roteando através do Gateway, e o Gateway está conectado aos nossos serviços privados, o modelo agora pode:

Consultar nosso banco de dados SQL interno (através de uma ferramenta).
Extrair esses dados para o Sandbox Python.
Analisar isso usando o padrão "OpenCode".
Retornar a resposta ao usuário.

Tudo isso acontece sem que um único byte de dados do cliente saia da nossa sub-rede privada.

Tornando-o Pronto para Produção

Implementar "OpenCode" não é mais apenas um projeto divertido de hackathon; é um requisito para agentes de IA modernos. Mas você não pode simplesmente improvisar com LangChain e esperar o melhor.

Tratamos nosso Interpretador de Código como infraestrutura crítica. Nós o monitoramos usando a pilha de observabilidade da TrueFoundry – rastreando não apenas os tokens LLM, mas também os picos de CPU no sandbox e a latência de execução. Se um usuário escreve um script que tenta alocar 50GB de RAM, a TrueFoundry encerra o pod antes que ele afete o cluster, e o usuário recebe uma mensagem de erro educada.

Essa é a diferença entre uma demonstração e uma plataforma.

‍

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now