Integración de la IA operante con TrueFoundry

Actualizado:

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

‍Nos complace anunciar nuestra asociación con Operant AI, que lleva la defensa de la IA en tiempo de ejecución y la redacción de datos en línea directamente al proceso de LLM y al tráfico de agentes.

Los equipos que dirigen el tráfico de modelos y agentes a través de AI Gateway de TrueFoundry ahora pueden conectar Operant AI Gatekeeper como un proveedor de protección de primera clase para detectar amenazas en tiempo real, redactar automáticamente en línea y aplicar la política de confianza cero en las indicaciones y respuestas, las llamadas de herramientas y las interacciones de MCP en producción. La integración se ejecuta en los cuatro ganchos de protección expuestos por la puerta de enlace y no requiere ningún cambio en el código del agente o de la aplicación.

Esta publicación cubre la arquitectura de la integración. En él se explica cómo TrueFoundry AI Gateway ejecuta barreras de protección durante el tiempo de ejecución, cómo el motor de defensa en tiempo de ejecución de Operant se adapta a ese modelo de ejecución y cómo los equipos configuran las reglas dirigidas a modelos específicos, servidores MCP y poblaciones de usuarios.

Por qué la IA de las agencias empresariales necesita dos capas

True Foundry proporciona la capa de control para los sistemas de IA de producción. A través de AI Gateway, los equipos centralizan el enrutamiento de modelos y la gestión de claves, así como el control de acceso, la observabilidad y la gobernanza en todos los flujos de trabajo relacionados con las LLM y las herramientas y los MCP. Cada solicitud fluye a través de una única capa de proxy donde se verifica la identidad, se aplican los límites de velocidad y se capturan los rastros.

IA operante proporciona la capa de defensa en tiempo de ejecución. Su motor 3D Runtime Defense descubre, detecta y defiende contra todos los patrones de ataque de OWASP LLM Top 10 y MITRE ATLAS. AI Gatekeeper se ejecuta de forma nativa en la pila de aplicaciones y aplica la redacción automática en línea de la PII, PCI y PHI, así como de los secretos y las claves de API antes de que los datos crucen cualquier límite. Operant es el único proveedor mencionado en los cinco informes de seguridad de la IA más importantes de Gartner, que abarcan el TriSM y la protección de API y la seguridad de los agentes y pasarelas MCP.

Juntas, las dos soluciones brindan a los equipos una arquitectura de producción limpia. TrueFoundry se encarga de la implementación, el enrutamiento y el control operativo. Operant se encarga de la inspección del tiempo de ejecución, la redacción en línea y la aplicación de las amenazas conductuales. Operant AI Gatekeeper es compatible como proveedor de barreras de primera clase dentro de la puerta de enlace de TrueFoundry con enlaces en barandas llm_input_ y barandales llm_output_ y guardarraíles mcp_tool_pre_invoke_ y guardarraíles mcp_tool_post_invoke_.

La brecha en las implementaciones de agentes de producción

La mayoría de los equipos que crean agentes de IA se centran en lograr la implementación y la confiabilidad correctas. El agente tiene que utilizar las herramientas adecuadas y gestionar el contexto de las conversaciones largas, gestionar los reintentos y escalar entre los usuarios. Este trabajo es necesario, pero no responde a la pregunta de seguridad del tiempo de ejecución.

La seguridad en muchos despliegues de IA de agencias se detiene en el perímetro. Los controles de acceso a la plataforma y las listas de permisos de los servidores MCP, así como los permisos a nivel de herramienta y las credenciales específicas para los sistemas posteriores, están en su lugar. Estos controles son importantes, pero dejan la ruta de los datos sin inspeccionar y el ciclo de razonamiento de los agentes desprotegido.

Las preguntas a las que el perímetro no puede responder incluyen qué datos fluyen realmente hacia el modelo y qué quedan en la respuesta, qué herramientas utiliza el agente y con qué argumentos. Si se recibe un mensaje a través del contexto recuperado, de la respuesta de un servidor MCP o de un resultado de una API externa, el perímetro no sabe si el agente está a punto de actuar en consecuencia. Si el resultado del modelo contiene el correo electrónico de un cliente o una clave secreta de AWS, el perímetro no puede detener la filtración antes de que abandone el entorno.

Barandillas de tiempo de ejecución en la ruta de la puerta de enlace

La idea arquitectónica detrás de esta integración es directa. Si todo el tráfico de modelos, herramientas y MCP ya pasa por la puerta de enlace, entonces la puerta de enlace es el lugar adecuado para aplicar la defensa en tiempo de ejecución. Con Operant conectado al TrueFoundry AI Gateway, los equipos colocan barreras de seguridad en la misma ruta por la que ya se dirige y controla el tráfico de agentes. La evaluación se realiza con el tráfico en tiempo real y no con los rastros revisados después de la ejecución.

Operant AI Gatekeeper se ejecuta como la capa de defensa en tiempo de ejecución. El motor de defensa se implementa de forma nativa en el entorno de la aplicación mediante la instalación de Helm en un solo paso y aplica sus escáneres y su lógica de redacción en su lugar. Como el motor funciona de forma nativa, no es necesaria ninguna llamada externa para tomar una decisión cautelar y todo el flujo de datos permanece dentro del entorno del cliente. Esta es la base de lo que Operant denomina modo privado, en el que los datos confidenciales se redactan al entrar y salir del clúster.

Operant expone las siguientes capacidades de defensa en tiempo de ejecución. Redacción automática en línea identifica y oculta más de cuarenta categorías de datos confidenciales que incluyen claves, tokens y credenciales de PII y PCI y PHI y API antes de que los datos lleguen al modelo o abandonen el entorno. Detección rápida de inyecciones cubre la inyección directa e indirecta a través del contexto recuperado o el resultado de la herramienta. Detección de jailbreak identifica los intentos de eludir la capacitación en seguridad del modelo. Defensa contra la exfiltración de datos supervisa los flujos de salida para detectar el movimiento no autorizado de datos confidenciales. Detección de intoxicación por herramientas está diseñado específicamente para MCP e identifica las descripciones de herramientas utilizadas como armas y los registros de herramientas fraudulentas y los binarios de herramientas comprometidas. Detección de amenazas conductuales marca las desviaciones del propósito comercial definido por cada agente. Controles de identidad no humana aplique la ley de confianza cero a las API y herramientas de llamada de identidades de agentes y servicios.

Para los sistemas de agencia, Operant evalúa no solo un único par de mensajes y respuestas, sino también las invocaciones de la herramienta y las solicitudes de MCP y el contexto de ejecución de varios pasos. Los gráficos de seguridad de la IA muestran los flujos de datos en tiempo real entre las cargas de trabajo y los agentes y las API de la IA, de modo que el motor de defensa tenga el contexto necesario para detectar cuándo un agente supera los límites de confianza establecidos.

Cómo ejecuta la puerta de enlace las barandillas

La puerta de enlace de IA de TrueFoundry se ejecuta en el marco Hono y un solo pod de puerta de enlace gestiona más de 250 solicitudes por segundo en 1 vCPU y 1 GB de RAM con aproximadamente 3 ms de latencia adicional. Los pods Gateway no tienen estado y están vinculados a la CPU, y se escalan horizontalmente hasta alcanzar decenas de miles de RPS mediante pods adicionales. El plano de control y el plano de puerta de enlace están divididos. La configuración, incluidas las reglas de protección, las definiciones de modelos y los límites de velocidad, reside en el plano de control y se sincroniza con los módulos de puerta de enlace a través de NATS. La ruta de solicitud real permanece en la memoria sin llamadas externas más allá del proveedor de LLM.

Las barandillas se ejecutan en cuatro enlaces discretos en el ciclo de vida de la solicitud.

barandas llm_input_ intercepta un mensaje antes de que llegue al modelo. La pasarela envía primero la carga útil de entrada a Operant. Si Operant emite un veredicto de infracción para cualquier detector configurado, la solicitud se bloquea y nunca se llama al LLM. Si Operant se ejecuta en modo mutado, se devuelve la carga útil redactada y la puerta de enlace reenvía la versión enmascarada al modelo. La llamada de protección de entrada se ejecuta al mismo tiempo que la solicitud del modelo para optimizar el tiempo necesario para obtener el primer token, y la llamada modelo se cancela inmediatamente en caso de decisión de bloqueo para evitar que el proveedor incurra en gastos.

barandales llm_output_ se activa después de que el LLM haya respondido, pero antes de que la respuesta se devuelva a la persona que llama. Las barandillas de salida son secuenciales. La puerta de enlace espera el resultado del modelo y lo envía a Operant para que lo escanee antes de entregarlo al cliente. Este es el punto de control para detectar la filtración de información personal identificable y la exposición secreta, así como cualquier intento de filtración de datos que produzca el modelo. La redacción de datos de salida de Operant elimina los datos confidenciales de la respuesta antes de que salgan del entorno.

guardarraíles mcp_tool_pre_invoke_ se activa antes de que el agente ejecute una herramienta. El operante evalúa el nombre de la herramienta y los argumentos, así como la identidad no humana que realiza la llamada. Si la descripción de la herramienta contiene instrucciones insertadas o los argumentos contienen datos confidenciales o la identidad que realiza la llamada funciona fuera de los límites de confianza autorizados, la invocación de la herramienta se bloquea antes de que se produzca cualquier acción en el mundo real. Este es el punto de cumplimiento que detecta el envenenamiento de la herramienta MCP en tiempo de ejecución.

guardarraíles mcp_tool_post_invoke_ se activa después de que la herramienta devuelva su resultado y antes de que ese resultado vuelva al ciclo de razonamiento del agente. Este es el punto de referencia para detectar la inyección rápida e indirecta en los resultados de la herramienta y la fuga de credenciales de los servidores MCP y la información de identificación personal devuelta por las API de nivel superior. Detenerlo aquí evita que el agente actúe en un contexto contaminado.

Cada gancho admite tres estrategias de aplicación. Hacer cumplir bloquea en caso de infracción o error del servicio de barandilla. Aplicar pero ignorar en caso de error bloquea en caso de infracción, pero permite que la solicitud continúe si no se puede acceder al propio servicio de barandilla. Auditoría registra el veredicto y nunca lo bloquea. Cada barandilla también admite dos modos de funcionamiento. Validar el modo produce una decisión de bloqueo o aprobación. Mutar el modo permite al servicio de barandilla modificar el contenido durante el vuelo. Mutate es la forma en que está integrada la redacción automática en línea de Operant. La pasarela reenvía la solicitud a Operant y sustituye la carga útil redactada en la solicitud antes de continuar con el modelo.

La superficie de integración

Operant se configura en el plano de control de TrueFoundry como una integración de barandilla con el punto final de la API para el servicio AI Gatekeeper y las credenciales para la implementación. Como Operant se implementa de forma nativa en el mismo entorno que la puerta de enlace, el punto final suele ser la URL de un servicio local del clúster y la llamada a la barrera de seguridad añade una latencia de red mínima.

Punto final de acceso con IA operante de FieldValueProviderhttps://api.operant.ai/v1/gatekeeper (o URL del servicio local del clúster) Token AuthenticationBearer mediante CLAVE_API_OPERANTEDetectoresinyección_inmediata y fuga de la cárcel y pii y PCI y phi y misterios y exfiltración de datos y envenenamiento por herramientas y anomalía de comportamientoModos de operación Validar y mutar el comportamiento Redacción automática en línea para categorías de datos confidenciales

Una vez que se registra la integración, la puerta de enlace la expone como un selector al que se puede hacer referencia desde cualquier regla de barandilla. Las reglas se configuran mediante un YAML reglas bloquear. Cada regla usa un cuando bloquear con dos condiciones. objetivo coincide en modelo o Servidores MCP o Herramientas MCP o solicitar metadatos. temas coincide con la identidad del usuario o del equipo con en y no está en operadores. A continuación, la regla declara qué integraciones de barandillas deben ejecutarse en cada uno de los cuatro ganchos.

Una regla básica que ejecuta Operant en la entrada y la salida para un modelo de OpenAI utilizado por todos los equipos tiene este aspecto.

nombre: guardrails-control tipo: gateway-guardrails-config reglas: - id: línea base operativa cuando: objetivo: operador: o condiciones: modelo: valores: - openai-main/gpt-4o estado: en asignaturas: operador: y condiciones: en: - equipo: todos barandas llm_input_: - perfil de redacción de operante/operante barandillas llm_output_: - perfil de redacción de operante/operante guardarraíles mcp_tool_pre_invoke_: [] barandas mcp_tool_post_invoke_guardarraíles: []

Una segunda regla que añada el escaneo operante en un servidor MCP utilizado por un equipo de agentes apuntaría al servidor MCP y aplicaría la integración en los ganchos de invocación de la herramienta anteriores y posteriores. Esta es la configuración que detecta el envenenamiento de las herramientas y la filtración de datos a través de la salida de las herramientas. Todas las reglas coincidentes se evalúan juntas y sus conjuntos de barandillas se unen por gancho. Dos reglas a las que se dirigen ambas barandas llm_input_ ambos se ejecutarán en la entrada.

Las anulaciones por solicitud se admiten a través del BARANDAS X-TFY- cabecera. El encabezado contiene un objeto JSON que especifica los selectores de barandilla para cualquier combinación de los cuatro ganchos. Esto permite a los equipos de aplicaciones establecer una política más estricta o permisiva para una llamada específica sin modificar la configuración global.

Todas las decisiones de salvaguardia se capturan en el rastreo de la solicitud. El intervalo incluye el gancho que se activó y el selector de integración, así como el veredicto y la latencia de la llamada de protección y las categorías que coincidieron. Las trazas se emiten de forma asincrónica a través de NATS y se exportan a través de OTEL a cualquier servidor de observabilidad que el equipo haya configurado. El panel de control de Operant muestra los mismos eventos desde su punto de vista, y el gráfico de seguridad de la IA muestra los flujos de datos en tiempo real y la telemetría que bloquea las amenazas.

Resumen de arquitectura

De un extremo a otro, el flujo de solicitudes tiene este aspecto. Un cliente envía una solicitud de finalización de chat o de agente a la pasarela. La puerta de enlace autentica a la persona que llama con las claves de IdP almacenadas en caché y resuelve el identificador del modelo mediante el enrutamiento del modelo virtual. Las reglas de protección coincidentes se evalúan en la memoria y la carga útil de entrada se envía a Operant simultáneamente con la llamada al modelo. Si Operant marca la entrada, la llamada al modelo se cancela y se devuelve un error estructurado. Si Operant devuelve una carga útil redactada, la puerta de enlace reenvía la versión enmascarada al modelo. A continuación, la respuesta del modelo se envía a los detectores de salida de Operant para su redacción de salida antes de la entrega. Para el tráfico de agentes, se aplica la misma lógica a cada invocación de la herramienta MCP y a cada respuesta de la herramienta antes de que vuelva a entrar en el contexto del agente. Cada paso se captura en un espacio de rastreo con el veredicto adjunto.

No es necesario cambiar nada más en la aplicación. No es necesario instalar ningún SDK en el cliente ni mantener ningún middleware de seguridad por servicio. La puerta de enlace ya está en la ruta de solicitud y Operant se conecta a esa ruta de forma nativa en el mismo entorno. El código de cliente compatible con OpenAI existente sigue funcionando sin modificaciones. Los datos confidenciales se ocultan antes de que lleguen al modelo y antes de que abandonen el clúster.

El principio arquitectónico que hace que esto sea limpio es la consolidación de la aplicación de políticas en la capa de puerta de enlace combinada con la redacción de datos en línea en la capa de tiempo de ejecución. Cuando el tráfico de modelos, el tráfico de herramientas y el tráfico de MCP convergen en un único proxy, las barreras de protección configuradas en ese proxy se aplican de manera uniforme en todos los modelos, equipos y agentes sin código por aplicación. El motor de defensa de Operant funciona en línea en el mismo punto y el modelo de enlace de la puerta de enlace le da a Operant acceso a los cuatro puntos de cumplimiento en los que las decisiones de tiempo de ejecución son realmente importantes. Los datos permanecen en el entorno porque Operant opera de forma nativa en la pila, en lugar de recurrir a un servicio de análisis externo.

Comenzar

Obtenga más información sobre Puerta de enlace de IA TrueFoundry y el Plataforma Operant AI Gatekeeper. Conecte Operant en la configuración de barreras de TrueFoundry y haga referencia al selector de integración desde cualquier regla que se dirija a sus modelos o servidores MCP.

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase

¿Cómo se puede evitar que los costos de GenAI se disparen a gran escala?

Gartner report on best practices for optimizing generative and agentic AI costs and projected statistics.

Acceda al informe completo de 2026

Gartner Hype Cycle for Platform Engineering 2026

Access Full 2026 Report

One Layer of Control for All AI

Route and govern model and tool traffic with a centralized AI Gateway

Book Demo

Tabla de contenido

Enlace de texto

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

Boyu Wang

Integración de la IA operante con TrueFoundry

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Por qué la IA de las agencias empresariales necesita dos capas

La brecha en las implementaciones de agentes de producción

Barandillas de tiempo de ejecución en la ruta de la puerta de enlace

Cómo ejecuta la puerta de enlace las barandillas

La superficie de integración

Resumen de arquitectura

Comenzar

La forma más rápida de crear, gobernar y escalar su IA

One Layer of Control for All AI

Controle, implemente y rastree la IA en su propia infraestructura

La forma más rápida de crear, gobernar y escalar su IA

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

Las mejores herramientas de observación de LLM

Herramientas de gestión rápida para sistemas de IA de producción

Blogs recientes

Decoding the Gartner® Hype Cycle™ for Platform Engineering 2026

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

What Is Multi-Agent Orchestration? A Practical Guide for Enterprise Teams

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Agent Platforms in 2026: Compared for Enterprise and Developer Teams

PII Redaction at the Gateway vs. the Application Layer: A Performance and Correctness Analysis

Context Engineering at the Gateway Layer: How Session Management Enables Long-Running Agents

Separating Agent Logic from Runtime: The Case for a Managed Agent Layer

Converting an OpenAPI Spec to an MCP Server: Architecture and Edge Cases

How to Test AI-Powered Systems and LLM Workflows in Production-Like Environments

Implementing SCIM at TrueFoundry: Automating User & Team Management with Okta

Real-Time LLM Cost Attribution: From Token Counts to Team Budgets

OpenTelemetry for LLMs: How we instrument a multi-provider AI gateway

Introducing Agent Gateway: A Unified Control Plane for Enterprise AI Agents

Provider-Agnostic Prompt Caching: How an LLM Gateway Normalizes Anthropic, OpenAI, and Bedrock

Blog

Integración de la IA operante con TrueFoundry

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Por qué la IA de las agencias empresariales necesita dos capas

La brecha en las implementaciones de agentes de producción

Barandillas de tiempo de ejecución en la ruta de la puerta de enlace

Cómo ejecuta la puerta de enlace las barandillas

La superficie de integración

Resumen de arquitectura

Comenzar

La forma más rápida de crear, gobernar y escalar su IA

One Layer of Control for All AI

Controle, implemente y rastree la IA en su propia infraestructura

La forma más rápida de crear, gobernar y escalar su IA

Descubra más

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

Las mejores herramientas de observación de LLM

Herramientas de gestión rápida para sistemas de IA de producción

Blogs recientes

Decoding the Gartner® Hype Cycle™ for Platform Engineering 2026

Best AI Security Tools in 2026: What They Protect and Where They Fall Short

What Is Multi-Agent Orchestration? A Practical Guide for Enterprise Teams

What Is a Production System in AI? A Complete Guide for Enterprise Teams

Best AI Agent Platforms in 2026: Compared for Enterprise and Developer Teams

PII Redaction at the Gateway vs. the Application Layer: A Performance and Correctness Analysis

Context Engineering at the Gateway Layer: How Session Management Enables Long-Running Agents

Separating Agent Logic from Runtime: The Case for a Managed Agent Layer

Converting an OpenAPI Spec to an MCP Server: Architecture and Edge Cases

How to Test AI-Powered Systems and LLM Workflows in Production-Like Environments

Implementing SCIM at TrueFoundry: Automating User & Team Management with Okta

Real-Time LLM Cost Attribution: From Token Counts to Team Budgets

OpenTelemetry for LLMs: How we instrument a multi-provider AI gateway

Introducing Agent Gateway: A Unified Control Plane for Enterprise AI Agents

Provider-Agnostic Prompt Caching: How an LLM Gateway Normalizes Anthropic, OpenAI, and Bedrock

Blog

Suscríbase a nuestro boletín