Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

Evaluación comparativa de los proveedores de LLM Guardarail: una comparación basada en datos

Por Kashish Kumar

Actualizado: February 20, 2026

Resumir con

Por qué las aplicaciones de LLM necesitan barandas

Las solicitudes de LLM de producción se enfrentan a una superficie de riesgo cada vez mayor. Los usuarios pueden filtrar inadvertidamente información de identificación personal (PII) a través de entradas conversacionales. Las modelos pueden generar contenido tóxico, violento o sexualmente explícito que infrinja las políticas de la plataforma. Los usuarios adversarios crean ataques de inyección rápida diseñados para anular las instrucciones del sistema, extraer indicaciones confidenciales o eludir por completo los filtros de seguridad.

Las consecuencias no son hipotéticas. Una filtración de información personal puede provocar la adopción de medidas reglamentarias en virtud del RGPD, la CCPA o la HIPAA. Los productos tóxicos erosionan la confianza de los usuarios y crean responsabilidad para la marca. Una inyección rápida exitosa puede dejar al descubierto las indicaciones del sistema propietario o hacer que el modelo ejecute acciones no deseadas.

Las instrucciones rápidas de ingeniería y sistema proporcionan una primera capa de defensa, pero son insuficientes por sí solas. Se puede obligar a los modelos a superar las barreras del nivel de instrucción mediante ataques de codificación, escenarios de juegos de rol o manipulando el contexto. Sistemas de barandillas automatizados (clasificadores diseñados específicamente que inspeccionan las entradas y salidas en tiempo real) brindan la defensa en profundidad que requieren las implementaciones de producción.

El desafío: el mercado ahora incluye más de una docena de proveedores de barandillas, cada uno con diferentes puntos fuertes, perfiles de latencia y brechas de cobertura. ¿Cómo eliges el más adecuado para tu caso de uso?

TrueFoundry Guardrails: una puerta de enlace unificada

True Foundry Puerta de enlace de IA resúmenes múltiples barandilla proveedores detrás de una única API compatible con OpenAI (docs). Los equipos se integran una vez con la /v1/punto final de chat/finalizaciones y puede intercambiar proveedores mediante la configuración, sin necesidad de cambiar el código.

La pasarela admite dos etapas de evaluación. Las barreras de protección de la fase de entrada inspeccionan los mensajes de los usuarios antes de que lleguen al LLM, lo que bloquea las inyecciones rápidas, la PII o el contenido dañino. Las barreras de protección de la fase de salida inspeccionan las respuestas de los modelos antes de que lleguen al usuario y detectan alucinaciones, productos tóxicos o datos confidenciales filtrados.

TrueFoundry organiza las barandillas en cinco tipos de tareas:

Task Mode Stage Docs
PII Detection Mutate (redact) Input + Output Azure PII
Content Moderation Validate (block) Input + Output Azure Content Safety
Prompt Injection Validate (block) Input + Output Palo Alto Prisma
Hallucination Detection Validate (block) Output only Hallucination Detection
Topic Detection Validate (block) Output only Configure Guardrails

Este estudio comparativo se centra en las tres primeras tareas: la detección de PII, la moderación de contenido y la inyección inmediata, que tienen la cobertura de proveedores más amplia y los conjuntos de datos de evaluación más maduros. Diseño de conjuntos de datos de evaluación Creamos conjuntos de datos de evaluación equilibrados por categorías de 400 muestras por tarea, diseñados para realizar comparaciones estadísticamente significativas con intervalos de confianza ajustados. Cada conjunto de datos mantiene una división de aproximadamente 50/50 entre muestras positivas (dañinas o que contienen PII) y negativas (seguras y limpias) para garantizar una evaluación equilibrada de las tasas de detección y de falsos positivos.

Detección de PII

Category Count Description
Email40Email addresses in various formats
PhoneNumber25US/international phone formats
SSN25Social Security Numbers
Person25Personal names with context
Address25Physical mailing addresses
CreditCard25Credit/debit card numbers
IPAddress25IPv4 and IPv6 addresses
Mixed25Multiple PII types per sample
Clean185No PII present

Moderación de contenido

Category Count Description
Hate39Hate speech and discrimination
SelfHarm33Self-harm and suicide content
Illegal33Illegal activity instructions
Harassment31Targeted harassment and bullying
Violence25Threats and violent content
Other1Categories with <5 samples, merged for statistical reliability
Safe238Benign content

Inyección inmediata

Category Count Description
DirectInjection43Explicit instruction override attempts
Jailbreak40Persona/mode-switching attacks (DAN, etc.)
IndirectInjection32Hidden instructions in structured data
EncodingAttack22Base64, hex, ROT13 encoded payloads
Roleplay21Creative fiction framing to bypass filters
ContextManipulation21Conversation history exploitation
SystemPromptExtraction21Attempts to extract system prompts
Benign200Legitimate technical questions

Decisiones de diseño. Cada conjunto de datos mantiene aproximadamente un 50% de muestras seguras y limpias para medir las tasas de falsos positivos, una barrera que indica que todo es inútil. Las categorías con menos de 5 muestras se fusionaron en la categoría «Otras» para garantizar la confiabilidad estadística. Cada muestra contiene etiquetas de verdad básicas para cada proveedor (expected_triggers) porque los proveedores pueden discrepar legítimamente en casos extremos. Por ejemplo, un ejemplo en el que se discuta «cómo funcionan las barreras de seguridad de la IA» es seguro, pero toca el lenguaje relacionado con la seguridad, y no todos los proveedores manejan esta distinción de manera idéntica. Todos los ejemplos se seleccionaron a mano a nivel local en lugar de extraerse de puntos de referencia externos. Esto garantiza un control preciso sobre el equilibrio de las categorías, la distribución de las dificultades y la precisión de la verdad sobre el terreno.

Metodología de evaluación

Todos los proveedores se evaluaron comparándolos con conjuntos de datos idénticos a través del TrueFoundry AI Gateway, lo que garantizó una comparación justa sin fugas de datos por proveedor.

Canalización de evaluación

Carga de conjuntos de datos: los conjuntos de datos JSONL se cargan con detección automática de formato (esquema unificado frente a esquema heredado) 2. Evaluación asíncrona: las muestras se envían de forma simultánea mediante una regulación basada en semáforos (50 solicitudes paralelas) a través del punto final /v1/chat/completions 3, compatible con OpenAI. Clasificación binaria: cada muestra produce un resultado binario: se activa la barandilla (verdadera) o no (falsa), en comparación con la verdad básica por proveedor4. Agregación de métricas: las métricas de clasificación estándar se calculan en todas las muestras

Métricas

Metric What it measures
Precision Of everything the guardrail flagged, how much was actually harmful
Recall Of all truly harmful content, how much did the guardrail catch
F1 Score Single score balancing precision and recall — the primary comparison metric
Accuracy Overall correctness across both harmful and safe samples
95% Confidence Interval Wilson score interval on accuracy, quantifying measurement uncertainty

La puntuación de F1 es la principal métrica de clasificación porque equilibra el equilibrio entre la precisión (evitar falsas alarmas) y la recuperación (detectar amenazas reales). Una barrera de protección de alta precisión y baja capacidad de recuperación evita las amenazas. Una barrera de protección de alta capacidad de recuperación y baja precisión bloquea a los usuarios legítimos.

Con 400 muestras por tarea, los intervalos de confianza de la puntuación de Wilson dan un margen de ± 0,03 a 0,05 con un 95% de confianza, lo suficientemente ajustado como para distinguir diferencias de rendimiento significativas entre los proveedores.

Seguimiento de latencia

Realizamos un seguimiento de la latencia en dos niveles:

• Latencia del lado del cliente: tiempo de extremo a extremo medido en el arnés de evaluación, incluido el recorrido de ida y vuelta de la red

• Latencia del lado del servidor: solo el tiempo de procesamiento de Guardrail, extraído de las trazas de TrueFoundry mediante la API Spans (tfy.guardrail.metric.latency_in_ms)

La latencia del lado del servidor aísla el propio tiempo de procesamiento de la barandilla de la sobrecarga de la red, lo que proporciona una comparación más precisa entre los proveedores.

Resultados de la comparación de proveedores

Detección de PII

Provider Precision Recall F1 Score Accuracy 95% CI Latency
Azure PII 1.000 0.865 0.928 0.928 [0.898, 0.949] 52.3ms

Azure PII proporciona una detección detallada a nivel de entidad con categorías de PII configurables (correo electrónico, número de teléfono, número de seguro social, dirección, número de tarjeta de crédito, dirección IP, persona) y procesamiento con reconocimiento de idioma. Logra una precisión perfecta: cada entidad marcada es una información de identificación personal genuina, con un valor de 0,865, que se evalúa en modo de mutación, en el que la PII detectada se redacta en lugar de bloquearse directamente. Las detecciones no detectadas (intervalo de recuperación de 0,135) tienden a concentrarse en contextos ambiguos en los que las entidades de la PII aparecen en formatos no estándar.

Moderación de contenido

Provider Precision Recall F1 Score Accuracy 95% CI Latency
OpenAI Moderation 0.922 0.877 0.899 0.920 [0.889, 0.943] 191.5ms
Azure Content Safety 0.796 0.722 0.757 0.812 [0.771, 0.847] 52.2ms
PromptFoo 0.617 0.568 0.592 0.683 [0.636, 0.727] 1118.2ms

La moderación de contenido muestra la diferenciación más clara entre los proveedores. El último modelo de OpenAI, basado en la moderación omnívora, lidera con una puntuación de 0.899 en la F1, lo que logra un sólido equilibrio entre precisión y memoria en las categorías de odio, violencia, autolesión y acoso. Azure Content Safety apuesta por una precisión más baja por tiempos de respuesta significativamente más rápidos (52 ms frente a 192 ms), lo que lo convierte en una opción viable para las implementaciones en las que la latencia es muy importante. PromptFoo está a la zaga en cuanto a eficacia y latencia en esta evaluación, y sus tiempos de respuesta de 1,1 segundos reflejan su enfoque de detección basado en la LLM.

Inyección inmediata

Provider Precision Recall F1 Score Accuracy 95% CI Latency
Pangea 0.750 0.990 0.853 0.830 [0.790, 0.864] 358.7ms

Pangea demuestra una estrategia de detección de alta recuperación, que detecta 0,990 de los intentos de inyección a costa de más falsos positivos (precisión de 0,750). Esto significa que rara vez pasa por alto un ataque, pero de vez en cuando señala preguntas legítimas relacionadas con la seguridad. Las muestras seguras de este conjunto de datos guardan deliberadamente relación con la seguridad («¿Cómo funcionan las barandillas de seguridad artificial?») para probar las tasas de falsos positivos, lo que explica en parte la brecha de precisión. Para las aplicaciones en las que no recibir un ataque por inyección conlleva un mayor riesgo que las falsas alarmas ocasionales, el perfil orientado a la recuperación de Pangea es adecuado.

Conclusiones clave

Ningún proveedor gana en todas las tareas. El panorama de las barreras es especializado: los proveedores optimizados para la detección de la PII pueden tener un rendimiento inferior en el caso de la inyección inmediata, y viceversa. Esto es de esperar: cada tarea exige estrategias de detección fundamentalmente diferentes.

La precisión y la memoria cuentan historias diferentes. Un proveedor con alta precisión pero poca capacidad de recuperación es conservador: rara vez genera falsas alarmas, pero pasa por alto las amenazas reales. Lo contrario lo detecta todo, pero cansa a los usuarios con falsos positivos. El equilibrio adecuado depende de la tolerancia al riesgo de la aplicación.

Una puerta de enlace unificada permite una selección informada. Al evaluar a todos los proveedores a través de un único punto de integración, los equipos pueden compararlos directamente con sus propios datos y seleccionar al mejor proveedor para cada tarea, o combinar varios proveedores para defenderlos en profundidad. Los equipos también pueden crear diseños personalizados barandas para necesidades específicas de un dominio.

La evaluación de tareas específicas no es negociable. Los «puntajes de seguridad» genéricos ocultan las diferencias fundamentales en el comportamiento de los proveedores. Los equipos solo pueden tomar decisiones de adquisición informadas si se comparan con conjuntos de datos seleccionados y equilibrados por categorías y con datos fiables sobre cada proveedor. El marco de evaluación comparativa que se describe aquí (400 muestras con equilibrio de categorías por tarea, intervalos de confianza con la puntuación de Wilson, etiquetas por proveedor, seguimiento de doble latencia y métricas de clasificación estándar) proporciona una metodología reproducible para cualquier equipo de evaluación soluciones de barandillas.

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro

Descubra más

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Mercados de agentes de IA: el futuro de la automatización de nivel empresarial

No se ha encontrado ningún artículo.
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 minutos de lectura

¿Qué es AI Gateway? Conceptos básicos y guía

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Aprovechar la puerta de enlace de IA de TrueFoundry para el cumplimiento de FIPS

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Integración de GraySwan con TrueFoundry

No se ha encontrado ningún artículo.
No se ha encontrado ningún artículo.

Blogs recientes

Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto