Evaluación comparativa de los proveedores de LLM Guardarail: una comparación basada en datos

Por Kashish Kumar

Actualizado: February 20, 2026

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

Por qué las aplicaciones de LLM necesitan barandas

Las solicitudes de LLM de producción se enfrentan a una superficie de riesgo cada vez mayor. Los usuarios pueden filtrar inadvertidamente información de identificación personal (PII) a través de entradas conversacionales. Las modelos pueden generar contenido tóxico, violento o sexualmente explícito que infrinja las políticas de la plataforma. Los usuarios adversarios crean ataques de inyección rápida diseñados para anular las instrucciones del sistema, extraer indicaciones confidenciales o eludir por completo los filtros de seguridad.

Las consecuencias no son hipotéticas. Una filtración de información personal puede provocar la adopción de medidas reglamentarias en virtud del RGPD, la CCPA o la HIPAA. Los productos tóxicos erosionan la confianza de los usuarios y crean responsabilidad para la marca. Una inyección rápida exitosa puede dejar al descubierto las indicaciones del sistema propietario o hacer que el modelo ejecute acciones no deseadas.

Las instrucciones rápidas de ingeniería y sistema proporcionan una primera capa de defensa, pero son insuficientes por sí solas. Se puede obligar a los modelos a superar las barreras del nivel de instrucción mediante ataques de codificación, escenarios de juegos de rol o manipulando el contexto. Sistemas de barandillas automatizados (clasificadores diseñados específicamente que inspeccionan las entradas y salidas en tiempo real) brindan la defensa en profundidad que requieren las implementaciones de producción.

El desafío: el mercado ahora incluye más de una docena de proveedores de barandillas, cada uno con diferentes puntos fuertes, perfiles de latencia y brechas de cobertura. ¿Cómo eliges el más adecuado para tu caso de uso?

TrueFoundry Guardrails: una puerta de enlace unificada

True Foundry Puerta de enlace de IA resúmenes múltiples barandilla proveedores detrás de una única API compatible con OpenAI (docs). Los equipos se integran una vez con la /v1/punto final de chat/finalizaciones y puede intercambiar proveedores mediante la configuración, sin necesidad de cambiar el código.

La pasarela admite dos etapas de evaluación. Las barreras de protección de la fase de entrada inspeccionan los mensajes de los usuarios antes de que lleguen al LLM, lo que bloquea las inyecciones rápidas, la PII o el contenido dañino. Las barreras de protección de la fase de salida inspeccionan las respuestas de los modelos antes de que lleguen al usuario y detectan alucinaciones, productos tóxicos o datos confidenciales filtrados.

TrueFoundry organiza las barandillas en cinco tipos de tareas:

Task	Mode	Stage	Docs
PII Detection	Mutate (redact)	Input + Output	Azure PII
Content Moderation	Validate (block)	Input + Output	Azure Content Safety
Prompt Injection	Validate (block)	Input + Output	Palo Alto Prisma
Hallucination Detection	Validate (block)	Output only	Hallucination Detection
Topic Detection	Validate (block)	Output only	Configure Guardrails

Este estudio comparativo se centra en las tres primeras tareas: la detección de PII, la moderación de contenido y la inyección inmediata, que tienen la cobertura de proveedores más amplia y los conjuntos de datos de evaluación más maduros. Diseño de conjuntos de datos de evaluación Creamos conjuntos de datos de evaluación equilibrados por categorías de 400 muestras por tarea, diseñados para realizar comparaciones estadísticamente significativas con intervalos de confianza ajustados. Cada conjunto de datos mantiene una división de aproximadamente 50/50 entre muestras positivas (dañinas o que contienen PII) y negativas (seguras y limpias) para garantizar una evaluación equilibrada de las tasas de detección y de falsos positivos.

Detección de PII

Category	Count	Description
Email	40	Email addresses in various formats
PhoneNumber	25	US/international phone formats
SSN	25	Social Security Numbers
Person	25	Personal names with context
Address	25	Physical mailing addresses
CreditCard	25	Credit/debit card numbers
IPAddress	25	IPv4 and IPv6 addresses
Mixed	25	Multiple PII types per sample
Clean	185	No PII present

Moderación de contenido

Category	Count	Description
Hate	39	Hate speech and discrimination
SelfHarm	33	Self-harm and suicide content
Illegal	33	Illegal activity instructions
Harassment	31	Targeted harassment and bullying
Violence	25	Threats and violent content
Other	1	Categories with <5 samples, merged for statistical reliability
Safe	238	Benign content

Inyección inmediata

Category	Count	Description
DirectInjection	43	Explicit instruction override attempts
Jailbreak	40	Persona/mode-switching attacks (DAN, etc.)
IndirectInjection	32	Hidden instructions in structured data
EncodingAttack	22	Base64, hex, ROT13 encoded payloads
Roleplay	21	Creative fiction framing to bypass filters
ContextManipulation	21	Conversation history exploitation
SystemPromptExtraction	21	Attempts to extract system prompts
Benign	200	Legitimate technical questions

Decisiones de diseño. Cada conjunto de datos mantiene aproximadamente un 50% de muestras seguras y limpias para medir las tasas de falsos positivos, una barrera que indica que todo es inútil. Las categorías con menos de 5 muestras se fusionaron en la categoría «Otras» para garantizar la confiabilidad estadística. Cada muestra contiene etiquetas de verdad básicas para cada proveedor (expected_triggers) porque los proveedores pueden discrepar legítimamente en casos extremos. Por ejemplo, un ejemplo en el que se discuta «cómo funcionan las barreras de seguridad de la IA» es seguro, pero toca el lenguaje relacionado con la seguridad, y no todos los proveedores manejan esta distinción de manera idéntica. Todos los ejemplos se seleccionaron a mano a nivel local en lugar de extraerse de puntos de referencia externos. Esto garantiza un control preciso sobre el equilibrio de las categorías, la distribución de las dificultades y la precisión de la verdad sobre el terreno.

Metodología de evaluación

Todos los proveedores se evaluaron comparándolos con conjuntos de datos idénticos a través del TrueFoundry AI Gateway, lo que garantizó una comparación justa sin fugas de datos por proveedor.

Canalización de evaluación

Carga de conjuntos de datos: los conjuntos de datos JSONL se cargan con detección automática de formato (esquema unificado frente a esquema heredado) 2. Evaluación asíncrona: las muestras se envían de forma simultánea mediante una regulación basada en semáforos (50 solicitudes paralelas) a través del punto final /v1/chat/completions 3, compatible con OpenAI. Clasificación binaria: cada muestra produce un resultado binario: se activa la barandilla (verdadera) o no (falsa), en comparación con la verdad básica por proveedor4. Agregación de métricas: las métricas de clasificación estándar se calculan en todas las muestras

Métricas

Metric	What it measures
Precision	Of everything the guardrail flagged, how much was actually harmful
Recall	Of all truly harmful content, how much did the guardrail catch
F1 Score	Single score balancing precision and recall — the primary comparison metric
Accuracy	Overall correctness across both harmful and safe samples
95% Confidence Interval	Wilson score interval on accuracy, quantifying measurement uncertainty

La puntuación de F1 es la principal métrica de clasificación porque equilibra el equilibrio entre la precisión (evitar falsas alarmas) y la recuperación (detectar amenazas reales). Una barrera de protección de alta precisión y baja capacidad de recuperación evita las amenazas. Una barrera de protección de alta capacidad de recuperación y baja precisión bloquea a los usuarios legítimos.

Con 400 muestras por tarea, los intervalos de confianza de la puntuación de Wilson dan un margen de ± 0,03 a 0,05 con un 95% de confianza, lo suficientemente ajustado como para distinguir diferencias de rendimiento significativas entre los proveedores.

Seguimiento de latencia

Realizamos un seguimiento de la latencia en dos niveles:

• Latencia del lado del cliente: tiempo de extremo a extremo medido en el arnés de evaluación, incluido el recorrido de ida y vuelta de la red

• Latencia del lado del servidor: solo el tiempo de procesamiento de Guardrail, extraído de las trazas de TrueFoundry mediante la API Spans (tfy.guardrail.metric.latency_in_ms)

La latencia del lado del servidor aísla el propio tiempo de procesamiento de la barandilla de la sobrecarga de la red, lo que proporciona una comparación más precisa entre los proveedores.

Resultados de la comparación de proveedores

Detección de PII

Provider	Precision	Recall	F1 Score	Accuracy	95% CI	Latency
Azure PII	1.000	0.865	0.928	0.928	[0.898, 0.949]	52.3ms

Azure PII proporciona una detección detallada a nivel de entidad con categorías de PII configurables (correo electrónico, número de teléfono, número de seguro social, dirección, número de tarjeta de crédito, dirección IP, persona) y procesamiento con reconocimiento de idioma. Logra una precisión perfecta: cada entidad marcada es una información de identificación personal genuina, con un valor de 0,865, que se evalúa en modo de mutación, en el que la PII detectada se redacta en lugar de bloquearse directamente. Las detecciones no detectadas (intervalo de recuperación de 0,135) tienden a concentrarse en contextos ambiguos en los que las entidades de la PII aparecen en formatos no estándar.

Moderación de contenido

Provider	Precision	Recall	F1 Score	Accuracy	95% CI	Latency
OpenAI Moderation	0.922	0.877	0.899	0.920	[0.889, 0.943]	191.5ms
Azure Content Safety	0.796	0.722	0.757	0.812	[0.771, 0.847]	52.2ms
PromptFoo	0.617	0.568	0.592	0.683	[0.636, 0.727]	1118.2ms

La moderación de contenido muestra la diferenciación más clara entre los proveedores. El último modelo de OpenAI, basado en la moderación omnívora, lidera con una puntuación de 0.899 en la F1, lo que logra un sólido equilibrio entre precisión y memoria en las categorías de odio, violencia, autolesión y acoso. Azure Content Safety apuesta por una precisión más baja por tiempos de respuesta significativamente más rápidos (52 ms frente a 192 ms), lo que lo convierte en una opción viable para las implementaciones en las que la latencia es muy importante. PromptFoo está a la zaga en cuanto a eficacia y latencia en esta evaluación, y sus tiempos de respuesta de 1,1 segundos reflejan su enfoque de detección basado en la LLM.

Inyección inmediata

Provider	Precision	Recall	F1 Score	Accuracy	95% CI	Latency
Pangea	0.750	0.990	0.853	0.830	[0.790, 0.864]	358.7ms

Pangea demuestra una estrategia de detección de alta recuperación, que detecta 0,990 de los intentos de inyección a costa de más falsos positivos (precisión de 0,750). Esto significa que rara vez pasa por alto un ataque, pero de vez en cuando señala preguntas legítimas relacionadas con la seguridad. Las muestras seguras de este conjunto de datos guardan deliberadamente relación con la seguridad («¿Cómo funcionan las barandillas de seguridad artificial?») para probar las tasas de falsos positivos, lo que explica en parte la brecha de precisión. Para las aplicaciones en las que no recibir un ataque por inyección conlleva un mayor riesgo que las falsas alarmas ocasionales, el perfil orientado a la recuperación de Pangea es adecuado.

Conclusiones clave

Ningún proveedor gana en todas las tareas. El panorama de las barreras es especializado: los proveedores optimizados para la detección de la PII pueden tener un rendimiento inferior en el caso de la inyección inmediata, y viceversa. Esto es de esperar: cada tarea exige estrategias de detección fundamentalmente diferentes.

La precisión y la memoria cuentan historias diferentes. Un proveedor con alta precisión pero poca capacidad de recuperación es conservador: rara vez genera falsas alarmas, pero pasa por alto las amenazas reales. Lo contrario lo detecta todo, pero cansa a los usuarios con falsos positivos. El equilibrio adecuado depende de la tolerancia al riesgo de la aplicación.

Una puerta de enlace unificada permite una selección informada. Al evaluar a todos los proveedores a través de un único punto de integración, los equipos pueden compararlos directamente con sus propios datos y seleccionar al mejor proveedor para cada tarea, o combinar varios proveedores para defenderlos en profundidad. Los equipos también pueden crear diseños personalizados barandas para necesidades específicas de un dominio.

La evaluación de tareas específicas no es negociable. Los «puntajes de seguridad» genéricos ocultan las diferencias fundamentales en el comportamiento de los proveedores. Los equipos solo pueden tomar decisiones de adquisición informadas si se comparan con conjuntos de datos seleccionados y equilibrados por categorías y con datos fiables sobre cada proveedor. El marco de evaluación comparativa que se describe aquí (400 muestras con equilibrio de categorías por tarea, intervalos de confianza con la puntuación de Wilson, etiquetas por proveedor, seguimiento de doble latencia y métricas de clasificación estándar) proporciona una metodología reproducible para cualquier equipo de evaluación soluciones de barandillas.

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora