Evaluación comparativa de los proveedores de LLM Guardarail: una comparación basada en datos

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
Por qué las aplicaciones de LLM necesitan barandas
Las solicitudes de LLM de producción se enfrentan a una superficie de riesgo cada vez mayor. Los usuarios pueden filtrar inadvertidamente información de identificación personal (PII) a través de entradas conversacionales. Las modelos pueden generar contenido tóxico, violento o sexualmente explícito que infrinja las políticas de la plataforma. Los usuarios adversarios crean ataques de inyección rápida diseñados para anular las instrucciones del sistema, extraer indicaciones confidenciales o eludir por completo los filtros de seguridad.
Las consecuencias no son hipotéticas. Una filtración de información personal puede provocar la adopción de medidas reglamentarias en virtud del RGPD, la CCPA o la HIPAA. Los productos tóxicos erosionan la confianza de los usuarios y crean responsabilidad para la marca. Una inyección rápida exitosa puede dejar al descubierto las indicaciones del sistema propietario o hacer que el modelo ejecute acciones no deseadas.
Las instrucciones rápidas de ingeniería y sistema proporcionan una primera capa de defensa, pero son insuficientes por sí solas. Se puede obligar a los modelos a superar las barreras del nivel de instrucción mediante ataques de codificación, escenarios de juegos de rol o manipulando el contexto. Sistemas de barandillas automatizados (clasificadores diseñados específicamente que inspeccionan las entradas y salidas en tiempo real) brindan la defensa en profundidad que requieren las implementaciones de producción.
El desafío: el mercado ahora incluye más de una docena de proveedores de barandillas, cada uno con diferentes puntos fuertes, perfiles de latencia y brechas de cobertura. ¿Cómo eliges el más adecuado para tu caso de uso?
TrueFoundry Guardrails: una puerta de enlace unificada
True Foundry Puerta de enlace de IA resúmenes múltiples barandilla proveedores detrás de una única API compatible con OpenAI (docs). Los equipos se integran una vez con la /v1/punto final de chat/finalizaciones y puede intercambiar proveedores mediante la configuración, sin necesidad de cambiar el código.
La pasarela admite dos etapas de evaluación. Las barreras de protección de la fase de entrada inspeccionan los mensajes de los usuarios antes de que lleguen al LLM, lo que bloquea las inyecciones rápidas, la PII o el contenido dañino. Las barreras de protección de la fase de salida inspeccionan las respuestas de los modelos antes de que lleguen al usuario y detectan alucinaciones, productos tóxicos o datos confidenciales filtrados.
TrueFoundry organiza las barandillas en cinco tipos de tareas:
Este estudio comparativo se centra en las tres primeras tareas: la detección de PII, la moderación de contenido y la inyección inmediata, que tienen la cobertura de proveedores más amplia y los conjuntos de datos de evaluación más maduros. Diseño de conjuntos de datos de evaluación Creamos conjuntos de datos de evaluación equilibrados por categorías de 400 muestras por tarea, diseñados para realizar comparaciones estadísticamente significativas con intervalos de confianza ajustados. Cada conjunto de datos mantiene una división de aproximadamente 50/50 entre muestras positivas (dañinas o que contienen PII) y negativas (seguras y limpias) para garantizar una evaluación equilibrada de las tasas de detección y de falsos positivos.
Detección de PII
Moderación de contenido
Inyección inmediata
Decisiones de diseño. Cada conjunto de datos mantiene aproximadamente un 50% de muestras seguras y limpias para medir las tasas de falsos positivos, una barrera que indica que todo es inútil. Las categorías con menos de 5 muestras se fusionaron en la categoría «Otras» para garantizar la confiabilidad estadística. Cada muestra contiene etiquetas de verdad básicas para cada proveedor (expected_triggers) porque los proveedores pueden discrepar legítimamente en casos extremos. Por ejemplo, un ejemplo en el que se discuta «cómo funcionan las barreras de seguridad de la IA» es seguro, pero toca el lenguaje relacionado con la seguridad, y no todos los proveedores manejan esta distinción de manera idéntica. Todos los ejemplos se seleccionaron a mano a nivel local en lugar de extraerse de puntos de referencia externos. Esto garantiza un control preciso sobre el equilibrio de las categorías, la distribución de las dificultades y la precisión de la verdad sobre el terreno.
Metodología de evaluación
Todos los proveedores se evaluaron comparándolos con conjuntos de datos idénticos a través del TrueFoundry AI Gateway, lo que garantizó una comparación justa sin fugas de datos por proveedor.
Canalización de evaluación
Carga de conjuntos de datos: los conjuntos de datos JSONL se cargan con detección automática de formato (esquema unificado frente a esquema heredado) 2. Evaluación asíncrona: las muestras se envían de forma simultánea mediante una regulación basada en semáforos (50 solicitudes paralelas) a través del punto final /v1/chat/completions 3, compatible con OpenAI. Clasificación binaria: cada muestra produce un resultado binario: se activa la barandilla (verdadera) o no (falsa), en comparación con la verdad básica por proveedor4. Agregación de métricas: las métricas de clasificación estándar se calculan en todas las muestras
Métricas
La puntuación de F1 es la principal métrica de clasificación porque equilibra el equilibrio entre la precisión (evitar falsas alarmas) y la recuperación (detectar amenazas reales). Una barrera de protección de alta precisión y baja capacidad de recuperación evita las amenazas. Una barrera de protección de alta capacidad de recuperación y baja precisión bloquea a los usuarios legítimos.
Con 400 muestras por tarea, los intervalos de confianza de la puntuación de Wilson dan un margen de ± 0,03 a 0,05 con un 95% de confianza, lo suficientemente ajustado como para distinguir diferencias de rendimiento significativas entre los proveedores.
Seguimiento de latencia
Realizamos un seguimiento de la latencia en dos niveles:
• Latencia del lado del cliente: tiempo de extremo a extremo medido en el arnés de evaluación, incluido el recorrido de ida y vuelta de la red
• Latencia del lado del servidor: solo el tiempo de procesamiento de Guardrail, extraído de las trazas de TrueFoundry mediante la API Spans (tfy.guardrail.metric.latency_in_ms)
La latencia del lado del servidor aísla el propio tiempo de procesamiento de la barandilla de la sobrecarga de la red, lo que proporciona una comparación más precisa entre los proveedores.
Resultados de la comparación de proveedores
Detección de PII
Azure PII proporciona una detección detallada a nivel de entidad con categorías de PII configurables (correo electrónico, número de teléfono, número de seguro social, dirección, número de tarjeta de crédito, dirección IP, persona) y procesamiento con reconocimiento de idioma. Logra una precisión perfecta: cada entidad marcada es una información de identificación personal genuina, con un valor de 0,865, que se evalúa en modo de mutación, en el que la PII detectada se redacta en lugar de bloquearse directamente. Las detecciones no detectadas (intervalo de recuperación de 0,135) tienden a concentrarse en contextos ambiguos en los que las entidades de la PII aparecen en formatos no estándar.
Moderación de contenido
La moderación de contenido muestra la diferenciación más clara entre los proveedores. El último modelo de OpenAI, basado en la moderación omnívora, lidera con una puntuación de 0.899 en la F1, lo que logra un sólido equilibrio entre precisión y memoria en las categorías de odio, violencia, autolesión y acoso. Azure Content Safety apuesta por una precisión más baja por tiempos de respuesta significativamente más rápidos (52 ms frente a 192 ms), lo que lo convierte en una opción viable para las implementaciones en las que la latencia es muy importante. PromptFoo está a la zaga en cuanto a eficacia y latencia en esta evaluación, y sus tiempos de respuesta de 1,1 segundos reflejan su enfoque de detección basado en la LLM.
Inyección inmediata
Pangea demuestra una estrategia de detección de alta recuperación, que detecta 0,990 de los intentos de inyección a costa de más falsos positivos (precisión de 0,750). Esto significa que rara vez pasa por alto un ataque, pero de vez en cuando señala preguntas legítimas relacionadas con la seguridad. Las muestras seguras de este conjunto de datos guardan deliberadamente relación con la seguridad («¿Cómo funcionan las barandillas de seguridad artificial?») para probar las tasas de falsos positivos, lo que explica en parte la brecha de precisión. Para las aplicaciones en las que no recibir un ataque por inyección conlleva un mayor riesgo que las falsas alarmas ocasionales, el perfil orientado a la recuperación de Pangea es adecuado.
Conclusiones clave
Ningún proveedor gana en todas las tareas. El panorama de las barreras es especializado: los proveedores optimizados para la detección de la PII pueden tener un rendimiento inferior en el caso de la inyección inmediata, y viceversa. Esto es de esperar: cada tarea exige estrategias de detección fundamentalmente diferentes.
La precisión y la memoria cuentan historias diferentes. Un proveedor con alta precisión pero poca capacidad de recuperación es conservador: rara vez genera falsas alarmas, pero pasa por alto las amenazas reales. Lo contrario lo detecta todo, pero cansa a los usuarios con falsos positivos. El equilibrio adecuado depende de la tolerancia al riesgo de la aplicación.
Una puerta de enlace unificada permite una selección informada. Al evaluar a todos los proveedores a través de un único punto de integración, los equipos pueden compararlos directamente con sus propios datos y seleccionar al mejor proveedor para cada tarea, o combinar varios proveedores para defenderlos en profundidad. Los equipos también pueden crear diseños personalizados barandas para necesidades específicas de un dominio.
La evaluación de tareas específicas no es negociable. Los «puntajes de seguridad» genéricos ocultan las diferencias fundamentales en el comportamiento de los proveedores. Los equipos solo pueden tomar decisiones de adquisición informadas si se comparan con conjuntos de datos seleccionados y equilibrados por categorías y con datos fiables sobre cada proveedor. El marco de evaluación comparativa que se describe aquí (400 muestras con equilibrio de categorías por tarea, intervalos de confianza con la puntuación de Wilson, etiquetas por proveedor, seguimiento de doble latencia y métricas de clasificación estándar) proporciona una metodología reproducible para cualquier equipo de evaluación soluciones de barandillas.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA















.png)


.webp)




.webp)







