Analyse comparative des fournisseurs de garde-corps LLM : une comparaison basée sur les données

Par Kashish Kumar

Mis à jour : February 20, 2026

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !

Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
Prêt pour la production avec un support complet pour les entreprises

Commencez à utiliser Truefoundry dès maintenant Parlez à l'expert

Pourquoi les applications LLM ont besoin de garde-corps

Les applications LLM de production sont confrontées à une surface de risque croissante. Les utilisateurs peuvent divulguer par inadvertance des informations personnelles identifiables (PII) via des entrées conversationnelles. Les modèles peuvent générer du contenu toxique, violent ou sexuellement explicite qui enfreint les politiques de la plateforme. Les utilisateurs adverses élaborent des attaques par injection rapide conçues pour contourner les instructions du système, extraire des instructions confidentielles ou contourner complètement les filtres de sécurité.

Les conséquences ne sont pas hypothétiques. Une fuite de PII peut déclencher une action réglementaire en vertu du RGPD, du CCPA ou de la HIPAA. Les produits toxiques érodent la confiance des utilisateurs et engagent la responsabilité de la marque. Une injection rapide réussie peut exposer les instructions du système propriétaire ou provoquer l'exécution d'actions involontaires par le modèle.

Une ingénierie et des instructions système rapides constituent un premier niveau de défense, mais elles ne suffisent pas à elles seules. Les modèles peuvent être contraints de dépasser les barrières au niveau des instructions par le biais d'attaques d'encodage, de scénarios de jeu de rôle ou de manipulation du contexte. Systèmes de garde-corps automatisés — des classificateurs spécialement conçus qui inspectent les entrées et les sorties en temps réel — fournissent la défense en profondeur requise par les déploiements de production.

Le défi : le marché compte aujourd'hui plus d'une douzaine de fournisseurs de garde-corps, chacun ayant des atouts, des profils de latence et des écarts de couverture différents. Comment choisir celui qui convient à votre cas d'utilisation ?

TrueFoundry Guardrails : une passerelle unifiée

TrueFoundry Passerelle IA résumés multiples garde-corps fournisseurs à l'origine d'une seule API compatible avec OpenAI (docs). Les équipes s'intègrent une seule fois au /v1/point de terminaison du chat/des complétions et peut échanger des fournisseurs via la configuration - aucune modification de code n'est requise.

Le portail prend en charge deux étapes d'évaluation. Les barrières de sécurité de la phase d'entrée inspectent les messages des utilisateurs avant qu'ils n'atteignent le LLM, bloquant ainsi les injections rapides, les informations personnelles ou les contenus dangereux. Les barrières de sécurité de l'étage de sortie inspectent les réponses du modèle avant qu'elles n'atteignent l'utilisateur, détectant les hallucinations, les sorties toxiques ou les fuites de données sensibles.

TrueFoundry organise les garde-corps en cinq types de tâches :

Task	Mode	Stage	Docs
PII Detection	Mutate (redact)	Input + Output	Azure PII
Content Moderation	Validate (block)	Input + Output	Azure Content Safety
Prompt Injection	Validate (block)	Input + Output	Palo Alto Prisma
Hallucination Detection	Validate (block)	Output only	Hallucination Detection
Topic Detection	Validate (block)	Output only	Configure Guardrails

Cette étude comparative se concentre sur les trois premières tâches, à savoir la détection des informations personnelles, la modération du contenu et l'injection rapide, qui offrent la plus large couverture de fournisseurs et les ensembles de données d'évaluation les plus matures. Conception des ensembles de données d'évaluation Nous avons construit des ensembles de données d'évaluation équilibrés par catégories de 400 échantillons par tâche, conçus pour une comparaison statistiquement significative avec des intervalles de confiance serrés. Chaque ensemble de données maintient une répartition d'environ 50/50 entre les échantillons positifs (nocifs/contenant des PII) et négatifs (sûr/propre) afin de garantir une évaluation équilibrée des taux de détection et de faux positifs.

Détection des PII

Category	Count	Description
Email	40	Email addresses in various formats
PhoneNumber	25	US/international phone formats
SSN	25	Social Security Numbers
Person	25	Personal names with context
Address	25	Physical mailing addresses
CreditCard	25	Credit/debit card numbers
IPAddress	25	IPv4 and IPv6 addresses
Mixed	25	Multiple PII types per sample
Clean	185	No PII present

Modération du contenu

Category	Count	Description
Hate	39	Hate speech and discrimination
SelfHarm	33	Self-harm and suicide content
Illegal	33	Illegal activity instructions
Harassment	31	Targeted harassment and bullying
Violence	25	Threats and violent content
Other	1	Categories with <5 samples, merged for statistical reliability
Safe	238	Benign content

Injection rapide

Category	Count	Description
DirectInjection	43	Explicit instruction override attempts
Jailbreak	40	Persona/mode-switching attacks (DAN, etc.)
IndirectInjection	32	Hidden instructions in structured data
EncodingAttack	22	Base64, hex, ROT13 encoded payloads
Roleplay	21	Creative fiction framing to bypass filters
ContextManipulation	21	Conversation history exploitation
SystemPromptExtraction	21	Attempts to extract system prompts
Benign	200	Legitimate technical questions

Décisions de conception. Chaque ensemble de données conserve environ 50 % d'échantillons sûrs et propres pour mesurer les taux de faux positifs : une barrière de sécurité qui indique que tout est inutile. Les catégories comportant moins de 5 échantillons ont été fusionnées dans la catégorie « Autres » pour garantir la fiabilité statistique. Chaque échantillon comporte des étiquettes de vérité de base par fournisseur (expected_triggers), car les fournisseurs peuvent légitimement être en désaccord sur des cas extrêmes. Par exemple, un exemple expliquant « comment fonctionnent les dispositifs de sécurité liés à l'IA » est sûr mais touche à un langage lié à la sécurité, et tous les fournisseurs ne traitent pas cette distinction de la même manière. Tous les échantillons ont été sélectionnés à la main localement plutôt que tirés de critères de référence externes. Cela garantit un contrôle précis de l'équilibre des catégories, de la distribution de la difficulté et de la précision du terrain.

Méthodologie d'évaluation

Chaque fournisseur a été évalué par rapport à des ensembles de données identiques via la passerelle TrueFoundry AI Gateway, garantissant une comparaison équitable sans fuite de données par fournisseur.

Pipeline d'évaluation

Chargement des ensembles de données — Les ensembles de données JSONL sont chargés avec une détection automatique du format (schéma unifié ou schéma existant) 2. Évaluation asynchrone — Les échantillons sont envoyés simultanément à l'aide d'une limitation basée sur les sémaphores (50 requêtes parallèles) via le point de terminaison /v1/chat/completions3 compatible avec OpenAI. Classification binaire — Chaque échantillon produit un résultat binaire : un garde-fou a été déclenché (vrai) ou non (faux), comparé à une valeur de base par fournisseur4. Agrégation des métriques — Les métriques de classification standard sont calculées pour tous les échantillons

Métriques

Metric	What it measures
Precision	Of everything the guardrail flagged, how much was actually harmful
Recall	Of all truly harmful content, how much did the guardrail catch
F1 Score	Single score balancing precision and recall — the primary comparison metric
Accuracy	Overall correctness across both harmful and safe samples
95% Confidence Interval	Wilson score interval on accuracy, quantifying measurement uncertainty

Le score F1 est le principal indicateur de classement car il équilibre le compromis entre précision (éviter les fausses alarmes) et rappel (détection de menaces réelles). Un garde-corps de haute précision et à faible rappel passe à côté des menaces. Un garde-corps à rappel élevé et à faible précision bloque les utilisateurs légitimes.

Avec 400 échantillons par tâche, les intervalles de confiance du score de Wilson donnent une marge de ±0,03 à 0,05 à 95 % de confiance, suffisamment étroite pour distinguer des différences de performance significatives entre les prestataires.

Suivi de la latence

Nous suivons la latence à deux niveaux :

• Latence côté client : temps de bout en bout mesuré dans le harnais d'évaluation, y compris l'aller-retour sur le réseau

• Latence côté serveur : temps de traitement de Guardrail uniquement, extrait des traces TrueFoundry via l'API Spans (tfy.guardrail.metric.latency_in_ms)

La latence côté serveur isole le temps de traitement du garde-fou de la surcharge du réseau, ce qui permet une comparaison plus précise entre les fournisseurs.

Résultats de comparaison des fournisseurs

Détection des PII

Provider	Precision	Recall	F1 Score	Accuracy	95% CI	Latency
Azure PII	1.000	0.865	0.928	0.928	[0.898, 0.949]	52.3ms

Azure PII fournit une détection fine au niveau des entités avec des catégories PII configurables (e-mail, numéro de téléphone, SSN, adresse, numéro de carte de crédit, adresse IP, personne) et un traitement tenant compte de la langue. Il atteint une précision parfaite : chaque entité signalée est une véritable PII avec un fort rappel à 0,865, évaluée en mode Mutate où les informations personnelles détectées sont expurgées plutôt que bloquées purement et simplement. Les détections manquées (écart de rappel de 0,135) ont tendance à se concentrer dans des contextes ambigus où les entités PII apparaissent dans des formats non standard.

Modération du contenu

Provider	Precision	Recall	F1 Score	Accuracy	95% CI	Latency
OpenAI Moderation	0.922	0.877	0.899	0.920	[0.889, 0.943]	191.5ms
Azure Content Safety	0.796	0.722	0.757	0.812	[0.771, 0.847]	52.2ms
PromptFoo	0.617	0.568	0.592	0.683	[0.636, 0.727]	1118.2ms

La modération du contenu montre la différenciation la plus claire entre les fournisseurs. Le dernier modèle omni-modéré d'OpenAI est en tête avec un score de 0,899 en F1, atteignant un équilibre parfait entre précision et mémorisation dans les catégories de haine, de violence, d'automutilation et de harcèlement. Azure Content Safety offre une précision moindre pour des temps de réponse nettement plus rapides (52 ms contre 192 ms), ce qui en fait un choix viable pour les déploiements sensibles à la latence. PromptFoo est en retard à la fois en termes d'efficacité et de latence dans cette évaluation, ses temps de réponse de 1,1 seconde reflétant son approche de détection basée sur le LLM.

Injection rapide

Provider	Precision	Recall	F1 Score	Accuracy	95% CI	Latency
Pangea	0.750	0.990	0.853	0.830	[0.790, 0.864]	358.7ms

Pangée démontre une stratégie de détection à rappel élevé, détectant 0,990 des tentatives d'injection au prix d'un plus grand nombre de faux positifs (précision de 0,750). Cela signifie qu'il rate rarement une attaque, mais qu'il signale parfois des questions légitimes liées à la sécurité. Les échantillons sûrs de cet ensemble de données sont délibérément adjacents à la sécurité (« Comment fonctionnent les garde-corps AISafety ? ») pour tester les taux de faux positifs lors des tests de résistance, ce qui explique en partie l'écart de précision. Pour les applications où l'absence d'une attaque par injection comporte un risque plus élevé que les fausses alarmes occasionnelles, le profil orienté rappel de Pangea est bien adapté.

Principaux points à retenir

Aucun fournisseur ne gagne à lui seul dans toutes les tâches. Le paysage des garde-fous est spécialisé : les fournisseurs optimisés pour la détection des informations personnelles peuvent être moins performants lors d'une injection rapide, et vice versa. C'est normal : chaque tâche nécessite des stratégies de détection fondamentalement différentes.

La précision et le rappel racontent des histoires différentes. Un fournisseur offrant une haute précision mais un faible taux de mémorisation est prudent : il déclenche rarement de fausses alertes mais passe à côté des menaces réelles. L'inverse détecte tout mais fatigue les utilisateurs avec des faux positifs. Le juste équilibre dépend de la tolérance au risque de votre application.

Une passerelle unifiée permet une sélection informée. En évaluant tous les fournisseurs via un point d'intégration unique, les équipes peuvent comparer les fournisseurs en tête-à-tête sur leurs propres données et sélectionner le meilleur fournisseur par tâche, ou combiner plusieurs fournisseurs pour une défense en profondeur. Les équipes peuvent également créer des solutions personnalisées garde-corps pour des besoins spécifiques à un domaine.

L'évaluation spécifique à une tâche n'est pas négociable. Les « scores de sécurité » génériques masquent les différences critiques dans le comportement des prestataires. Ce n'est qu'en les évaluant par rapport à des ensembles de données sélectionnés et équilibrés par catégorie, avec des informations factuelles par fournisseur, que les équipes peuvent prendre des décisions d'achat éclairées. Le cadre d'analyse comparative décrit ici (400 échantillons équilibrés par catégorie par tâche, intervalles de confiance du score de Wilson, étiquettes par fournisseur, suivi à double latence et mesures de classification standard) fournit une méthodologie reproductible pour toute équipe évaluant solutions de garde-corps.

TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge

Planifiez votre démo dès maintenant