Prochain webinaire : La sécurité d'entreprise pour Claude Code | 21 avril · 11 h PST. Inscrivez-vous ici →

Analyse comparative des fournisseurs de garde-corps LLM : une comparaison basée sur les données

Par Kashish Kumar

Mis à jour : February 20, 2026

Résumez avec

Pourquoi les applications LLM ont besoin de garde-corps

Les applications LLM de production sont confrontées à une surface de risque croissante. Les utilisateurs peuvent divulguer par inadvertance des informations personnelles identifiables (PII) via des entrées conversationnelles. Les modèles peuvent générer du contenu toxique, violent ou sexuellement explicite qui enfreint les politiques de la plateforme. Les utilisateurs adverses élaborent des attaques par injection rapide conçues pour contourner les instructions du système, extraire des instructions confidentielles ou contourner complètement les filtres de sécurité.

Les conséquences ne sont pas hypothétiques. Une fuite de PII peut déclencher une action réglementaire en vertu du RGPD, du CCPA ou de la HIPAA. Les produits toxiques érodent la confiance des utilisateurs et engagent la responsabilité de la marque. Une injection rapide réussie peut exposer les instructions du système propriétaire ou provoquer l'exécution d'actions involontaires par le modèle.

Une ingénierie et des instructions système rapides constituent un premier niveau de défense, mais elles ne suffisent pas à elles seules. Les modèles peuvent être contraints de dépasser les barrières au niveau des instructions par le biais d'attaques d'encodage, de scénarios de jeu de rôle ou de manipulation du contexte. Systèmes de garde-corps automatisés — des classificateurs spécialement conçus qui inspectent les entrées et les sorties en temps réel — fournissent la défense en profondeur requise par les déploiements de production.

Le défi : le marché compte aujourd'hui plus d'une douzaine de fournisseurs de garde-corps, chacun ayant des atouts, des profils de latence et des écarts de couverture différents. Comment choisir celui qui convient à votre cas d'utilisation ?

TrueFoundry Guardrails : une passerelle unifiée

TrueFoundry Passerelle IA résumés multiples garde-corps fournisseurs à l'origine d'une seule API compatible avec OpenAI (docs). Les équipes s'intègrent une seule fois au /v1/point de terminaison du chat/des complétions et peut échanger des fournisseurs via la configuration - aucune modification de code n'est requise.

Le portail prend en charge deux étapes d'évaluation. Les barrières de sécurité de la phase d'entrée inspectent les messages des utilisateurs avant qu'ils n'atteignent le LLM, bloquant ainsi les injections rapides, les informations personnelles ou les contenus dangereux. Les barrières de sécurité de l'étage de sortie inspectent les réponses du modèle avant qu'elles n'atteignent l'utilisateur, détectant les hallucinations, les sorties toxiques ou les fuites de données sensibles.

TrueFoundry organise les garde-corps en cinq types de tâches :

Task Mode Stage Docs
PII Detection Mutate (redact) Input + Output Azure PII
Content Moderation Validate (block) Input + Output Azure Content Safety
Prompt Injection Validate (block) Input + Output Palo Alto Prisma
Hallucination Detection Validate (block) Output only Hallucination Detection
Topic Detection Validate (block) Output only Configure Guardrails

Cette étude comparative se concentre sur les trois premières tâches, à savoir la détection des informations personnelles, la modération du contenu et l'injection rapide, qui offrent la plus large couverture de fournisseurs et les ensembles de données d'évaluation les plus matures. Conception des ensembles de données d'évaluation Nous avons construit des ensembles de données d'évaluation équilibrés par catégories de 400 échantillons par tâche, conçus pour une comparaison statistiquement significative avec des intervalles de confiance serrés. Chaque ensemble de données maintient une répartition d'environ 50/50 entre les échantillons positifs (nocifs/contenant des PII) et négatifs (sûr/propre) afin de garantir une évaluation équilibrée des taux de détection et de faux positifs.

Détection des PII

Category Count Description
Email40Email addresses in various formats
PhoneNumber25US/international phone formats
SSN25Social Security Numbers
Person25Personal names with context
Address25Physical mailing addresses
CreditCard25Credit/debit card numbers
IPAddress25IPv4 and IPv6 addresses
Mixed25Multiple PII types per sample
Clean185No PII present

Modération du contenu

Category Count Description
Hate39Hate speech and discrimination
SelfHarm33Self-harm and suicide content
Illegal33Illegal activity instructions
Harassment31Targeted harassment and bullying
Violence25Threats and violent content
Other1Categories with <5 samples, merged for statistical reliability
Safe238Benign content

Injection rapide

Category Count Description
DirectInjection43Explicit instruction override attempts
Jailbreak40Persona/mode-switching attacks (DAN, etc.)
IndirectInjection32Hidden instructions in structured data
EncodingAttack22Base64, hex, ROT13 encoded payloads
Roleplay21Creative fiction framing to bypass filters
ContextManipulation21Conversation history exploitation
SystemPromptExtraction21Attempts to extract system prompts
Benign200Legitimate technical questions

Décisions de conception. Chaque ensemble de données conserve environ 50 % d'échantillons sûrs et propres pour mesurer les taux de faux positifs : une barrière de sécurité qui indique que tout est inutile. Les catégories comportant moins de 5 échantillons ont été fusionnées dans la catégorie « Autres » pour garantir la fiabilité statistique. Chaque échantillon comporte des étiquettes de vérité de base par fournisseur (expected_triggers), car les fournisseurs peuvent légitimement être en désaccord sur des cas extrêmes. Par exemple, un exemple expliquant « comment fonctionnent les dispositifs de sécurité liés à l'IA » est sûr mais touche à un langage lié à la sécurité, et tous les fournisseurs ne traitent pas cette distinction de la même manière. Tous les échantillons ont été sélectionnés à la main localement plutôt que tirés de critères de référence externes. Cela garantit un contrôle précis de l'équilibre des catégories, de la distribution de la difficulté et de la précision du terrain.

Méthodologie d'évaluation

Chaque fournisseur a été évalué par rapport à des ensembles de données identiques via la passerelle TrueFoundry AI Gateway, garantissant une comparaison équitable sans fuite de données par fournisseur.

Pipeline d'évaluation

Chargement des ensembles de données — Les ensembles de données JSONL sont chargés avec une détection automatique du format (schéma unifié ou schéma existant) 2. Évaluation asynchrone — Les échantillons sont envoyés simultanément à l'aide d'une limitation basée sur les sémaphores (50 requêtes parallèles) via le point de terminaison /v1/chat/completions3 compatible avec OpenAI. Classification binaire — Chaque échantillon produit un résultat binaire : un garde-fou a été déclenché (vrai) ou non (faux), comparé à une valeur de base par fournisseur4. Agrégation des métriques — Les métriques de classification standard sont calculées pour tous les échantillons

Métriques

Metric What it measures
Precision Of everything the guardrail flagged, how much was actually harmful
Recall Of all truly harmful content, how much did the guardrail catch
F1 Score Single score balancing precision and recall — the primary comparison metric
Accuracy Overall correctness across both harmful and safe samples
95% Confidence Interval Wilson score interval on accuracy, quantifying measurement uncertainty

Le score F1 est le principal indicateur de classement car il équilibre le compromis entre précision (éviter les fausses alarmes) et rappel (détection de menaces réelles). Un garde-corps de haute précision et à faible rappel passe à côté des menaces. Un garde-corps à rappel élevé et à faible précision bloque les utilisateurs légitimes.

Avec 400 échantillons par tâche, les intervalles de confiance du score de Wilson donnent une marge de ±0,03 à 0,05 à 95 % de confiance, suffisamment étroite pour distinguer des différences de performance significatives entre les prestataires.

Suivi de la latence

Nous suivons la latence à deux niveaux :

• Latence côté client : temps de bout en bout mesuré dans le harnais d'évaluation, y compris l'aller-retour sur le réseau

• Latence côté serveur : temps de traitement de Guardrail uniquement, extrait des traces TrueFoundry via l'API Spans (tfy.guardrail.metric.latency_in_ms)

La latence côté serveur isole le temps de traitement du garde-fou de la surcharge du réseau, ce qui permet une comparaison plus précise entre les fournisseurs.

Résultats de comparaison des fournisseurs

Détection des PII

Provider Precision Recall F1 Score Accuracy 95% CI Latency
Azure PII 1.000 0.865 0.928 0.928 [0.898, 0.949] 52.3ms

Azure PII fournit une détection fine au niveau des entités avec des catégories PII configurables (e-mail, numéro de téléphone, SSN, adresse, numéro de carte de crédit, adresse IP, personne) et un traitement tenant compte de la langue. Il atteint une précision parfaite : chaque entité signalée est une véritable PII avec un fort rappel à 0,865, évaluée en mode Mutate où les informations personnelles détectées sont expurgées plutôt que bloquées purement et simplement. Les détections manquées (écart de rappel de 0,135) ont tendance à se concentrer dans des contextes ambigus où les entités PII apparaissent dans des formats non standard.

Modération du contenu

Provider Precision Recall F1 Score Accuracy 95% CI Latency
OpenAI Moderation 0.922 0.877 0.899 0.920 [0.889, 0.943] 191.5ms
Azure Content Safety 0.796 0.722 0.757 0.812 [0.771, 0.847] 52.2ms
PromptFoo 0.617 0.568 0.592 0.683 [0.636, 0.727] 1118.2ms

La modération du contenu montre la différenciation la plus claire entre les fournisseurs. Le dernier modèle omni-modéré d'OpenAI est en tête avec un score de 0,899 en F1, atteignant un équilibre parfait entre précision et mémorisation dans les catégories de haine, de violence, d'automutilation et de harcèlement. Azure Content Safety offre une précision moindre pour des temps de réponse nettement plus rapides (52 ms contre 192 ms), ce qui en fait un choix viable pour les déploiements sensibles à la latence. PromptFoo est en retard à la fois en termes d'efficacité et de latence dans cette évaluation, ses temps de réponse de 1,1 seconde reflétant son approche de détection basée sur le LLM.

Injection rapide

Provider Precision Recall F1 Score Accuracy 95% CI Latency
Pangea 0.750 0.990 0.853 0.830 [0.790, 0.864] 358.7ms

Pangée démontre une stratégie de détection à rappel élevé, détectant 0,990 des tentatives d'injection au prix d'un plus grand nombre de faux positifs (précision de 0,750). Cela signifie qu'il rate rarement une attaque, mais qu'il signale parfois des questions légitimes liées à la sécurité. Les échantillons sûrs de cet ensemble de données sont délibérément adjacents à la sécurité (« Comment fonctionnent les garde-corps AISafety ? ») pour tester les taux de faux positifs lors des tests de résistance, ce qui explique en partie l'écart de précision. Pour les applications où l'absence d'une attaque par injection comporte un risque plus élevé que les fausses alarmes occasionnelles, le profil orienté rappel de Pangea est bien adapté.

Principaux points à retenir

Aucun fournisseur ne gagne à lui seul dans toutes les tâches. Le paysage des garde-fous est spécialisé : les fournisseurs optimisés pour la détection des informations personnelles peuvent être moins performants lors d'une injection rapide, et vice versa. C'est normal : chaque tâche nécessite des stratégies de détection fondamentalement différentes.

La précision et le rappel racontent des histoires différentes. Un fournisseur offrant une haute précision mais un faible taux de mémorisation est prudent : il déclenche rarement de fausses alertes mais passe à côté des menaces réelles. L'inverse détecte tout mais fatigue les utilisateurs avec des faux positifs. Le juste équilibre dépend de la tolérance au risque de votre application.

Une passerelle unifiée permet une sélection informée. En évaluant tous les fournisseurs via un point d'intégration unique, les équipes peuvent comparer les fournisseurs en tête-à-tête sur leurs propres données et sélectionner le meilleur fournisseur par tâche, ou combiner plusieurs fournisseurs pour une défense en profondeur. Les équipes peuvent également créer des solutions personnalisées garde-corps pour des besoins spécifiques à un domaine.

L'évaluation spécifique à une tâche n'est pas négociable. Les « scores de sécurité » génériques masquent les différences critiques dans le comportement des prestataires. Ce n'est qu'en les évaluant par rapport à des ensembles de données sélectionnés et équilibrés par catégorie, avec des informations factuelles par fournisseur, que les équipes peuvent prendre des décisions d'achat éclairées. Le cadre d'analyse comparative décrit ici (400 échantillons équilibrés par catégorie par tâche, intervalles de confiance du score de Wilson, étiquettes par fournisseur, suivi à double latence et mesures de classification standard) fournit une méthodologie reproductible pour toute équipe évaluant solutions de garde-corps.

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

INSCRIVEZ-VOUS
Table des matières

Gouvernez, déployez et suivez l'IA dans votre propre infrastructure

Réservez un séjour de 30 minutes avec notre Expert en IA

Réservez une démo

Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA

Démo du livre

Découvrez-en plus

Aucun article n'a été trouvé.
 Best AI Gateways in 2026
April 22, 2026
|
5 min de lecture

5 meilleures passerelles IA en 2026

comparaison
April 22, 2026
|
5 min de lecture

Intégration de Cline avec TrueFoundry AI Gateway

Outils LLM
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 min de lecture

Qu'est-ce qu'AI Gateway ? Concepts de base et guide

Aucun article n'a été trouvé.
April 22, 2026
|
5 min de lecture

LLM Embeddings 101 : un guide complet 2024

Terminologie LLM
Aucun article n'a été trouvé.

Blogs récents

Faites un rapide tour d'horizon des produits
Commencer la visite guidée du produit
Visite guidée du produit