Analyse comparative des fournisseurs de garde-corps LLM : une comparaison basée sur les données

Conçu pour la vitesse : latence d'environ 10 ms, même en cas de charge
Une méthode incroyablement rapide pour créer, suivre et déployer vos modèles !
- Gère plus de 350 RPS sur un seul processeur virtuel, aucun réglage n'est nécessaire
- Prêt pour la production avec un support complet pour les entreprises
Pourquoi les applications LLM ont besoin de garde-corps
Les applications LLM de production sont confrontées à une surface de risque croissante. Les utilisateurs peuvent divulguer par inadvertance des informations personnelles identifiables (PII) via des entrées conversationnelles. Les modèles peuvent générer du contenu toxique, violent ou sexuellement explicite qui enfreint les politiques de la plateforme. Les utilisateurs adverses élaborent des attaques par injection rapide conçues pour contourner les instructions du système, extraire des instructions confidentielles ou contourner complètement les filtres de sécurité.
Les conséquences ne sont pas hypothétiques. Une fuite de PII peut déclencher une action réglementaire en vertu du RGPD, du CCPA ou de la HIPAA. Les produits toxiques érodent la confiance des utilisateurs et engagent la responsabilité de la marque. Une injection rapide réussie peut exposer les instructions du système propriétaire ou provoquer l'exécution d'actions involontaires par le modèle.
Une ingénierie et des instructions système rapides constituent un premier niveau de défense, mais elles ne suffisent pas à elles seules. Les modèles peuvent être contraints de dépasser les barrières au niveau des instructions par le biais d'attaques d'encodage, de scénarios de jeu de rôle ou de manipulation du contexte. Systèmes de garde-corps automatisés — des classificateurs spécialement conçus qui inspectent les entrées et les sorties en temps réel — fournissent la défense en profondeur requise par les déploiements de production.
Le défi : le marché compte aujourd'hui plus d'une douzaine de fournisseurs de garde-corps, chacun ayant des atouts, des profils de latence et des écarts de couverture différents. Comment choisir celui qui convient à votre cas d'utilisation ?
TrueFoundry Guardrails : une passerelle unifiée
TrueFoundry Passerelle IA résumés multiples garde-corps fournisseurs à l'origine d'une seule API compatible avec OpenAI (docs). Les équipes s'intègrent une seule fois au /v1/point de terminaison du chat/des complétions et peut échanger des fournisseurs via la configuration - aucune modification de code n'est requise.
Le portail prend en charge deux étapes d'évaluation. Les barrières de sécurité de la phase d'entrée inspectent les messages des utilisateurs avant qu'ils n'atteignent le LLM, bloquant ainsi les injections rapides, les informations personnelles ou les contenus dangereux. Les barrières de sécurité de l'étage de sortie inspectent les réponses du modèle avant qu'elles n'atteignent l'utilisateur, détectant les hallucinations, les sorties toxiques ou les fuites de données sensibles.
TrueFoundry organise les garde-corps en cinq types de tâches :
Cette étude comparative se concentre sur les trois premières tâches, à savoir la détection des informations personnelles, la modération du contenu et l'injection rapide, qui offrent la plus large couverture de fournisseurs et les ensembles de données d'évaluation les plus matures. Conception des ensembles de données d'évaluation Nous avons construit des ensembles de données d'évaluation équilibrés par catégories de 400 échantillons par tâche, conçus pour une comparaison statistiquement significative avec des intervalles de confiance serrés. Chaque ensemble de données maintient une répartition d'environ 50/50 entre les échantillons positifs (nocifs/contenant des PII) et négatifs (sûr/propre) afin de garantir une évaluation équilibrée des taux de détection et de faux positifs.
Détection des PII
Modération du contenu
Injection rapide
Décisions de conception. Chaque ensemble de données conserve environ 50 % d'échantillons sûrs et propres pour mesurer les taux de faux positifs : une barrière de sécurité qui indique que tout est inutile. Les catégories comportant moins de 5 échantillons ont été fusionnées dans la catégorie « Autres » pour garantir la fiabilité statistique. Chaque échantillon comporte des étiquettes de vérité de base par fournisseur (expected_triggers), car les fournisseurs peuvent légitimement être en désaccord sur des cas extrêmes. Par exemple, un exemple expliquant « comment fonctionnent les dispositifs de sécurité liés à l'IA » est sûr mais touche à un langage lié à la sécurité, et tous les fournisseurs ne traitent pas cette distinction de la même manière. Tous les échantillons ont été sélectionnés à la main localement plutôt que tirés de critères de référence externes. Cela garantit un contrôle précis de l'équilibre des catégories, de la distribution de la difficulté et de la précision du terrain.
Méthodologie d'évaluation
Chaque fournisseur a été évalué par rapport à des ensembles de données identiques via la passerelle TrueFoundry AI Gateway, garantissant une comparaison équitable sans fuite de données par fournisseur.
Pipeline d'évaluation
Chargement des ensembles de données — Les ensembles de données JSONL sont chargés avec une détection automatique du format (schéma unifié ou schéma existant) 2. Évaluation asynchrone — Les échantillons sont envoyés simultanément à l'aide d'une limitation basée sur les sémaphores (50 requêtes parallèles) via le point de terminaison /v1/chat/completions3 compatible avec OpenAI. Classification binaire — Chaque échantillon produit un résultat binaire : un garde-fou a été déclenché (vrai) ou non (faux), comparé à une valeur de base par fournisseur4. Agrégation des métriques — Les métriques de classification standard sont calculées pour tous les échantillons
Métriques
Le score F1 est le principal indicateur de classement car il équilibre le compromis entre précision (éviter les fausses alarmes) et rappel (détection de menaces réelles). Un garde-corps de haute précision et à faible rappel passe à côté des menaces. Un garde-corps à rappel élevé et à faible précision bloque les utilisateurs légitimes.
Avec 400 échantillons par tâche, les intervalles de confiance du score de Wilson donnent une marge de ±0,03 à 0,05 à 95 % de confiance, suffisamment étroite pour distinguer des différences de performance significatives entre les prestataires.
Suivi de la latence
Nous suivons la latence à deux niveaux :
• Latence côté client : temps de bout en bout mesuré dans le harnais d'évaluation, y compris l'aller-retour sur le réseau
• Latence côté serveur : temps de traitement de Guardrail uniquement, extrait des traces TrueFoundry via l'API Spans (tfy.guardrail.metric.latency_in_ms)
La latence côté serveur isole le temps de traitement du garde-fou de la surcharge du réseau, ce qui permet une comparaison plus précise entre les fournisseurs.
Résultats de comparaison des fournisseurs
Détection des PII
Azure PII fournit une détection fine au niveau des entités avec des catégories PII configurables (e-mail, numéro de téléphone, SSN, adresse, numéro de carte de crédit, adresse IP, personne) et un traitement tenant compte de la langue. Il atteint une précision parfaite : chaque entité signalée est une véritable PII avec un fort rappel à 0,865, évaluée en mode Mutate où les informations personnelles détectées sont expurgées plutôt que bloquées purement et simplement. Les détections manquées (écart de rappel de 0,135) ont tendance à se concentrer dans des contextes ambigus où les entités PII apparaissent dans des formats non standard.
Modération du contenu
La modération du contenu montre la différenciation la plus claire entre les fournisseurs. Le dernier modèle omni-modéré d'OpenAI est en tête avec un score de 0,899 en F1, atteignant un équilibre parfait entre précision et mémorisation dans les catégories de haine, de violence, d'automutilation et de harcèlement. Azure Content Safety offre une précision moindre pour des temps de réponse nettement plus rapides (52 ms contre 192 ms), ce qui en fait un choix viable pour les déploiements sensibles à la latence. PromptFoo est en retard à la fois en termes d'efficacité et de latence dans cette évaluation, ses temps de réponse de 1,1 seconde reflétant son approche de détection basée sur le LLM.
Injection rapide
Pangée démontre une stratégie de détection à rappel élevé, détectant 0,990 des tentatives d'injection au prix d'un plus grand nombre de faux positifs (précision de 0,750). Cela signifie qu'il rate rarement une attaque, mais qu'il signale parfois des questions légitimes liées à la sécurité. Les échantillons sûrs de cet ensemble de données sont délibérément adjacents à la sécurité (« Comment fonctionnent les garde-corps AISafety ? ») pour tester les taux de faux positifs lors des tests de résistance, ce qui explique en partie l'écart de précision. Pour les applications où l'absence d'une attaque par injection comporte un risque plus élevé que les fausses alarmes occasionnelles, le profil orienté rappel de Pangea est bien adapté.
Principaux points à retenir
Aucun fournisseur ne gagne à lui seul dans toutes les tâches. Le paysage des garde-fous est spécialisé : les fournisseurs optimisés pour la détection des informations personnelles peuvent être moins performants lors d'une injection rapide, et vice versa. C'est normal : chaque tâche nécessite des stratégies de détection fondamentalement différentes.
La précision et le rappel racontent des histoires différentes. Un fournisseur offrant une haute précision mais un faible taux de mémorisation est prudent : il déclenche rarement de fausses alertes mais passe à côté des menaces réelles. L'inverse détecte tout mais fatigue les utilisateurs avec des faux positifs. Le juste équilibre dépend de la tolérance au risque de votre application.
Une passerelle unifiée permet une sélection informée. En évaluant tous les fournisseurs via un point d'intégration unique, les équipes peuvent comparer les fournisseurs en tête-à-tête sur leurs propres données et sélectionner le meilleur fournisseur par tâche, ou combiner plusieurs fournisseurs pour une défense en profondeur. Les équipes peuvent également créer des solutions personnalisées garde-corps pour des besoins spécifiques à un domaine.
L'évaluation spécifique à une tâche n'est pas négociable. Les « scores de sécurité » génériques masquent les différences critiques dans le comportement des prestataires. Ce n'est qu'en les évaluant par rapport à des ensembles de données sélectionnés et équilibrés par catégorie, avec des informations factuelles par fournisseur, que les équipes peuvent prendre des décisions d'achat éclairées. Le cadre d'analyse comparative décrit ici (400 échantillons équilibrés par catégorie par tâche, intervalles de confiance du score de Wilson, étiquettes par fournisseur, suivi à double latence et mesures de classification standard) fournit une méthodologie reproductible pour toute équipe évaluant solutions de garde-corps.
TrueFoundry AI Gateway offre une latence d'environ 3 à 4 ms, gère plus de 350 RPS sur 1 processeur virtuel, évolue horizontalement facilement et est prête pour la production, tandis que LiteLM souffre d'une latence élevée, peine à dépasser un RPS modéré, ne dispose pas d'une mise à l'échelle intégrée et convient parfaitement aux charges de travail légères ou aux prototypes.
Le moyen le plus rapide de créer, de gérer et de faire évoluer votre IA











.webp)



.png)


.webp)




.webp)







