Benchmarking von LLM Guardrail-Anbietern: Ein datengestützter Vergleich

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Unglaublich schnelle Methode zum Erstellen, Verfolgen und Bereitstellen Ihrer Modelle!

Verarbeitet mehr als 350 RPS auf nur 1 vCPU — kein Tuning erforderlich
Produktionsbereit mit vollem Unternehmenssupport

Beginnen Sie jetzt mit Truefoundry Sprechen Sie mit dem Experten

Warum LLM-Anwendungen Leitplanken benötigen

LLM-Anwendungen in der Produktion sind einem wachsenden Risiko ausgesetzt. Benutzer können versehentlich persönlich identifizierbare Informationen (PII) durch Konversationseingaben preisgeben. Models können toxische, gewalttätige oder sexuell explizite Inhalte erstellen, die gegen die Plattformrichtlinien verstoßen. Gegnerische Benutzer führen Prompt-Injection-Angriffe durch, um Systemanweisungen außer Kraft zu setzen, vertrauliche Eingabeaufforderungen zu extrahieren oder Sicherheitsfilter vollständig zu umgehen.

Die Folgen sind nicht hypothetisch. Ein PII-Leck kann regulatorische Maßnahmen im Rahmen der GDPR, CCPA oder HIPAA auslösen. Toxische Inhalte untergraben das Vertrauen der Nutzer und führen zu Markenhaftung. Eine erfolgreiche Eingabeaufforderung kann proprietäre Systemaufforderungen sichtbar machen oder dazu führen, dass das Modell unbeabsichtigte Aktionen ausführt.

Schnelle Konstruktions- und Systemanweisungen bieten eine erste Schutzebene, aber sie allein reichen nicht aus. Modelle können durch Kodierung von Angriffen, Rollenspielszenarien oder Kontextmanipulation gezwungen werden, die Leitplanken auf Anweisungsebene zu überwinden. Automatisierte Leitplankensysteme — speziell entwickelte Klassifikatoren, die Ein- und Ausgänge in Echtzeit überprüfen — bieten die tiefgreifende Verteidigung, die für Produktionseinsätze erforderlich ist.

Die Herausforderung: Der Markt umfasst inzwischen über ein Dutzend Guardrail-Anbieter, die jeweils unterschiedliche Stärken, Latenzprofile und Deckungslücken aufweisen. Wie wählen Sie den richtigen für Ihren Anwendungsfall aus?

TrueFoundry Guardrails: Ein einheitliches Gateway

True Foundry's KI-Gateway abstrakt mehrere Leitplanke Anbieter hinter einer einzigen OpenAI-kompatiblen API (Dokumente). Teams integrieren sich einmal mit /v1/Endpunkt für Chats/Abschlüsse und kann die Anbieter über die Konfiguration austauschen — keine Codeänderungen erforderlich.

Das Gateway unterstützt zwei Evaluierungsphasen. Sicherheitsvorgaben in der Eingabephase überprüfen Benutzernachrichten, bevor sie das LLM erreichen, und blockieren Eingabeaufforderungen, personenbezogene Daten oder schädliche Inhalte. Leitplanken in der Ausgangsphase überprüfen die Reaktionen der Modelle, bevor sie den Benutzer erreichen, und fangen Halluzinationen, toxische Signale oder durchgesickerte sensible Daten auf.

TrueFoundry unterteilt Leitplanken in fünf Aufgabentypen:

Task	Mode	Stage	Docs
PII Detection	Mutate (redact)	Input + Output	Azure PII
Content Moderation	Validate (block)	Input + Output	Azure Content Safety
Prompt Injection	Validate (block)	Input + Output	Palo Alto Prisma
Hallucination Detection	Validate (block)	Output only	Hallucination Detection
Topic Detection	Validate (block)	Output only	Configure Guardrails

Diese Benchmarking-Studie konzentriert sich auf die ersten drei Aufgaben — PII Detection, Content Moderation und PromptInjection —, die die breiteste Anbieterabdeckung und die ausgereiftesten Bewertungsdatensätze haben.Entwurf von Bewertungsdatensätzen Wir haben nach Kategorien ausgewogene Bewertungsdatensätze mit 400 Stichproben pro Aufgabe erstellt, die für einen statistisch aussagekräftigen Vergleich mit engen Konfidenzintervallen konzipiert wurden. Jeder Datensatz enthält eine etwa 50/50-Aufteilung zwischen positiven (schädlich/PII-haltigen) und negativen (sicheren/sauberen) Proben, um eine ausgewogene Bewertung sowohl der Erkennungs- als auch der Falsch-Positiv-Raten zu gewährleisten.

PII-Erkennung

Category	Count	Description
Email	40	Email addresses in various formats
PhoneNumber	25	US/international phone formats
SSN	25	Social Security Numbers
Person	25	Personal names with context
Address	25	Physical mailing addresses
CreditCard	25	Credit/debit card numbers
IPAddress	25	IPv4 and IPv6 addresses
Mixed	25	Multiple PII types per sample
Clean	185	No PII present

Moderation von Inhalten

Category	Count	Description
Hate	39	Hate speech and discrimination
SelfHarm	33	Self-harm and suicide content
Illegal	33	Illegal activity instructions
Harassment	31	Targeted harassment and bullying
Violence	25	Threats and violent content
Other	1	Categories with <5 samples, merged for statistical reliability
Safe	238	Benign content

Sofortige Injektion

Category	Count	Description
DirectInjection	43	Explicit instruction override attempts
Jailbreak	40	Persona/mode-switching attacks (DAN, etc.)
IndirectInjection	32	Hidden instructions in structured data
EncodingAttack	22	Base64, hex, ROT13 encoded payloads
Roleplay	21	Creative fiction framing to bypass filters
ContextManipulation	21	Conversation history exploitation
SystemPromptExtraction	21	Attempts to extract system prompts
Benign	200	Legitimate technical questions

Designentscheidungen. Jeder Datensatz enthält zu etwa 50% sichere und saubere Proben, um Falsch-Positiv-Raten zu messen — eine Leitplanke, die alles kennzeichnet, ist nutzlos. Kategorien mit weniger als 5 Stichproben wurden zu einer Kategorie „Sonstige“ zusammengefasst, um die statistische Zuverlässigkeit zu gewährleisten. Jede Stichprobe trägt pro Anbieter die Bezeichnung Ground Truth-Labels (expected_triggers), da sich die Anbieter in Grenzfällen berechtigterweise uneinig sein können. So ist beispielsweise eine Stichprobe, in der die „Funktionsweise von KI-Sicherheitsleitplanken“ erörtert wird, zwar sicher, berührt aber die sicherheitsrelevante Sprache, und nicht alle Anbieter gehen mit dieser Unterscheidung identisch um. Alle Stichproben wurden lokal von Hand kuratiert und nicht anhand externer Benchmarks erstellt. Dadurch wird eine präzise Kontrolle über die Ausgewogenheit der Kategorien, die Verteilung der Schwierigkeitsgrade und die Ground-Truth-Genauigkeit gewährleistet.

Bewertungsmethodik

Jeder Anbieter wurde über das TrueFoundry AI Gateway anhand identischer Datensätze bewertet, sodass ein fairer Vergleich ohne Datenlecks pro Anbieter gewährleistet war.

Evaluierungspipeline

Laden von Datensätzen — JSONL-Datensätze werden mit automatischer Formaterkennung geladen (Unified vs. Legacyschema) 2. Asynchrone Auswertung — Die Proben werden gleichzeitig mithilfe einer semaphorbasierten Drosselung (50 parallele Anfragen) über den OpenAI-kompatiblen /v1/chat/completions-Endpunkt3 versendet. Binäre Klassifizierung — Jede Stichprobe liefert ein binäres Ergebnis: Die Leitplanke wird ausgelöst (wahr) oder nicht (falsch), verglichen mit der Grundwahrheit pro Anbieter4. Aggregation von Metriken — Standardkennzahlen für die Klassifizierung werden für alle Stichproben berechnet

Metriken

Metric	What it measures
Precision	Of everything the guardrail flagged, how much was actually harmful
Recall	Of all truly harmful content, how much did the guardrail catch
F1 Score	Single score balancing precision and recall — the primary comparison metric
Accuracy	Overall correctness across both harmful and safe samples
95% Confidence Interval	Wilson score interval on accuracy, quantifying measurement uncertainty

Der F1-Score dient als primäre Rangkennzahl, da er den Kompromiss zwischen Präzision (Vermeidung von Fehlalarmen) und Rückruf (Abfangen echter Bedrohungen) ausbalanciert. Eine hochpräzise Leitplanke mit geringer Rückrufaktion übersieht Bedrohungen. Eine Leitplanke mit hoher Rückruffunktion und geringer Genauigkeit blockiert legitime Benutzer.

Bei 400 Stichproben pro Aufgabe ergeben die Konfidenzintervalle des Wilson-Scores eine Marge von ±0,03—0,05 bei einer Konfidenz von 95%, was eng genug ist, um signifikante Leistungsunterschiede zwischen Anbietern zu unterscheiden.

Latenzverfolgung

Wir verfolgen die Latenz auf zwei Ebenen:

• Clientseitige Latenz — Im Evaluierungskabel gemessene Durchlaufzeit, einschließlich Netzwerk-Roundtrip

• Serverseitige Latenz — Nur Guardrail-Verarbeitungszeit, extrahiert aus TrueFoundry-Traces über die Spans-API (tfy.guardrail.metric.latency_in_ms)

Die serverseitige Latenz isoliert die eigene Verarbeitungszeit der Leitplanke vom Netzwerk-Overhead und ermöglicht so einen genaueren Vergleich zwischen Anbietern.

Ergebnisse des Anbietervergleichs

PII-Erkennung

Provider	Precision	Recall	F1 Score	Accuracy	95% CI	Latency
Azure PII	1.000	0.865	0.928	0.928	[0.898, 0.949]	52.3ms

Azure PII bietet eine detaillierte Erkennung auf Entitätenebene mit konfigurierbaren PII-Kategorien (E-Mail, Telefonnummer, SSN, Adresse, Kreditkartennummer, IP-Adresse, Person) und sprachbewusster Verarbeitung. Dabei wird eine perfekte Präzision erreicht, bei jeder markierten Entität handelt es sich um echte personenbezogene Daten mit einem starken Erinnerungswert von 0,865. Die Auswertung erfolgt im Mutate-Modus, bei dem erkannte personenbezogene Daten redigiert und nicht direkt blockiert werden. Die verpassten Erkennungen (Rückruflücke von 0,135) konzentrieren sich in der Regel auf mehrdeutige Kontexte, in denen PII-Entitäten in nicht standardmäßigen Formaten erscheinen.

Moderation von Inhalten

Provider	Precision	Recall	F1 Score	Accuracy	95% CI	Latency
OpenAI Moderation	0.922	0.877	0.899	0.920	[0.889, 0.943]	191.5ms
Azure Content Safety	0.796	0.722	0.757	0.812	[0.771, 0.847]	52.2ms
PromptFoo	0.617	0.568	0.592	0.683	[0.636, 0.727]	1118.2ms

Die Inhaltsmoderation zeigt die deutlichste Anbieterdifferenzierung. Das neueste Modell von OpenAI, bei dem es um Omni-Moderation geht, führt mit einem F1-Score von 0,899 an und erreicht damit ein ausgewogenes Verhältnis zwischen Präzision und Erinnerungsvermögen in den Kategorien Hass, Gewalt, Selbstverletzung und Belästigung. Azure Content Safety tauscht eine geringere Genauigkeit gegen deutlich schnellere Reaktionszeiten ein (52 ms gegenüber 192 ms), was es zu einer praktikablen Wahl für latenzempfindliche Bereitstellungen macht. PromptFoo hinkt bei dieser Bewertung sowohl bei der Effizienz als auch bei der Latenz hinterher. Seine Reaktionszeiten von 1,1 Sekunden spiegeln seinen LLM-basierten Erkennungsansatz wider.

Sofortige Injektion

Provider	Precision	Recall	F1 Score	Accuracy	95% CI	Latency
Pangea	0.750	0.990	0.853	0.830	[0.790, 0.864]	358.7ms

Pangaea demonstriert eine Strategie zur Erkennung hoher Rückrufe, bei der 0,990 Injektionsversuche auf Kosten von mehr falsch positiven Ergebnissen (Genauigkeit 0,750) abgefangen werden. Das bedeutet, dass es selten einen Angriff verpasst, aber gelegentlich legitime sicherheitsrelevante Fragen meldet. Die sicheren Stichproben in diesem Datensatz sind bewusst sicherheitsnah angeordnet („Wie funktionieren KI-Sicherheitsleitplanken?“) um die Falsch-Positiv-Raten einem Stresstest zu unterziehen, was die Genauigkeitslücke teilweise erklärt. Für Anwendungen, bei denen das Ausbleiben eines Injection-Angriffs ein höheres Risiko birgt als gelegentliche Fehlalarme, ist das auf Rückrufe ausgerichtete Profil von Pangea gut geeignet.

Wichtige Erkenntnisse

Kein einziger Anbieter gewinnt bei allen Aufgaben. Die Leitplankenlandschaft ist spezialisiert: Anbieter, die für die Erkennung von personenbezogenen Daten optimiert sind, können bei der sofortigen Eingabe schlechter abschneiden und umgekehrt. Das ist zu erwarten — jede Aufgabe erfordert grundlegend unterschiedliche Erkennungsstrategien.

Präzision und Erinnerung erzählen unterschiedliche Geschichten. Ein Anbieter mit hoher Präzision, aber geringem Rückruf ist konservativ — er löst selten Fehlalarme aus, übersieht aber echte Bedrohungen. Die Umkehrung erfasst alles, ermüdet die Nutzer jedoch durch Fehlalarme. Das richtige Gleichgewicht hängt von der Risikotoleranz Ihrer Anwendung ab.

Ein einheitliches Gateway ermöglicht eine fundierte Auswahl. Durch die Bewertung aller Anbieter über einen einzigen Integrationspunkt können Teams Anbieter anhand ihrer eigenen Daten direkt vergleichen und für jede Aufgabe den besten Anbieter auswählen — oder mehrere Anbieter für eine eingehende Verteidigung kombinieren. Teams können auch benutzerdefinierte erstellen Leitplanken für domänenspezifische Bedürfnisse.

Eine aufgabenspezifische Bewertung ist nicht verhandelbar. Generische „Sicherheitswerte“ verschleiern wichtige Unterschiede im Verhalten der Anbieter. Nur durch die Auswertung anhand kuratierter, nach Kategorien ausbalancierter Datensätze mit fundierten Fakten pro Anbieter können Teams fundierte Beschaffungsentscheidungen treffen. Das hier beschriebene Benchmarking-Framework — 400 Stichproben nach Kategorien pro Aufgabe, Konfidenzintervalle mit Wilson-Score, Bezeichnungen pro Anbieter, duales Latenz-Tracking und Standardklassifizierungsmetriken — bietet eine reproduzierbare Methodik für jedes Bewertungsteam Leitplankenlösungen.

TrueFoundry AI Gateway bietet eine Latenz von ~3—4 ms, verarbeitet mehr als 350 RPS auf einer vCPU, skaliert problemlos horizontal und ist produktionsbereit, während LiteLM unter einer hohen Latenz leidet, mit moderaten RPS zu kämpfen hat, keine integrierte Skalierung hat und sich am besten für leichte Workloads oder Prototyp-Workloads eignet.

Auf Geschwindigkeit ausgelegt: ~ 10 ms Latenz, auch unter Last

Vereinbaren Sie jetzt Ihre Demo