Blank white background with no objects or features visible.

TrueFoundryはSeldon AIの買収を発表し、エンタープライズAI向けコントロールプレーンを拡張します。プレスリリース全文はこちら→

LLMガードレールプロバイダーのベンチマーク:データに基づいた比較

By カシシュ・クマール

Published: July 4, 2026

LLMアプリケーションにガードレールが必要な理由

本番環境のLLMアプリケーションは、リスクの表面積が拡大するという課題に直面しています。ユーザーは会話入力を通じて、意図せず個人識別情報(PII)を漏洩させる可能性があります。モデルは、プラットフォームポリシーに違反する有害、暴力的、または性的に露骨なコンテンツを生成する可能性があります。悪意のあるユーザーは、システム指示を上書きしたり、機密プロンプトを抽出したり、安全フィルターを完全に回避したりすることを目的としたプロンプトインジェクション攻撃を仕掛けます。

その影響は現実のものであり、PIIの漏洩はGDPR、CCPA、またはHIPAAに基づく規制措置を引き起こす可能性があります。有害な出力はユーザーの信頼を損ない、ブランドの責任問題を引き起こします。成功したプロンプトインジェクションは、独自のシステムプロンプトを露呈させたり、モデルに意図しない動作を実行させたりする可能性があります。

プロンプトエンジニアリングとシステム指示は第一の防御層を提供しますが、それだけでは不十分です。モデルは、エンコーディング攻撃、ロールプレイシナリオ、またはコンテキスト操作を通じて、指示レベルのガードレールを回避させられる可能性があります。 自動ガードレールシステム — 入力と出力をリアルタイムで検査する専用の分類器 — は、本番環境のデプロイメントが必要とする多層防御を提供します。

課題は、現在市場には12を超えるガードレールプロバイダーが存在し、それぞれ異なる強み、レイテンシープロファイル、カバレッジのギャップがあることです。ユースケースに合ったものをどのように選択すればよいでしょうか?

TrueFoundryガードレール:統合ゲートウェイ

TrueFoundryの AIゲートウェイ は、複数の ガードレール プロバイダーを単一のOpenAI互換API(ドキュメント)の背後に抽象化します。チームは/v1/chat/completionsエンドポイント で一度統合するだけで済み、設定を通じてプロバイダーを切り替えることができます。コード変更は不要です。

このゲートウェイは2つの評価ステージをサポートしています。入力ステージのガードレールは、ユーザーメッセージがLLMに到達する前に検査し、プロンプトインジェクション、PII、または有害なコンテンツをブロックします。出力ステージのガードレールは、モデルの応答がユーザーに到達する前に検査し、幻覚、有害な出力、または漏洩した機密データを捕捉します。

TrueFoundryはガードレールを5つのタスクタイプに分類しています。

Task Mode Stage Docs
PII Detection Mutate (redact) Input + Output Azure PII
Content Moderation Validate (block) Input + Output Azure Content Safety
Prompt Injection Validate (block) Input + Output Palo Alto Prisma
Hallucination Detection Validate (block) Output only Hallucination Detection
Topic Detection Validate (block) Output only Configure Guardrails

このベンチマーク調査では、プロバイダーのカバレッジが最も広く、評価データセットが最も成熟している最初の3つのタスク、すなわちPII検出、コンテンツモデレーション、プロンプトインジェクションに焦点を当てています。評価データセットの設計:統計的に意味のある比較を厳密な信頼区間で行うため、タスクごとに400サンプルからなるカテゴリバランスの取れた評価データセットを構築しました。各データセットは、検出率と誤検知率の両方をバランスよく評価するために、ポジティブ(有害/PIIを含む)サンプルとネガティブ(安全/クリーン)サンプルをほぼ50/50の割合で維持しています。

PII検出

Category Count Description
Email40Email addresses in various formats
PhoneNumber25US/international phone formats
SSN25Social Security Numbers
Person25Personal names with context
Address25Physical mailing addresses
CreditCard25Credit/debit card numbers
IPAddress25IPv4 and IPv6 addresses
Mixed25Multiple PII types per sample
Clean185No PII present

コンテンツモデレーション

Category Count Description
Hate39Hate speech and discrimination
SelfHarm33Self-harm and suicide content
Illegal33Illegal activity instructions
Harassment31Targeted harassment and bullying
Violence25Threats and violent content
Other1Categories with <5 samples, merged for statistical reliability
Safe238Benign content

プロンプトインジェクション

Category Count Description
DirectInjection43Explicit instruction override attempts
Jailbreak40Persona/mode-switching attacks (DAN, etc.)
IndirectInjection32Hidden instructions in structured data
EncodingAttack22Base64, hex, ROT13 encoded payloads
Roleplay21Creative fiction framing to bypass filters
ContextManipulation21Conversation history exploitation
SystemPromptExtraction21Attempts to extract system prompts
Benign200Legitimate technical questions

設計上の決定事項。各データセットは、誤検知率を測定するために約50%の安全/クリーンなサンプルを保持しています。すべてをフラグ付けするガードレールは無意味だからです。統計的な信頼性を確保するため、5サンプル未満のカテゴリは「その他」カテゴリに統合されました。各サンプルには、プロバイダーごとに異なる正解ラベル(expected_triggers)が付与されています。これは、プロバイダーがエッジケースについて正当に意見を異にする可能性があるためです。例えば、「AI安全ガードレールの仕組み」について議論するサンプルは安全ですが、セキュリティ関連の言語に触れており、すべてのプロバイダーがこの区別を同じように扱っているわけではありません。すべてのサンプルは、外部ベンチマークからではなく、手作業でローカルにキュレーションされました。これにより、カテゴリのバランス、難易度分布、および正解の精度を正確に制御できます。

評価方法

各プロバイダーは、TrueFoundry AI Gatewayを介して同一のデータセットに対して評価され、プロバイダーごとのデータ漏洩がない公平な比較が保証されました。

評価パイプライン

データセットの読み込み — JSONLデータセットは、自動フォーマット検出(統合スキーマ vs. レガシースキーマ)により読み込まれます。2. 非同期評価 — サンプルは、OpenAI互換の/v1/chat/completionsエンドポイントを介して、セマフォベースのスロットリング(50並列リクエスト)を使用して並行してディスパッチされます。3. 二値分類 — 各サンプルは、ガードレールがトリガーされた(true)か否か(false)の二値の結果を生成し、プロバイダーごとの正解と比較されます。4. メトリクス集計 — すべてのサンプルに対して標準的な分類メトリクスが計算されます。

メトリクス

Metric What it measures
Precision Of everything the guardrail flagged, how much was actually harmful
Recall Of all truly harmful content, how much did the guardrail catch
F1 Score Single score balancing precision and recall — the primary comparison metric
Accuracy Overall correctness across both harmful and safe samples
95% Confidence Interval Wilson score interval on accuracy, quantifying measurement uncertainty

F1スコアは、精度(誤検知の回避)と再現率(実際の脅威の捕捉)の間のトレードオフのバランスを取るため、主要なランキング指標として機能します。高精度・低再現率のガードレールは脅威を見逃し、高再現率・低精度なガードレールは正当なユーザーをブロックします。

タスクあたり400サンプルで、ウィルソンスコア信頼区間は95%信頼度で±0.03~0.05の誤差範囲を示し、プロバイダー間の意味のあるパフォーマンスの違いを区別するのに十分な厳密さです。

レイテンシー追跡

レイテンシーは2つのレベルで追跡しています。

クライアントサイドのレイテンシー — 評価ハーネスで測定されたエンドツーエンドの時間で、ネットワークの往復時間を含みます。

サーバーサイドのレイテンシー — ガードレールの処理時間のみで、Spans API (tfy.guardrail.metric.latency_in_ms) を介してTrueFoundryのトレースから抽出されます。

サーバーサイドのレイテンシーは、ガードレール自身の処理時間をネットワークオーバーヘッドから分離し、プロバイダー間でのより正確な比較を可能にします。

プロバイダー比較結果

PII検出

Provider Precision Recall F1 Score Accuracy 95% CI Latency
Azure PII 1.000 0.865 0.928 0.928 [0.898, 0.949] 52.3ms

Azure PIIは、設定可能なPIIカテゴリ(Email、PhoneNumber、SSN、Address、CreditCardNumber、IPAddress、Person)と言語認識処理を備えた、きめ細かなエンティティレベルの検出を提供します。検出されたPIIが完全にブロックされるのではなく、編集されるMutateモードで評価された結果、フラグ付けされたすべてのエンティティが本物のPIIである完璧な精度と、0.865という高い再現率を達成しています。見逃された検出(0.135の再現率ギャップ)は、PIIエンティティが非標準形式で出現する曖昧なコンテキストに集中する傾向があります。

コンテンツモデレーション

Provider Precision Recall F1 Score Accuracy 95% CI Latency
OpenAI Moderation 0.922 0.877 0.899 0.920 [0.889, 0.943] 191.5ms
Azure Content Safety 0.796 0.722 0.757 0.812 [0.771, 0.847] 52.2ms
PromptFoo 0.617 0.568 0.592 0.683 [0.636, 0.727] 1118.2ms

コンテンツモデレーションは、プロバイダー間の最も明確な差別化を示しています。OpenAIのomni-moderation-latestモデルは、F1スコア0.899を記録し、ヘイト、暴力、自傷行為、ハラスメントの各カテゴリにおいて、精度と再現率の強力なバランスを実現しています。Azure Content Safetyは、精度は低いものの、応答時間が大幅に高速(52ms対192ms)であるため、レイテンシーに敏感なデプロイメントにとって実行可能な選択肢となります。PromptFooは、この評価において有効性とレイテンシーの両方で遅れをとっており、その1.1秒の応答時間はLLMベースの検出アプローチを反映しています。

プロンプトインジェクション

Provider Precision Recall F1 Score Accuracy 95% CI Latency
Pangea 0.750 0.990 0.853 0.830 [0.790, 0.864] 358.7ms

パンゲア 高い再現率の検出戦略を示しており、より多くの誤検知(精度0.750)を犠牲にして、インジェクション試行の0.990を捕捉します。これは、攻撃を見逃すことはめったにないものの、正当なセキュリティ関連の質問を誤ってフラグ付けすることがあることを意味します。このデータセットの安全なサンプルは、誤検知率をストレステストするために意図的にセキュリティ関連(「AIの安全ガードレールはどのように機能しますか?」)に設定されており、これが精度ギャップの一部を説明しています。インジェクション攻撃を見逃すことが、時折の誤検知よりも高いリスクを伴うアプリケーションにとって、パンゲアの再現率重視のプロファイルは非常に適しています。

主なポイント

すべてのタスクで単一のプロバイダーが優れているわけではありません。ガードレールの状況は専門化されており、PII検出に最適化されたプロバイダーはプロンプトインジェクションで性能が劣る可能性があり、その逆もまた然りです。これは当然のことであり、各タスクには根本的に異なる検出戦略が求められます。

精度と再現率は異なる側面を示します。精度は高いが再現率が低いプロバイダーは保守的であり、誤検知はめったに発生しませんが、実際の脅威を見逃すことがあります。その逆はすべてを捕捉しますが、誤検知によってユーザーを疲弊させます。適切なバランスは、アプリケーションのリスク許容度によって異なります。

統合されたゲートウェイは、情報に基づいた選択を可能にします。単一の統合ポイントを通じてすべてのプロバイダーを評価することで、チームは自社のデータでプロバイダーを直接比較し、タスクごとに最適なプロバイダーを選択したり、多層防御のために複数のプロバイダーを組み合わせたりすることができます。チームはカスタムの ガードレール ドメイン固有のニーズに対応する

タスク固有の評価は不可欠です。一般的な「安全スコア」は、プロバイダーの動作における重要な違いを曖昧にします。キュレーションされ、カテゴリバランスの取れたデータセットとプロバイダーごとの正解データに対して評価することによってのみ、チームは情報に基づいた調達決定を下すことができます。ここで説明するベンチマークフレームワーク(タスクごとに400のカテゴリバランスの取れたサンプル、ウィルソンスコア信頼区間、プロバイダーごとのラベル、デュアルレイテンシー追跡、および標準的な分類メトリクス)は、評価を行うあらゆるチームに再現可能な方法論を提供します。 ガードレールソリューション

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

One Gateway for Every LLM, Agent and MCP Server

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo
Summarize with
ChatGPT logo by OpenAI
Perplexity AI logo
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Discover More

No items found.
OpenRouter vs AI Gateway
July 4, 2026
|
5 min read

OpenRouter 対 AIゲートウェイ:どちらがあなたに最適ですか?

comparison
July 4, 2026
|
5 min read

プロンプトエンジニアリング:LLMとの対話方法を学ぶ

Thought Leadership
LLMs & GenAI
July 4, 2026
|
5 min read

True ML Talks #12 - Llama-Index共同創設者

True ML Talks
July 4, 2026
|
5 min read

AIワークロードがクラウド料金を膨らませていませんか?

Thought Leadership
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.

Frequently asked questions

What is an LLM guardrail benchmark?

An LLM guardrail benchmark is a standardized evaluation framework used to measure how effectively a guardrail system detects and blocks harmful, unsafe, or policy-violating outputs from large language models. Benchmarks assess guardrails across dimensions such as detection accuracy, false positive rate, latency impact, and coverage of harm categories like toxicity, prompt injection, PII leakage, and hallucinations.

Why are guardrail benchmarks important for LLM deployments?

Guardrail benchmarks are important because they provide an objective basis for comparing guardrail providers and validating their effectiveness before deployment. Without benchmarking, organizations risk deploying guardrails that either miss harmful outputs (too permissive) or block legitimate content (too restrictive), both of which undermine the reliability and safety of production LLM applications.

What are LLM guardrail providers?

LLM guardrail providers are platforms that offer safety and compliance layers for LLM deployments. Leading providers include Guardrails AI, Llama Guard (Meta), Nemo Guardrails (NVIDIA), and TrueFoundry's native guardrail integrations. Each provider differs in the harm categories it covers, the models it supports, the latency it introduces, and the level of customization it allows for enterprise-specific policies.

Take a quick product tour
Start Product Tour
Product Tour