エージェントゲートウェイシリーズ（第6部／全7部） | 非決定論的システムのための可観測性

By Boyu Wang

Published: July 4, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

従来のソフトウェアエンジニアリングでは、システムが失敗するとスタックトレースを確認します。それは42行目のNullPointerExceptionを指し示します。NPEエラーは、決定的で再現性があり、論理的です。

エージェント エンジニアリングでは、失敗は静かで、幻覚的です。エージェントは例外をスローせず、自信満々に嘘をつきます。例えば、 「データベースの更新に成功しました」 と、実際には何もしていなかったとしても言うかもしれません。あるいは、推論ループに陥り、ユーザーを待たせながら細かい点にこだわり続けるかもしれません。

これを標準的なログ（console.log）でデバッグすることはできません。あなたには フライトデータレコーダーが必要です。

TrueFoundry の Agent Gateway は、包括的な 可観測性モジュール を搭載しています。これは確率的システムのために特別に設計されており、 思考の連鎖 （CoT）または思考の木（ToT）を記録し、デジタルワーカーが行うすべての決定について、不変で再生可能な履歴を作成します。

問題：「なぜ」が欠けている

LLMが意思決定を行う際、「推論」はAPI呼び出し間の過渡的な状態に隠されていることがよくあります。

「NYへのフライトを予約して。」
出力： 「それはできません。」

なぜでしょうか？APIが失敗したのでしょうか？プロンプトが禁止したのでしょうか？モデルがポリシー制限を幻覚したのでしょうか？中間スクラッチパッド—エージェントの内部モノローグ—を記録しなければ、手探り状態になります。

具体的な例：住宅ローン承認の幻覚

このシステムの必要性を理解するために、リスクの高いシナリオを見てみましょう。 自動融資処理。

事案： 信用スコアの高い優良顧客が住宅ローンを申請しました。「ローンエージェント」は、以下の理由で即座に申請を却下しました。 「申請者は居住要件を満たしていません。」 顧客は激怒しました。銀行のエンジニアは困惑しました—顧客は10年間同じ家に住んでいるからです。

レコーダーなしでのデバッグ： エンジニアはログを確認します。入力（申請PDF）と出力（却下）は確認できます。コードも確認します—「居住地確認」機能は問題ないように見えます。テストケースで再現しようとしますが、確率的モデルはテストケースを受け入れてしまいます。見えないものは修正できません。

TrueFoundryレコーダーを使ったデバッグ： チームは トレースID その特定のインタラクションの。彼らはIOを見るだけでなく、 認知トレース：

スパン1（計画）： 「収入と住所を確認する必要があります。」
スパン2（ツール呼び出し）： extract_address_from_pdf() -> 「123 Maple St, Springfield, IL」を返します。
スパン3（推論 - バグ）： 「住所が抽出されました。次に州の確認を行います。PDFの背景がわずかに青く、米国外のパスポートの様式を連想させます。これは海外からの申請であると推測されます。」
スパン4（ハルシネーション）： 「ポリシーにより米国居住が必須です。外国からの申請者としてマークします。」
スパン5（最終出力）： 「却下：居住要件。」

修正点： バグはコードではなく、 推論チェーンにありました。モデルは「青い背景」と「米国外のパスポート」の間に相関関係があるとハルシネーションを起こしました。この洞察に基づき、エンジニアは システムプロンプト： 「居住地を判断する際は、ドキュメント内の視覚的なアーティファクトや色を無視し、テキストコンテンツのみに依拠してください。」

バグは解消されました。

‍

図1：推論チェーンに起因するバグ

技術解説：思考トレース (OpenTelemetry)

私たちは認知を分散トレースとして扱います。ゲートウェイはOpenTelemetry (OTel) と統合し、エージェントのワークフローをスパンのウォーターフォールとして可視化します。

GenAIスパンのセマンティック規約を導入します。

genai.system_prompt: モデルに与えられた指示。
genai.thought: 内部のスクラッチパッド (ユーザーからは非表示)。
genai.tool_execution: 関数呼び出しの入力と出力。
genai.completion: ユーザーに送信された最終テキスト。

これにより、レイテンシーのボトルネックを可視化できます。エージェントが遅いのは、GPT-4の応答が遅い（推論レイテンシー）ためでしょうか？それとも、SQLクエリに10秒かかった（ツールレイテンシー）ためでしょうか？

コンプライアンス：不変の監査ログ

規制対象業界（金融、ヘルスケア）では、「AIがやった」は有効な法的弁護にはなりません。 EU AI Act および SOC2 の要件に基づき、説明する必要があります理由 AIによる決定がなされました。

ゲートウェイは 非同期 監査 パイプラインを実装しています。

キャプチャ： すべてのメッセージ、思考、ツール結果がシリアル化されます。
ハッシュ化： ペイロードは整合性を確保するためにハッシュ化されます（SHA-256）。
ストレージ： 記録は S3 Object Lock （WORMコンプライアンス - Write Once, Read Many）にプッシュされます。これにより、悪意のある管理者でさえ、エージェントの決定履歴を改ざんできないことが保証されます。

監査人から質問があった場合、 「12月15日にこの医療費請求が却下された理由を示してください」 正確で改ざん不可能なトランスクリプトを取り出すことができます。

‍

図2：監査パイプラインの図

反実仮想デバッグと評価

可観測性は、それに基づいて行動できなければ意味がありません。レコーダーは、「 反実仮想デバッグ」という強力なワークフローを可能にします。

障害発生時の完全な状態（システムプロンプト＋コンテキスト＋ユーザー入力）をキャプチャしているため、ゲートウェイは、あなたが セッションをフォークすることを可能にします。全く同じリクエストを再生しつつ、1つの変数を調整できます。

GPT-3.5の代わりにGPT-4oを使ったらどうなるか？
温度を0.5に上げたらどうなるか？
新しい安全指示を追加したらどうなるか？

これらのバリエーションを記録に対して並行して（シャドウモードで）実行し、本番環境にデプロイする前に修正を検証できます。

まとめ

決定論的な世界では、私たちは アップタイムを監視します。エージェントの世界では、私たちは アライメントを監視しなければなりません。ブラックボックスレコーダーは、AIの混沌とした確率的な性質を、構造化され、観測可能で、説明責任のあるプロセスに変えます。これにより、エンジニアはハルシネーションをデバッグするために必要な可視性を得られ、コンプライアンスチームはデプロイを承認するために必要な確証を得られます。

‍

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now