TrueFoundry AI GatewayとのLunary連携

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
LunaryとTrueFoundry AI Gatewayの統合
TrueFoundry AI Gatewayは、1,000以上のLLMに対応する単一のOpenAI互換エンドポイントを提供します。スマートルーティング、フォールバック、レート制限、コスト管理といった機能を備え、これらすべてを単一のvCPUで約3~4ミリ秒の追加レイテンシと350以上のRPSで実現します。この一元化こそが、可観測性を扱いやすくする鍵となります。すべてのリクエストがすでに単一のコントロールプレーンを通過するため、テレメトリを発信する自然な場所が一つに定まるのです。
Lunaryは、そのテレメトリをインサイトへと変えるプラットフォームです。生のログをスクロールする代わりに、リクエストのスパン階層、正確なプロンプトと完了、トークン数、ステップごとのレイテンシ、およびそれが属するセッションといった構造化されたトレースビューが得られます。ゲートウェイがOpenTelemetryに対応しているため、エクスポートはベンダーニュートラルです。独自のエージェントやSDKに縛られることなく、標準のOTLPスパンを送信できます。後で別のOTEL互換バックエンドを追加した場合でも、ゲートウェイは再計測なしでそれにファンアウトすることが可能です。
要するに、TrueFoundryはLLMトラフィックのルーティング、ガバナンス、信頼性を担い、Lunaryはそれを検査、デバッグ、最適化するための視点を提供します。設定方法はこちらです。
Lunaryとは?
Lunary は、LLMおよびエージェントアプリケーション向けに特化して構築された可観測性プラットフォームです。プロダクションGenAIワークロード全体で、トレースのキャプチャ、プロンプトと応答の検査、エージェントの動作監視、コスト追跡を行うように設計されています。ゲートウェイ統合にとって最も重要な機能は次のとおりです。
- エージェントとLLMのトレーシング — チェーン、エージェント、ツール呼び出し、モデル応答に対するエンドツーエンドの可視性を提供し、単一のフラットなログ行ではなく、多段階リクエストの全体像を把握できます。
- OpenTelemetryの取り込み — LunaryはOTLP/HTTPトレースを受け入れます。これにより、SDKやカスタムインストゥルメンテーションからのスパンと並行して、TrueFoundryゲートウェイから直接スパンを受信することが可能になります。
- セッションレベルの監視 — 単一の呼び出しだけでなく、チャットボットやRAGワークフロー全体で会話、ユーザー、パフォーマンスを追跡します。
- 評価と分析 — 実行を分析し、出力を分類し、測定可能なフィードバックループを用いてプロンプトを反復処理します。
Lunaryは、マネージドクラウドプロジェクトとして実行されるLLMおよびエージェントトラフィックの専用の構造化されたビューを求めるチームに最適です。まだオプションを比較している場合は、当社の LLM可観測性ツール を読んで、Lunaryが他のプラットフォームと比較してどのような位置にあるかを確認することをお勧めします。
前提条件
始める前に、以下をご用意ください。
- TrueFoundryアカウント (少なくとも1つのモデルプロバイダーが設定されているもの)。初めての方は、 Gatewayクイックスタートガイド をまずご覧ください。
- Lunaryアカウント — lunary.ai でサインアップしてください。。
- Lunaryプロジェクト公開鍵 (プロジェクトID / 公開鍵とも呼ばれます)で、Lunaryプロジェクト設定からコピーしたもの。
始める前に一点ご注意ください。この連携はOTELトレースとメトリクスの両方をサポートしています。トレースはLunaryの/v1/tracesエンドポイントに送信されます。メトリクスも必要な場合は、Lunaryが/v1/metricsエンドポイントを公開しており、メトリクスエクスポーターをそこに向けることができます。
ステップバイステップ連携ガイド
この連携全体はコードではなく設定です。ゲートウェイのOpenTelemetryエクスポーターをLunaryのOTLPエンドポイントに向け、公開鍵で認証を行います。
ステップ1:Lunary公開鍵の取得
- Lunaryダッシュボードにログインします.
- プロジェクトを開き、 設定 → APIキー (プロジェクトキーセクション)
- をコピーします プロジェクトID / 公開鍵。トレースの取り込みに使用される認証情報として扱い、安全に保管してください。
Lunaryのプロジェクトには公開鍵と秘密鍵の両方が含まれています。TrueFoundryからのOTLPトレースエクスポートには公開鍵が推奨されますが、どちらの鍵でも機能します。これはステップ3でAuthorizationヘッダーに入力されます。
ステップ2:TrueFoundryでOTELトレースエクスポートを設定する
- TrueFoundryダッシュボードにて、 設定 → 組織 → OTEL Config ( AI Gatewayの下)に移動します。
- にある edit ボタンを OTEL Config セクションでクリックし、まだ開いていない場合はエクスポートフォームを開きます。
- を有効にします OTEL トレースエクスポーター設定 トグル。
- 選択 HTTP設定.
- Lunaryトレースエンドポイントを入力してください。
https://api.lunary.ai/v1/traces - エンコーディングをProtoに設定します(JSONエンコーディングも、お好みであれば使用できます)。
ステップ3:Authorizationヘッダーを追加する
有効にする ヘッダー を有効にし、Lunary認証を追加します。
ヘッダー値 Authorization Bearer <LUNARY_PUBLIC_KEY>
置き換える <LUNARY_PUBLIC_KEY> をステップ1でコピーした公開鍵に置き換え、その後 保存 をクリックして設定を適用します。
ステップ4:連携の確認
- TrueFoundry AI Gateway を介して、Playground または任意のAPIコールでいくつかのリクエストを送信します。
- TrueFoundryで、 モニター を開き、それらのリクエストに対してトレースが生成されていることを確認します。
- Lunaryで、 探索 → トレース を開き、期待される階層、トークン使用量、レイテンシーの詳細とともに新しいスパンが表示されることを確認します。
LunaryはOTLPスパンを非同期で取り込むため、最初のゲートウェイリクエストの後、トレースビューを確認する前に少し時間を置いてください。スパンがすぐに表示されない場合は、しばらく待ってから再送信してください。
設定概要
設定値
トレースエンドポイント: https://api.lunary.ai/v1/traces認証: Authorization Bearer <LUNARY_PUBLIC_KEY>プロトコル: HTTPエンコーディング : プロトSDKベースの計測、セルフホスト型Lunary、またはその他のOpenTelemetryオプションについては、以下をご覧ください。 Lunaryのドキュメント。
得られるもの
トレースが流れ始めると、ゲートウェイ制御とトレースレベルの可観測性の組み合わせにより、他では得にくい機能がいくつか利用できるようになります。
トレースレベルのLLM可観測性
ゲートウェイを通過するすべてのリクエストは、Lunaryで構造化されたトレースになります。プロンプト、完了、モデル、スパン階層が1つのビューにまとめられます。これにより、レスポンスが遅い、または間違っている理由を推測するのではなく、その特定の呼び出しに対するLLMトレースを実際に確認できるようになります。
コストとトークンの可視性
スパンにはトークン使用量とレイテンシが含まれるため、個々のリクエストやセッションまでコストとパフォーマンスを紐付けることができます。これにより、知らないうちに請求額を膨らませているプロンプトテンプレートやモデルの選択を特定するのがはるかに容易になります。
エージェントとMCPの監視
多段階エージェントやツール呼び出しワークフローの場合、トレースビューは呼び出し階層(MCPやモデル呼び出しの詳細を含む)を保持するため、複雑なエージェントの実行が、散らばったログ行ではなく、一貫性のあるツリーとして読み取れるようになります。
設計によるベンダーニュートラル
エクスポートがHTTP経由の標準OTLPであるため、単一のバックエンドに縛られることはありません。Lunaryにデータを供給するのと同じOpenTelemetryパイプラインは、他のOTEL互換の宛先にもデータを供給できるため、あなたの AIゲートウェイの可観測性 戦略がポータブルになります。
一元化された制御、分散された洞察
ゲートウェイはルーティング、レート制限、ガバナンスの単一の実施ポイントであり続け、一方、可観測性はLLMおよびエージェントトラフィックに特化した専用ツールに存在します。これにより、透明性を犠牲にすることなくガバナンスを実現できます。
まとめ
LLMの可観測性を実現するために、各サービスに計測機能を無理やり組み込んだり、クローズドなプラットフォームに縛られたりする必要はありません。TrueFoundry AI GatewayとのLunary連携により、すべてのLLMトラフィックをOpenAI互換の単一コントロールプレーン経由でルーティングし、標準のOpenTelemetryトレースをLunaryにエクスポートできます。これにより、プロンプト、補完、トークン使用量、レイテンシ、および完全なエージェント階層を数分間の設定でキャプチャできます。
LLMトラフィックを TrueFoundry AI Gateway 経由でルーティングし、今すぐLunaryにトレースを送信しましょう。
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI












.webp)




.png)








.webp)
.webp)








