TrueFoundry + Seldon: エンタープライズAIのための統合コントロールプレーン

Published: July 4, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

要点 TrueFoundryとSeldonは一つのプラットフォームとして統合されます。SeldonのリアルタイムMLサービングがTrueFoundryのAI DeployおよびAI Gatewayと統合され、これにより企業は従来のMLとエージェントの両方に対応する単一のコントロールプレーンを手に入れます。本番環境のモデルは、現在お使いのKubernetes上で引き続き稼働し、その上でLLMやAIエージェントへの明確な道筋が得られます。

ほとんどのエンタープライズAIチームは現在、一つの境界線の両側で活動しています。不正スコアリング、顧客離反予測、レコメンデーションなどのために、従来のMLモデルを本番環境で運用しています。同時に、推論し、ツールを呼び出し、自律的に動作するエージェントアプリケーションを構築しています。これら二つの世界は、かつては異なる速度で進化していましたが、もはやそうではありません。両方とも同時にビジネス上不可欠なものとなっており、これらを二つの異なるスタック、二つのベンダー、二つのガバナンスモデルで運用することは、すぐにコストがかさみ、脆弱になります。

それが、TrueFoundryとSeldonが共に埋めようとしているギャップです。Seldonは、世界で最も要求の厳しい企業の一部向けに、リアルタイムMLサービングを10年以上にわたり完璧なものにしてきました。TrueFoundryは、デプロイメント、AI Gateway、LLMおよびエージェントのガバナンスを備えた、最新のAIを中心としたコントロールプレーンを構築しました。私たちはこの二つを一つのプラットフォームに統合することで、チームがすでに信頼しているKubernetes基盤上で、予測モデルとエージェントを運用できる単一の場所を提供します。

‍

二つのチーム、一つのアーキテクチャ

この統合がうまくいくのは、どちらの側もその設計を諦める必要がないからです。SeldonとTrueFoundryは、数年前に同じアーキテクチャ上の選択をしていました。両者とも、顧客自身のKubernetes上で、VPC内、オンプレミス、またはエアギャップ環境でコントロールプレーンとして動作します。両者ともクラウドに依存しません。両者とも、トラフィック、オートスケーリング、テレメトリーに同じ標準コンポーネントを使用し、クラスター全体の管理者権限を要求するのではなく、チームに独自のネームスペースを提供します。

Seldonはその共通基盤を基に、一つのレイヤーに深く特化し、従来のMLをリアルタイムで大規模に提供してきました。私たちは同じ基盤を基に、デプロイメントからモデル、エージェント、ツールを管理するゲートウェイまで、幅広く展開しました。そのため、二つのプラットフォームが衝突することは決してありませんでした。両者は同じ問題の隣接する部分を、同じ方法で解決していたのです。これらを統合することは、すでに同じ言語を話す二つのレイヤーを結びつけることに他なりません。

‍

Seldonがもたらすもの

Seldonは10年以上にわたり、銀行、通信会社、保険会社、小売業者、ヘルスケア企業におけるリアルタイムML推論のバックボーンとなってきました。その評判は、本番環境でのMLサービングの最も困難な部分に深く取り組んできたことに由来します。

Core 2パイプライン 複数のモデル、トランスフォーマー、ルーターを一つの提供されるアプリケーションに結合します。呼び出し元は同期応答を受け取り、内部ではKafkaデータフローがステップ間でデータを移動させます。これは、単一モデルのエンドポイントだけでなく、サービングレイヤーにおける真のアプリケーションオーケストレーションです。
MLServer は、標準ベースのマルチモデルランタイムであり、V2 Open Inference Protocol上に構築され、適応型バッチ処理とマルチモデルローディングを備えています。
Alibi Detect and Alibi Explain ドリフト検出、外れ値検出、モデルの説明を処理し、これらはリスクチームや臨床チームが信頼するモデル品質シグナルです。
モデルパフォーマンスモニタリング モデルが稼働を開始した後の動作を追跡します。

これらを合わせると、規制の厳しい低遅延環境に深く根ざした、成熟したサービングおよびモニタリング層となります。そこでは、誤った予測が数分以内に顧客の問題に発展する可能性があります。

‍

TrueFoundryがもたらすもの

TrueFoundryは、デプロイされたモデルを、管理され、コストを意識し、エージェント対応のアプリケーションへと変える層、すなわちモデルを中心としたコントロールプレーンを構築しました。

AI Deploy Kubernetes上でMLおよびGenAIワークロードを実行・スケーリングし、FastAPI、Triton、vLLMなどのバックエンドでモデルをサービングするためのランタイムの柔軟性を提供します。
AI Gateway 1,000以上のLLMを単一のOpenAI互換APIの背後に配置し、統合されたアクセス制御、ガードレール、リクエストレベルの可観測性を提供します。約3〜4ミリ秒のオーバーヘッドを追加するだけで、単一のvCPUで350以上のRPSを処理できるため、ボトルネックになることなくホットパスに配置できます。
Agent Gateway エージェントが実際にどのように動作するか、すなわち呼び出すMCPサーバー、使用するツール、およびそれらの間のハンドオフまで制御を拡張します。LangGraph、CrewAI、AutoGen、またはカスタムフレームワークのエージェントを1か所でデプロイおよび管理できます。

弊社のお客様はすでに、1日あたり1兆トークンを超える規模で、ゲートウェイを通じてビジネスに不可欠なAIを運用しています。

‍

相乗効果：単一のコントロールプレーン

ここが重要な点です。Seldonのサービング層とTrueFoundryのデプロイ層およびゲートウェイ層が統合されることで、企業はAIの両側面をカバーする単一のコントロールプレーンを手に入れることができます。

Deployはワークロードを実行し、Gatewayはそれらを管理・ルーティングします。従来のMLモデルとエージェントは同じKubernetes上に配置され、単一のアクセス制御、単一の可観測性スタック、および単一のコストビューの下で運用されます。単一のリクエストが不正検出モデル、LLM、およびツールを呼び出すエージェントに到達することができ、すべてのホップは同じ方法でログに記録され、管理されます。

Layer	What runs here	What it gives you
TrueFoundry Deploy, with Seldon’s serving	Real-time ML, Core 2 pipelines, batch, and GenAI workloads	Production-grade serving and monitoring on your own Kubernetes
AI Gateway and Agent Gateway	1,000+ LLMs, MCP servers, tools, and agents	One place to connect, govern, and observe every model and agent call

‍

企業のAI投資の行方

資金がどこに流れているかを見ると理解が深まります。予測MLはほとんど構築済みで安定して稼働していますが、企業のAIへの新たな投資はLLMとエージェントに向かっており、その支出はGatewayを通じて行われます。すべてのモデル呼び出し、すべてのエージェントステップ、すべてのツール呼び出しがGatewayを通過するため、弊社のお客様はすでに1日あたり1兆トークン以上をGateway経由で処理しています。

したがって、この統合プラットフォームは2つの有用なことを同時に実現します。既に構築済みのMLを中断なく稼働させ続けるとともに、別のプラットフォームを立ち上げることなく、次のAI投資の波が押し寄せる最前線にあなたを置きます。

‍

お客様にとっての意味

現在Seldonをご利用の場合、 お客様のリアルタイムMLは、既存のKubernetes上で引き続き稼働します。V2プロトコルで提供されるモデルはポータビリティを維持し、Core 2パイプラインは、書き換えられることなくDeploy独自のプリミティブにマッピングされます。さらに、AI Gatewayとエージェントレイヤーを新たに構築することなく利用できます。

現在TrueFoundryをご利用の場合、 お客様のスタックに変更はなく、Deployはさらに強化されます。Seldonのサービングおよびモニタリングの系譜（ドリフト検出、外れ値検出、モデルの説明、パフォーマンス監視など）が、お客様が既にお使いのプラットフォームに直接統合されます。

どちらの場合も、2つではなく1つのスタックになります。既存のインフラストラクチャ上で、従来のMLとGenAIの両方において、モデルのデプロイ、呼び出しのルーティング、ドリフトの監視、エージェントの管理、コストの把握をすべて一箇所で行えます。

‍

LLM Gatewayとは？ AI Gatewayのアーキテクチャ。
Agent Gateway エージェント、MCPサーバー、ツールを接続、管理、監視する方法。
MCPとは？ エージェントがツールを呼び出す際に使用するプロトコル。
オンプレミスAIプラットフォーム これらすべてを自社環境で実行する方法。

‍

まとめ

企業は、モデル用とエージェント用で別々のプラットフォームを運用する必要はありません。TrueFoundryとSeldonが統合されたことで、その必要がなくなりました。SeldonのリアルタイムMLサービングとTrueFoundryのAI Gatewayは、お客様が既にお使いのKubernetes上で、エンタープライズAIのための単一のコントロールプレーンとして機能します。お客様のプロダクションMLは引き続き稼働し、エージェントやLLMへの道筋もその上に開かれています。

TrueFoundryのAI GatewayがMLとエージェントをどのように統合するかを見る → AI Gatewayを詳しく見る

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now