エンタープライズAIに欠けていたインフラレイヤーを構築する
.png)
Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
2022年、ChatGPTが世間に浸透する前から、共同創業者であるNikunj Bajaj、Abhishek、Anuraagはすでに開発を進めていました。彼らはトレンドに反応したり、一時の流行を追うのではなく、企業の世界が未曾有の転換期を迎えようとしているという確信のもと、開発に取り組んでいたのです。
その確信は、彼自身の経験から生まれました。TrueFoundryを創業する前、NikunjはMetaに勤務していました。そこで大規模な機械学習インフラに携わった経験が、彼がこの問題について考える根本的な方法を変えたのです。
「Metaでの機械学習モデルの構築方法は、外部のパブリッククラウドエコシステムを利用する場合とは根本的に異なります」とNikunjはCode Story Podcastで語りました。「Metaは機械学習をソフトウェアエンジニアリングの特殊なケースと捉え、生成AIを機械学習の特殊なケースと見なしています」
ソフトウェアを基盤とし、その上にML、さらにその上にGenAIが位置し、共有インフラ上で統合されたインターフェースを通じてすべてが稼働するというこの思考モデルは、ほとんどの企業が採用しているものではありません。多くの組織では、ソフトウェア用、ML用、そして最近ではGenAI用と、2つ、時には3つの並行したスタックを運用しています。その結果、断片化、冗長性が生じ、規模が拡大するにつれてシステムが自重で破綻してしまいます。
TrueFoundryは、まさにその課題を解決するために設立されました。
1年を費やした戦略的決断
一般的にMVP(Minimum Viable Product)と言えば、仮説を検証するための手軽なプロトタイプを指します。しかし、TrueFoundryのMVPはそれとは大きく異なりました。
「私たちは1年以上にわたり、ひたすらプラットフォームの開発に没頭しました」とNikunjは説明しました。「企業が機械学習や生成AIアプリケーションを構築し、本番環境に展開できるようになるための、中核となるインフラを構築していたのです」
その開発の中心にあった技術的な決断は、Kubernetesでした。チームは、ソフトウェアのワークロードがオーケストレーションのためにKubernetesに集約されたように、MLワークロードもそれに続くと確信していました。当時、Kubernetes上でMLを実行するための主要なツールはKubeflowでしたが、GoogleがVertexに投資をシフトしたことで、その貢献度は低下していました。TrueFoundryチームはそのギャップを見抜き、意図的にそこへ参入し、MLとGenAIのスタック全体をKubernetes上でネイティブに動作するように構築しました。この決断は、彼らにかけがえのないものをもたらしました。それは、AWS、GCP、Azure、オンプレミスなど、あらゆる場所で動作し、特定のクラウドプロバイダーに縛られないインフラです。
それは忍耐強く、原則に基づいた出発点でした。そして、その後のすべての基盤を築いたのです。
絶えず変化する世界への適応
TrueFoundryの製品開発の道のりで最も印象的なことの一つは、周囲の世界が絶えず変化し、彼らがいかに意図的に適応してきたかということです。
2022年、大規模言語モデルが初めて真に実用的なものとなりました。2023年には、企業は有用な応答には自社データに基づく「グラウンディング」が必要であると認識し、RAG(Retrieval Augmented Generation)が主要なパラダイムとなりました。2024年にはエージェントが現実のものとなり、組織はAIを本番ワークフローに組み込むことを真剣に検討し始めました。2025年には、MCP(Model Context Protocol)とエージェント間の通信が新たなフロンティアとして登場しました。
毎年、運用モデルは変化しました。TrueFoundryのアプローチは、基盤となるアーキテクチャを一定に保ちつつ、その上にあるレイヤー、すなわち開発者体験、インターフェース、コンポーネント間の結合部分を適応させるというものでした。
「私たちはその運用方法に適応します」とNikunjは述べました。「その周りにUXレイヤーを構築しますが、これらのワークロードを同じ基盤インフラ上で実行するという、根本的な原則にすべてを立ち返らせます」
現在の製品は、その哲学を反映しています。TrueFoundryのAI Gatewayは、企業がLLMやエージェントに対して行うすべてのAPIコールの中心に位置します。これは、LLMゲートウェイ、MCPゲートウェイ、エージェントゲートウェイを包含し、エージェントスタック全体における可観測性、ガバナンス、コスト管理、コンプライアンスのための統合されたコントロールプレーンとして機能します。それに加えて、AI Deployments製品は、企業がカスタムモデルを実行し、MCPサーバーをホストし、独自のコンピューティング上でエージェントをオーケストレーションすることを可能にします。これらすべてはKubernetesネイティブなインターフェースを通じて行われます。
彼らが語ることをいとわない過ち
すべてが計画通りに進んだわけではありません。2024年、TrueFoundryは業界のほとんどの企業と同様に、企業が内部で構築するLLMプロキシレイヤーは薄いままであると信じていました。当時、その論理は理にかなっていました。モデルAPIは概ね一貫しており、レイヤーは軽量で、チームは自力で構築することに抵抗がなかったからです。
「これは社内で構築されるレイヤーだと考えていました」とニクンジュは認めた。「その間違いのせいで、2024年から2025年の間にできたはずの開発の一部を失ってしまいました。」
変化したのは複雑さだった。モデルAPIのシグネチャは分岐し始めた。MCPのような新しいプロトコルが登場した。エージェント型アプリケーションが本番稼働し、稼働時間が重要になった。そして、薄いプロキシレイヤーとして始まったものが、突然、ガードレール、コンプライアンスルール、コスト追跡、組織内のすべてのエージェントにわたる一元化された可観測性を備えたエンタープライズグレードのコントロールプレーンになる必要が生じたのだ。
TrueFoundryはその変化を察知すると、迅速に行動した。6ヶ月以内に、彼らはAIゲートウェイを再構築・拡張し、市場で最も高性能な製品の一つへと変貌させた。現在、このゲートウェイは世界17地域で稼働し、99.99%以上の稼働率を達成、5ミリ秒未満のレイテンシーで、本番環境で重要なエンタープライズアプリケーション向けに毎秒数万件のリクエストを処理している。
迅速な対応が、逃しかけた機会を市場をリードする地位へと変えたのだ。
そのすべてを支えるチーム
ニクンジュにTrueFoundryで最も誇りに思っていることを尋ねても、製品の指標や顧客リストには言及しない。彼はチームについて語るのだ。
同社は、幼なじみである3人の共同創業者、ニクンジュ、アヌラグ、アビシェクによって設立された。彼らの機械学習、インフラ、戦略における補完的なバックグラウンドが、創業初日から同社に適切な形を与えた。アビシェクはMetaのビデオインフラ組織を率いていた。アヌラグはWorldQuantで機械学習を用いてトレーディング戦略を構築し、同社の地理的拡大を主導した。彼らは共に、エンタープライズインフラ構築に求められる技術的深さと運用範囲をもたらした。
現在90人から100人規模に近づいているが、TrueFoundryでは、すべての新入社員が創業者の面接を受ける必要がある。採用基準は変わっていない。ハードスキルはもちろんのこと、それ以上に、ミッションへの真の共感と、初期段階の企業を機能させるオーナーシップの考え方が重要視される。
「それが創業者が会社で生み出せる最高の価値だと考えています」とニクンジュは述べた。
今後の展望
ニクンジュが業界にとって短期的な課題と見ているのは、数百もの小規模で低リスクなAIエージェント、個人向け生産性ツール、機能実験から、実際のビジネスオペレーションの重要な経路に位置するエージェントへと移行することだ。この移行には、ほとんどの企業がまだ構築していないレベルの制御、信頼性、ガバナンスが求められる。
TrueFoundryの長期的な野望はさらに大きい。ニクンジュが例に挙げるのは、組織のデータを一元化することで価値を引き出すDatabricksやSnowflakeのような企業だ。TrueFoundryは、コンピューティングに対しても同じことを目指している。エージェントが開発、デプロイ、オーケストレーションされる単一のプラットフォーム。企業のAIシステムを流れるすべてのコンピューティングのための中央コントロールプレーンだ。
これは壮大なビジョンだ。しかし、それは2022年に明確に定義され、それ以来、ますます重要性を増しているものだ。
ニクンジュ・バジャイとの対談の全編は、Code Story Podcastシーズン12エピソード16で聴くことができます。SpotifyとApple Podcastで配信中です。
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI












.webp)




.png)








.webp)
.webp)








