TrueFoundry: 2024年 年末レビュー

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
昨年は、 私たちのスタートアップとしての道のりをロケット船の建造になぞらえました、そして2024年を点火の年、つまり私たちのロケット船が軌道に飛び立つ瞬間だと想像しました。そして、実際に点火したのです!Fortune 500企業との契約が、 NVidia、あるいは ガートナーのマジック・クアドラントにおける新興リーダーとして認められることを意味する時、私たちは壮大な目標を掲げていたのでしょうか?
しかし、いつものことながら、この物語は私たちの功績を称えるだけでなく、乗り越えてきた課題を認識し、与えられた機会に感謝し、そして得た学びを大切にするものでもあります。スリリングなブレークスルーから未開の領域まで、この胸躍る道のりへ皆様をご案内しましょう。この輝かしい冒険の中で、激動と成功の両方を乗り越えてきたのです!
TrueFoundryと2023年
TrueFoundryは、Kubernetes上にクラウドに依存しないPaaSを構築しており、本番環境に対応した開発者フレンドリーなAPIを使用して、機械学習および生成AIアプリケーションのトレーニングとデプロイメントを標準化します。これは、MLOps / LLMOpsとDevOpsが本質的に同じものであるという独自の視点に立ちながら実現されます!
2023年は、世界のほとんどの組織にとって、前例のない機会と存亡の危機が同時に訪れた年でした。変化した世界をどのように受け入れるかが、彼らの未来を決定するか、あるいは未来そのものが存在するかどうかを左右するでしょう!そして組織は、ユースケースの定義、実験の実施、セキュリティポリシーの壁を乗り越えること、そしてGenAI世界の先駆者として知られるためのプレスリリースの作成など、あらゆる可能な支援を求めていました。
TrueFoundryは、組織がこれらの不確実な時代を乗り切る上で、非常に有利な立場にありました。自社開発モデルとクローズドソースモデルの選択肢、GPUベースのインフラの複雑さ、アプリケーションを本番環境に投入するためのツールキットといった課題に対してです。そして、まさにそれが肝でした。私たちは、本番環境にないアプリケーションは、何の価値も生み出さないコストセンターであることを知っていたのです。そして、世界の他の企業がPR目的で実験を繰り返している中、 TrueFoundryのFortune 100顧客 は、アプリケーションを驚異的な速さで本番環境に投入していました!2023年のその先行者利益が、彼らを業界のGenAIリーダーに押し上げたのです!私たちは2023年に、成功へと導くいくつかの重要な決断を下しました。短期的に緊急なことと、長期的に重要なことを明確に区別したのです!
- まず、私たちは、GenAIから明確で長期的な差別化されたビジネス価値を生み出すと信じる組織に焦点を当てました。単なる流行を追いかけるのではなく!
- 次に、私たちは、当時流行していたあらゆることで組織を支援しようとはしませんでした。GPU不足に過度に注目したり、最高クラスのクローズドソースモデルを使用する許可がないといったことです。誤解しないでください。それらの問題は解決される必要がありましたが、これらはいずれ解決される問題だったため、それらだけに焦点を当てるべきではありませんでした!むしろ、私たちは、組織が長期的に自信を持ってアプリケーションを本番環境に投入する上で直面するであろう課題は何か、という点に一心不乱に注力しました!
このことから、私たちは2つの重要な学びを得ました。それらは的を射ており、私たちはそれを心に留めています。
1. 本当のテストは、顧客の前に製品を出すことだけでなく、その顧客のために生み出される真のビジネス価値の実現過程にあるのです!
2. 流行の波に乗るのは構いませんが、激動期が訪れた際には、それを乗り越える準備が必要です。そして、それは基本原則に立ち返ることでしか実現できません。
2024年の幕開け
そうして、私たちは2024年を力強くスタートしました。この年は、効果的だと考えたものに注力し、TrueFoundry流で実際に検証するという、私たちにとって実行の年となりました。
私たちは世界有数の大企業と協業し、顧客サポートコールの自動化、GPUクラスターの最適利用、営業担当者による医薬品販売の効率化などを通じて、数億ドル規模の価値を生み出すアプリケーションの実現を支援しました。この1年で、複数のFortune 500企業のGenAIスタックの重要な構成要素となり、チーム規模を2倍に、収益を4倍に拡大しました。では、何が成功し、戦略的・戦術的に何がうまくいかなかったのでしょうか?詳しく見ていきましょう。
[戦略、成功] LLMOPs、MLOPs、DevOpsの統一性 —
これについては、 過去に 詳しく説明しました。しかし、これは当社のプラットフォームにとって非常に重要な決定であるため、改めて言及することが重要です。2022年にMLOPsに注力した際、私たちはそれをDevOpsと根本的に異なるものとは考えていませんでした。MLモデルも、より複雑ではあるものの、何らかのコンピューティング上で実行する必要があるアプリケーションだからです。2023年にGenAIが世界を席巻した際も、私たちは同じスタンスを取りました。LLMのファインチューニング、MLモデルのトレーニング、データパイプラインジョブの実行はすべて長時間実行されるコンピューティングジョブであり、LLMモデルのサービング、MLモデルの推論、あるいはシンプルなRest APIはすべて継続的に実行されるジョブです。そして、アーキテクチャ的には同じである限り、GPUリソースの処理、分散コンピューティング、大規模モデル、非常に長時間実行されるジョブといった複雑さをどのように扱うかについて、適切なUXを構築するだけの問題です。確かに多くのエンジニアリングが必要ですが、根本的に異なるものはありません。

つまり、TrueFoundryは、どのようなアプリケーションやコードも、アプリケーション固有の複雑さを隠蔽しながらK8sマニフェストに変換します。この設計は、お客様がTrueFoundryをどのように見るかに大きな影響を与えました。
TrueFoundryは、GPU、クロスクラウドインフラストラクチャ、超大規模モデルといった未知の領域から、K8s上に構築された既存プラットフォームという既知の領域への架け橋となりました。
TrueFoundryは彼らの言葉を理解し、既存のスタックに適合することで、企業が苦労して構築したすべての基本的なビルドおよびデプロイパイプラインを活用できるようにしました。
[戦略、成功] プリミティブで構築されたコア — サービス、ジョブ、Helmチャート、ボリューム
TrueFoundryでは、世界中のあらゆるアプリケーションは、根本的に以下の4つのプリミティブで考えることができると信じています —
- サービス — 常に稼働しているAPI
- ジョブ — 長時間実行されるオフラインジョブ
- Helmチャート — K8s上に構築されたアプリケーションの使用、検索、共有
- ボリューム — データマウント、ファイルストア、ストレージ層
これらのプリミティブが私たちのコアレイヤーとなり、その上にすべてが構築されています。例えば、LLMホスティングはサービスに他ならず、ファインチューニングはジョブに他ならず、VectorDBはHelmチャートに他なりません!

そして、複合AIアプリケーションの新しいパラダイムは、これらのプリミティブの組み合わせとして考えることができます。例えば、RAGアプリケーションは、ボリュームからのソースデータ読み込み、ジョブとしてのパース、チャンキング、インデックス作成、HelmチャートとしてのVectorDB、サービスとしてのLLM、そしてサービスとしてのRAG APIで構成されます!
2023年の手法がRAGであり、2024年がエージェント型アプリケーションであったとしても、将来的には異なる可能性があります。このアーキテクチャは、将来にわたって安全性を確保するのに役立ち、特定の開発手法に縛られることはありません。2024年には、この概念を製品として一般化し、お客様から大変好評をいただいています。
[戦術面、うまくいった点] 将来性のある設計 — ベンダーロックインの回避
GenAIアプリ構築の標準はまだ確立されておらず、企業は特定の何かに縛られることを望んでいません。これはクラウドプロバイダー、モデルプロバイダー、フレームワークプロバイダーにも及びます。
TrueFoundryの設計は、インフラ管理層を気にすることなくあらゆるプロバイダーから任意のコンピューティングを選択できる点、APIシグネチャを気にすることなくGatewayを通じて任意のモデルを選択できる点、あるいは規定的なコーディングなしでデプロイメントをオーケストレーションできるよう支援し、当社を含むあらゆるフレームワークへの依存をなくす点において、お客様から非常に高い評価を得ています。実際、TrueFoundryから生成された生のK8sマニフェストを公開することで、TrueFoundry自体が不要になるような仕組みまで提供しており、お客様がTrueFoundryにロックインされることは決してありません!
しかし、これは現在うまくいっているものの、長期的にこのまま機能し続けるかについては確信が持てない、と認めざるを得ません。これは、時流に乗る一方で、その裏側にあるものにも注意を払うべきだという一例かもしれません。
[戦術面、うまくいった点] Time to Value(価値創出までの時間)への注力
TrueFoundryは常に、エンドユーザーが本番環境対応のアプリケーションを出荷するまでの時間を短縮することに注力してきました。Time to Valueは、私たちが常に最適化してきた中核的な指標です。2024年には、プラットフォームとしての私たち自身のTime to Valueも最適化することに十分な時間を費やしました。これはつまり、顧客環境にTrueFoundryをインストールするまでの速さ、そしてエンドユーザーが最終的なビジネス価値を引き出すまでの速さを意味します。

G2のレビューからも明らかなように、当社のTime to go-live(稼働開始までの時間)は0.42ヶ月であり、同カテゴリーの他社の2.29ヶ月と比較して大幅に優れています。また、推定ROIも平均13.66ヶ月に対し4ヶ月と、非常に優れています!
[戦術面、うまくいかなかった点] ユースケースへの密着
アーキテクチャを正しく構築することに注力してきた結果、ユーザーが達成しようとしている最終目標に十分に密着できていなかったケースがあったと認識しています。つまり、エンドユーザーが最終的なアプリケーションを構築する際に、多少の労力を要することがあり、私たちはその点において製品体験をより良く調整できるはずです。例えば、当社のアーキテクチャがあらゆる複合AIアプリケーションの出荷を可能にしているため、今日ではTrueFoundry上でどんなエージェントアプリケーションでも構築・出荷できますが、その体験は私たちが望むほどシームレスでしょうか?おそらくそうではありません!
2024年には、この分野で初のオープンソースローンチという大きな成功を収めました。 Cognita — これは、本番環境対応のRAGアプリケーションを出荷するために構築されたフレームワークで、リリース後数週間で3000以上のスターを獲得しました!しかし、これは「遅きに失した」と言わざるを得ません!理想を言えば、この分野は2023年のうちに最適化し、2024年にはもっと多くのものを構築すべきでした!しかし、このことに気づいた今、2025年には積極的にこの課題に取り組む必要があります。
[戦略面、うまくいかなかった点] バイヤーペルソナへの注力
スタートアップ界の常識として、再現性のある販売活動を確立するには、理想的な顧客プロファイルとバイヤーペルソナに徹底的に集中する必要があります。私たちはこのことを理解しているつもりで、この部分を「容赦なく優先」し、最終的に買い手を2つのユーザーに絞り込みました。すなわち、GenAIアプリを本番環境に出荷しようとしているデータサイエンス部門の責任者と、社内の全データサイエンスチーム向けに開発者ツールを構築しているプラットフォーム部門の責任者です。
私たちの最新の考えでは、2つではまだ不十分です。徹底的な集中とは、たった1つに絞ることです!これにより、製品のエンドUXから、セールスイネーブルメント資料、プロダクトマーケティング、そして会社を構築するあらゆる機能に至るまで、すべてを最適化できるようになります。まだ結論は出ていませんが、現時点では、2025年にはこれをさらに絞り込むために時間を費やす必要があるように思われます!
未来を見据え、2025年を迎える
これまでの学びを胸に、基盤がしっかりしており、アーキテクチャ的にも堅牢な製品、お客様からの強い支持、そしてこの問題解決に真摯に取り組む優秀で粘り強いチームと共に、私たちは2025年に向けて新たな挑戦に胸を躍らせています — これまで以上に強力なポジションにいると感じています!
最も重要なのは、GenAIがスタートアップとしての私たちにもたらした変化を受け入れ、私たち自身のビジョンを拡大することに胸を躍らせていることです!GenAIによって解き放たれた能力により、Time to Valueの改善、コスト削減、そしてより少ないリソースでより多くのことを実現できるようになったことは、単なる通過点に過ぎないと私たちは考えています。最終的には、すべてが瞬時に、最も効率的に、そして完全に自動操縦されるようになるでしょう!今日、プログラムを書く際にコンパイラが効率的にメモリを移動したか、リソースを割り当てたかについて考えないように、明日にはAIによって管理されるインフラが適切に機能しているかについて考えることはなくなるでしょう。
もし、何千ものエージェントが人間と連携して各タスクを達成する世界に突入するのであれば、人間がそれらを管理する上でのボトルネックとなることは、現実的でも論理的でもありません。世界中のAIを管理する中央プラットフォームは
AIによって管理されるでしょう。
この広がるビジョンを見据え、2025年を心から歓迎いたします!皆様、あけましておめでとうございます。
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI












.webp)




.png)








.webp)
.webp)








