Blank white background with no objects or features visible.

TrueFoundryはSeldon AIの買収を発表し、エンタープライズAI向けコントロールプレーンを拡張します。プレスリリース全文はこちら→

examroom.ai は、大学、認定機関、資格認定団体向けのAIファーストの評価プラットフォームです。問題作成(チームは「アイテム」と呼んでいます)から、受験者の登録、オンラインおよびオフライン試験の監督、受験者が終了した瞬間に認定結果を返すまで、試験のライフサイクル全体を管理します。一部の試験は最長28時間に及びます。意図的にシームレスに設計された受験者体験の裏側には、膨大なAI資産があります。60を超える独自のAIソリューションが、マークシート(OMR)採点用のコンピュータービジョン、サポートと評価用の大規模言語モデル、試験監督、予測、アイテム選択にわたって展開されています。

examroom.aiがこれらのソリューションを実験段階から数十万人のユーザー向けの本番環境に移行するにつれて、困難な問題はモデルの精度に関するものではなくなり、代わりに AIを大規模に運用すること、すなわち可観測性、ガバナンス、コスト管理、そしてガードレールに関するものになりました。このケーススタディでは、examroom.aiがTrueFoundry上でその運用レイヤーを標準化し、プラットフォームを使用してサービスを数日ではなく数時間で提供し、TrueFoundry AI GatewayをAI資産全体の可観測性とガバナンスのためのコントロールプレーンとして採用した方法について説明します。

「AIは、正しく使わなければ複雑さを増します。しかし、正しく使えば問題を解決します。」— Deepak M K氏、examroom.ai 副社長

課題:本番環境は一筋縄ではいかない

examroom.aiは本番環境を第一に考えて構築されました。「examRoom.aiは本番環境を第一に考えるという考え方を持っています」とDeepak氏は説明します。「私たちは、実験やPOCのためだけでなく、本番環境のグリッドのためにソリューションを設計します。なぜなら、本番環境では、スケーリングと問題解決は全く異なるものだからです。」

チームはその教訓を早期に学びました。2021年、試験の整合性監視のための物体検出モデル(YOLOとRCNNベースのパイプラインで構築)は、ローカルサーバーで6〜7時間のテストでは完璧に動作しました。しかし、本番環境では崩壊しました。モデルがトリガーされるまでに最大5分かかることがあり、試験の整合性にとって最も重要な小さな物体を検出できませんでした。「ローカルマシンでの初期の成功に気を揉んでいました」とDeepak氏は振り返ります。「しかし、本番環境では、完全に神経がすり減ってしまいます。」

診断の結果、チームは4つの複合的な問題を発見しました。開発者が迅速に対応できるエラーを表面化しないアーキテクチャ、スケーラブルなサービングシステムがないこと、オートスケーリングのないハードコードされたコンピューティング、そして実際の負荷の下で崩壊するキャパシティの仮定です。使用量が増加するにつれて、メモリとコンピューティングは予測不能に急増しました。

運用面では、デプロイメント自体が一筋縄ではいきませんでした。オートスケーリングが組み込まれたマネージドKubernetesであっても、サービスの提供には5〜6日かかり、チームは ML Opsのみに3人のエンジニアを専任させていました。「適切なサービスを適切に利用しなければ、本番環境でのコストは蝕まれていく可能性があります」とDeepak氏は指摘します。そして、この規模では、ガバナンスと可観測性はもはやオプションではありませんでした。

基盤のスケーリング:6日から2時間未満へ

最初の変化は、デプロイメントをTrueFoundryに移行したことでした。クラスターを手動で管理する代わりに、チームはコンテナをプッシュするだけで、残りはプラットフォームが処理します。

「TrueFoundryに移行したため、私たちはその作業をする必要がなくなりました。コンテナをプッシュするだけで、最小限のクリックで全てのサーバーを自動的に立ち上げてくれます。コンピューティングを管理し、コストを管理し、その全てを視覚的に確認できます。これにより、私たちの作業は6日から2時間未満に短縮されました。」

この変更により、3人の専任ML Opsエンジニアは、インフラの整備ではなく製品開発に集中できるようになりました。今日、examroom.aiは TrueFoundry上の94のサービス 本番、ステージング、UAT、QA、開発環境にわたり、OCR、アイテム生成、検出のためのGPU対応ワークロードを含め、スポット容量でのオートスケーリングとオンデマンドへの自動フォールバックを備えています。各サービスは、コストの内訳、リクエスト量とレイテンシーの追跡(P50/P90/P99)、ポッドの健全性、および一元化されたログをすべて一箇所で管理できます。

コントロールプレーン:AI Gatewayによる可観測性とガバナンス

デプロイメントの問題が解決すると、より困難で戦略的な問題が浮上しました。それは、どのようにして 監視し、統制するか 50万人以上のユーザーにサービスを提供する60以上のAIソリューションを、誰の速度も落とすことなく?ここでexamroom.aiは、モデル、エージェント、ツールの前面にある単一のコントロールプレーンとして、TrueFoundry AI Gatewayを標準化しています。

「最近、TrueFoundryはゲートウェイも導入し、それによって可観測性とガバナンスの課題を解決できるようになりました。」

1. 修正点を示す可観測性

examroom.aiにとって、可観測性は単なるダッシュボードではありません。それは、受験者が結果を何時間も待つか、エンジニアが数分で根本原因を解決するかの違いを生み出します。結果が生成されない場合、システムはチームにその理由を伝える必要があります。パターン認識の問題だったのか、それともモデルが単にバブルを読み取れなかったのか?この区別によって、適切な通知が適切な管理者に送られ、その管理者が適切なエンジニアに連絡します。

「以前は、問題そのものを理解することが問題でした。今では、ログにアクセスしてフィルターを適用するだけで、問題が正確に何であるかを把握できます。TrueFoundryのおかげで、その上で取るべき行動まで示されるのです。デバッグしたり、すべてのログを印刷したりする必要はありません。すべてが目の前にあり、それを読んで行動するだけです。」

重要な実践: 可観測性は単なる可視性ではなく、行動可能なものとして扱うべきです。目標は、ログの羅列ではなく、推奨される行動を示すことです。

2. 委員会ではなく、ガードレールによるガバナンス

ガバナンスはAIチームにとって負担と見なされがちです。しかし、ディーパック氏の見解は逆で、事前にガードレールを正しく構築すれば、ガバナンスは自動的に機能すると言います。

「多くの人が、AIはガバナンスを扱うことができないと言います。しかし、正しく使えば、ガバナンスは自動的に機能します。必要な方法でガードレールを作成すれば、ガバナンスをまったく管理する必要はありません。」

具体的な例として、examroom.aiは、登録または支払い中に問題が発生した受験者向けのサポートアシスタントを運用しています。支払いを済ませたにもかかわらず確認が届かなかった受験者には、まさにその問題についてのみ支援が提供されるべきであり、それ以外は提供されません。「もし彼が政治や好きな食べ物について尋ね始めたらどうなるでしょう?そこでガードレールが役立つんです」とディーパック氏は言います。「関連する質問、つまり受験者が登録中または支払い中に直面した問題にのみ回答を提供します。」AI Gatewayは、これらのガードレールがサービス全体で一貫して定義および適用される場所であり、examroom.aiが試験項目を保護するために使用する暗号化と並行して機能します。試験項目の漏洩は、大学全体の評価の完全性を損なう可能性があります。

重要な実践: ガバナンスをゲートウェイで強制されるガードレールとして組み込むことで、すべてのモデルとエージェントが自動的に同じポリシーを継承するようにします。

3. レジリエンスとインテリジェントなフォールバック

50万人のユーザーがいる場合、1人のユーザーが60以上のAIソリューションのうち数十個を一度にトリガーする可能性があります。ゲートウェイとマイクロサービスアーキテクチャにより、examroom.aiは、1つのソリューションが誤動作した場合に3つから2つに切り替えるなど、システム全体を停止させることなく、段階的に機能を低下させることができます。「たとえ1つのサービスが停止しても、それに対して対処できますが、全体のサービスが停止することはありません」とディーパック氏は説明します。同じコントロールプレーンで、チームはモデルルーティング、仮想モデル、およびエージェントをツールに接続するMCPゲートウェイを管理します。

主な実践: ゲートウェイでのフォールバックを設計し、本番システムを変更することなく、モデルやサービス間でトラフィックを再ルーティングできるようにする。

4. スケールに対応した評価

examroom.aiは、RAGとファインチューニングのハイブリッドを標準化しており、デフォルトでは人間によるレビューではなく自動評価を採用しています。ディーパック氏は、「トークンを見ると、数百ではなく数千に及びます。手動で追跡するのは不可能です」と述べています。「だから、自分で評価できるシステムを構築し、もし失敗した場合は、もちろん人間が対応します。」RAGは、ナレッジベースの上にメモリとガードレールを簡単に定義できるようにし、ファインチューニングは、ドメイン固有の用語と標準化された出力を処理します。

結果

  • デプロイ時間が6日から2時間未満に短縮 — リリース速度における飛躍的な変化。
  • 3人の専任ML Opsエンジニアが解放され クラスター管理から解放され、製品開発に集中できるようになりました。
  • テストユーザー5人から本番ユーザー50万人にスケールアップ 評価ライフサイクル全体で。
  • 94のサービスがTrueFoundry上で稼働 本番、ステージング、UAT、QA、開発環境全体で — スポットインスタンスとオンデマンドインスタンスのフォールバックによるGPUオートスケーリング、サービスごとのコスト追跡、集中化されたログとレイテンシーメトリクスを備えています。
  • インシデント解決が、ログの深掘りから読み取りと対応に移行、フィルタリングされたログと推奨されるアクションにより。
  • 可観測性とガバナンスはAIゲートウェイに統合されつつあり examroom.aiの60以上のAIソリューションのための単一のコントロールプレーンとして機能しています。

AIを本番環境に導入するチームのための実践的な教訓

AIで成功するチームと苦戦するチームを分けるものは何かと尋ねると、ディーパック氏のアドバイスは具体的です。

  • すべてのソリューションをビジネスKPIに紐付ける — 時間の節約か、コストの節約か?「それが組織を運営するために必要なビジネス上の影響です。」
  • デリバリーパターンを標準化する。 特定の業界では、問題の60~70%は、アクセラレーター、オーケストレーションテンプレート、自動評価パイプライン、ガバナンスシステムといった再利用可能なアーキテクチャで解決できます。「6ヶ月のプロジェクトであれば、それだけで4ヶ月の短縮になります。」
  • 可観測性、CI/CD、ガバナンスシステムなしに、何も本番環境にデプロイしてはいけません。
  • ローカルマシンでの初期段階の成功に惑わされてはいけません。 重要なのは本番環境です — 「監視を続けましょう。」

まとめ

examroom.aiの取り組みは、本番AIで最も難しいのはモデルの構築ではなく、大規模なモデル群を安全に、可観測性を保ち、手頃なコストで運用することであることを示しています。TrueFoundryでのデプロイを標準化し、AI Gatewayで可観測性とガバナンスを統合することで、examroom.aiは、6日間3人のエンジニアを要していたデプロイプロセスを2時間のプッシュに短縮し、50万人以上のユーザー向けに60以上のAIソリューションを管理するために必要なコントロールプレーンを構築しました。もし本番環境でAIをスケールさせ、それに追随する可観測性とガバナンスが必要であれば、 TrueFoundryにご相談ください.

The fastest way to build, govern and scale your AI

MLパイプラインを初日から運用

パイプライン