ヘルステック企業向け機械学習クラウドコスト削減

NeurobitはヘルステックAI研究の最先端を走っています。

Neurobitはニューヨーク、シンガポール、バンガロールに拠点を置くデジタルヘルス企業です。彼らは、睡眠中に収集されたバイタルデータをバイオマーカーとして使用し、健康上の有害な結果が発生するはるか以前にそれを予測し、対策を立てるための技術を開発しています。

同社は、1兆を超えるマルチチャネル生体データポイントを含む世界最大の睡眠データベースを構築しました。彼らがモデルを訓練したデータの規模は、あらゆる新しいシナリオにモデルを一般化できる堅牢性をもたらしています。彼らのユースケースは、新時代のヘルステック企業や大手テクノロジー企業の新たなAIイニシアチブにおける、最近の多くのAIの取り組みと類似しています。

私たちは、Neurobitのユースケースと、これまでお話ししてきた他のエンタープライズおよび中規模ヘルスケア企業のユースケースとの間に類似点を見出しました。

データプライバシーに関する極めて厳格なガイドラインにより、高度に規制されている
大規模なデータセット
モデルリクエストの失敗に対する許容度が低い
強固な知的財産保護規制を伴う独自のアルゴリズムの使用

サービスを提供できなかったユーザーごとに、チームは1000ドル以上の損失を被っていました。

私たちがNeurobitチームと初めて会ったとき、彼らは120以上の研究機関、大学、そして1000人以上の被験者と共に臨床試験を実施していました。これらの被験者のほとんどは同じ地理的場所にいました。

被験者が目覚めると、センサーが生体データを処理のためにサーバーに送信します。最終的な出力を生成するためには、各リクエストで20種類の異なるモデルを呼び出す必要があります。

各リクエストで送られてくるデータサイズは大きく（400MB以上）、トラフィックが多い時間帯には、チームは応答時間に著しい遅延が見られ、ユーザーデータの損失を伴うリクエストのドロップさえ発生していました。

Problems faced in the Machine Learning pipeline due to burst traffic — **リクエストのドロップは、会社にとって数千ドルの損失につながりました。**

‍

この状況は、チームにとって重大な財政的悪影響をもたらしていました。

治験被験者からの単一のリクエストをドロップすることは、実験費用として会社に1000ドル以上の損失をもたらしました。
同社は研究室や病院と協力することで臨床試験を加速させることが可能でしたが、データが大量にまとめてアップロードされるため、製品承認が遅れていました。

ヘルステック業界における他の機械学習ユースケースと同様に、チームは顧客データの損失や応答の遅延を許容できませんでした。

チームはモデルをKubernetesにデプロイしたいと考えていました。

チームは、処理前のリクエストを保存するキューを備えたKubernetesへのモデルデプロイが、信頼性の問題を解決できると認識していました。

しかし、同社の知的財産保護に関する規定により、モデルへのアクセスは機械学習チームの数名に限定され、DevOpsチームには許可されていませんでした。

機械学習チームには、これを自力で実行するためのKubernetesに関する帯域幅と専門知識が限られていました。そのため、彼らは新しいモデルの開発に注力したいと考えていました。

機械学習のデプロイに使用されていた既存のスタックは以下の通りです。

HTML Table Generator

Component	Tool
Machine Learning Development Framework	Tensorflow
Cloud	GCP and AWS
Model Serving	GRPC w/o a load balancer
Model Storage	Google Bucket

‍

このスタックは、ある程度の規模まではチームにとって問題なく機能していました。しかし、ユースケースが拡大するにつれて、チームはモデルの提供において信頼性の問題に直面し始め、早急な対応が必要となりました。

チームはモデルAPIのセキュリティを強化したいと考えていました。

同社は機密性の高い個人識別情報（PII）や医療データを扱っているため、モデルAPIのセキュリティ維持は彼らにとって最重要事項でした。顧客データがクラウドから流出しないようにし、使用しているAPIの認証およびセキュリティ基準を強化したいと考えていました。

チームはTrueFoundryとの提携を決定しました。

チームは、モデルへのアクセス権を持つ機械学習チームが、Kubernetes上でモデルを独立してデプロイおよび管理できるようにする方法を必要としていました。NeurobitチームがTrueFoundryとの提携を通じて達成したかった目標は以下の通りです。

大規模なサービス提供時におけるMLモデルの信頼性を向上させること。
DSチームがKubernetes上で機械学習モデルをデプロイおよび管理できるようにすること。
モデルAPIの認証およびセキュリティプロトコルを強化すること。

TrueFoundryは、チームが信頼性とセキュリティの問題を解決するのを支援しました。

プラットフォームは1日足らずでセットアップされました。

TrueFoundryチームは、Neurobitチームが2時間の電話会議内でTrueFoundryエージェントとコントロールプレーンをクラスターにインストールできるよう支援しました。必要なアクセス権と権限について説明を受け、単一の電話会議でインストールの各ステップを案内されました。

チームは、TrueFoundryプラットフォームのうち、自分たちに関連するモジュール（モデルデプロイと認証）のみをインストールする選択肢を与えられました。

インストール後、チームはプラットフォームのデモを受け、ドキュメントが引き渡されました。

Neurobitチームは初日からデプロイを開始しました。

Neurobitチームは、初日からすぐにモデルのデプロイにプラットフォームを利用開始できました。Gitリポジトリをプラットフォームに直接接続でき、このコードはTrueFoundryのUI、API、またはPython SDKを使用することで、自動的にDocker化され、プラットフォームにデプロイされました。チームが完了しようとしていたすべてのワークフローにおいて、コードの変更は不要で、追加のフレームワークを学ぶ必要もありませんでした。

チームは信頼性の問題を迅速に解決したいと考えていたため、素晴らしいペースで作業を進めました。数日以内に、プラットフォームの機能を次々と探索し始め、私たちにフィードバックを提供してくれました。

2週間以内に、チームは次のことを実現しました。

TrueFoundryを使って、MLワークロードをKubernetesに完全に移行する。
バーストトラフィック検出時に受信リクエストを保存するための非同期キューを備えたMLモデルを、シンプルなフラグ設定でデプロイする。
トラフィックパターンに応じてMLサービスのリソース割り当てを最適化し、リクエスト量が少ない場合には、コスト削減のためにプロビジョニングされたリソースをスケールダウンする。
すべてのモデルAPIエンドポイントで認証を設定し、セキュリティを強化する。

機械学習のユースケースへの影響

TrueFoundry上での機械学習モデルのデプロイを通じて、チームは以下のことを達成できました。

モデルの障害や信頼性の問題をゼロにすることで、被験者への支払いに関して約2万5千～3万ドルの節約。
クラウドコストを35～40%削減
病院や研究機関との連携により、臨床試験を3～6ヶ月短縮
モデルAPIエンドポイントでの認証設定

TrueFoundryチームはNeurobitチームのソフトウェアアーキテクチャ最適化も支援しました

機械学習モデルに関する最優先の課題が解決された後、TrueFoundryチームは、Neurobitチームが成功するための体制を整えるべく、さらに踏み込むことを決定しました。Neurobitチームとの対話の中で、同社のマイクロサービスアーキテクチャにはさらなる最適化の余地があることが分かりました。これは、チームが負担していた推論時間とクラウドコストに影響を与える可能性がありました。

私たちは最終的に、チームと共にマイクロサービスアーキテクチャの詳細なレビューを実施しました。

Originally each microservice was writing its output in a database and the next microservice was loading the output of the previous microservice from the database wasting a lot of time — **元のマイクロサービスアーキテクチャ**

チームが採用していたアーキテクチャについて、以下の点を把握しました。

ユーザーから受け取った入力処理のために、5つの異なるマイクロサービスが呼び出されていました。
各サービスは中間出力をデータベースに書き込んでいました。次のサービスは、このデータベースから前のサービスの出力を読み込み、計算を実行し、次のマイクロサービスが利用できるようにデータベースに書き戻していました。

このプロセス全体で、各リクエストにつき約7分かかっていました。

TrueFoundryによる最適化されたマイクロサービスアーキテクチャ

We were able to help the team reduce 70% of its inference time by simplifying the microservices architecture — TrueFoundryによる最適化されたマイクロサービスアーキテクチャ

‍

私たちは、チームが必要とするフォールトトレランスと推論時間を理解しようと努めました。この理解に基づき、Neurobitチームには、gRPCプロトコルを介してあるサービスの出力を別のサービスに直接渡すことを提案しました。

このアーキテクチャの利点は次のとおりでした。

各マイクロサービスの実行には約30秒かかっていたため、パイプライン全体を再実行できることから、障害が発生した場合でも中間出力が失われるリスクはそれほど大きくありませんでした。
これにより、データ転送コストと、中間出力をデータベースに書き込むのにかかる時間が大幅に削減されます。

この新しいパイプラインはTrueFoundryプラットフォーム上でホストされ、モデルの推論時間を1リクエストあたり約7分から約2分に短縮しました。

アーキテクチャ再設計の影響

MLパイプラインの推論時間が約7分から約2分に短縮されました。
機械学習サービスの実行コストが60～70%削減されました。
開発者の生産性と独立性が向上しました。以前はDevOpsチームとのやり取りが必要だったモデルやアプリケーションを、開発者自身でデプロイできるようになりました。
チームは現在、すべてのモデルとアプリケーションを完全にKubernetes上で実行しています。

ビジネスへの影響

Neurobitチームとのパートナーシップが進むにつれて、TrueFoundryプラットフォームがNeurobitチームの達成を支援した、応答時間の高速化、信頼性、スケーラビリティといった恩恵をビジネスが実感しているのを見てきました。

6 months Faster GTM, 60% reduction in Cloud Costs, 70% Faster model response times — この取り組みによるNeurobitのビジネスへの影響

‍

Neurobitの技術スタックへの影響

TrueFoundryは、NeurobitチームがKubernetesに関する新たな学習の複雑さに直面することなく、すべての機械学習ワークロードをKubernetesに移行するのを支援しました。また、非同期デプロイ、オートスケーリングの設定、サーバーレスデプロイなど、Kubernetesにおける高度な操作をチームが自律的に処理できるようにも貢献しました。

私たちは、Neurobitチームがソフトウェアリソースの一部をKubernetes上のマイクロサービスアーキテクチャに移行するのを支援し、彼らのスタックが将来にわたって通用し、最適な利用レベルで稼働できるようにしました。

Complete Migration to Kubernetes, 80% Lesser Interaction of ML team with DevOps, Strong Authentication on all API end points, Stack Ready for 100X Scale and SOTA models — 本協業がNeurobitにもたらした技術的影響

‍

"Working with TrueFoundry has proven to be a game-changer for our development team. They've provided us with the tools necessary to independently deploy our models on Kubernetes, an accomplishment that previously seemed out of our reach. As a result, the speed at which our team can now operate has seen a considerable increase. We're now able to deploy and scale our models confidently, all the while ensuring availability and scalability.

The commitment and diligence of the TrueFoundry team truly stand out. They've exceeded the initial project's expectations and demonstrated an earnest interest in driving our success. Impressively, they extended their expertise even beyond machine learning, taking the time to deeply understand and improve our broader architectural framework.

By partnering with TrueFoundry, we've achieved significant operational efficiencies and cost savings. Our model inference times have been reduced by approximately 50%, leading to a noticeable enhancement in customer experience. Simultaneously, our infrastructure costs have seen a substantial decrease of about 60%, through efficianent use of infrastructure. This partnership has not only led to financial savings for us but also vastly improved our service delivery to customers and rapid development of technologies for the data science team."

- Dr. Amiya Patnaik, Co-founder and Director @ Neurobit

Neurobitとの協業から得られた学び

Neurobitとの協業を続け、彼らが目指す人工知能による規模と影響力を達成できるよう支援する中で、私たちはチームとの関わりから得られたすべての学びに感謝しています。これは、クライアントとの関わり方について考える上で役立っただけでなく、私たちの製品に確固たる方向性をもたらしました。

私たちの主要な学びには、以下が含まれます。

企業はリソースを最適に利用することで、クラウドコストの大幅な部分（40%以上）を削減できます。
開発者が自律的にリリースを行えるようにし、権限を与えることで、チームが成果物をリリースするペースが加速します。
スケール対応可能なスタックで開始することで、問題が発生せず、最終的に移行のための余分な労力を費やすことにならないことを保証します。

Neurobitチームが実現を求めていたユースケースを解決する中で、私たちはプラットフォームのいくつかの重要な機能を共同開発しました。これらには以下が含まれます。

非同期デプロイ
ホスト型Jupyter Notebooks

今後の展望

私たちはNeurobitチームと長期的に協力していくことを楽しみにしています。彼らを支援しながら、私たちも彼らから学ぶ機会を得たいと考えています。この協業で期待される今後の展開には、以下が含まれます。

モデル推論のスループットを現在の10倍の規模に拡大する
Neurobitのソフトウェアスタック全体をTrueFoundryに移行する支援
新しい実験的モデルのデプロイと、研究室、病院、介護施設と連携したそれらのモデルでのパイロット運用。

次に何が起こるか楽しみです！

The fastest way to build, govern and scale your AI

Book a Demo

Neurobitがクラウドコストを60%削減し、機械学習を大規模に提供する方法

60%

70%

10倍

NeurobitはヘルステックAI研究の最先端を走っています。