TrueFoundry よくある質問と回答

モデルを本番環境に投入し、そこから効果を得るまでにかなりの時間がかかっています。データサイエンティストがこのプロセスを主導できるようにする方法はないでしょうか？

タイムラインの遅延の最大の原因は、チーム間の依存関係と、異なる役割を持つ人材のスキルセット不足にあると私たちは考えています。TrueFoundryは、データサイエンティストがPythonを使用してKubernetes上で簡単にトレーニングとデプロイを行えるようにし、また、インフラチームがセキュリティ制約とコスト予算を設定できるようにします。TrueFoundryは、GPUの自動プロビジョニングとシャットダウンのためにクラスターを設定し、コストを管理し、人為的なミスを回避します。

MLエンジニアは、モデルのトレーニングやデプロイに必要なインフラに関して、DevOps/プラットフォームチームに大きく依存しています。

TrueFoundryは、クラウドインフラ、Kubernetesクラスター、Dockerレジストリ、Gitリポジトリ、シークレットマネージャーなど、お客様の既存のインフラと統合します。インフラの上に抽象化レイヤーを提供し、データサイエンティストやMLエンジニアにとって理解しやすいものとしながら、インフラチームによる完全な設定も可能です。

MLのトレーニングとデプロイのために、標準のKubernetesインフラを利用したい

TrueFoundryはKubernetesネイティブであり、EKS、AKS、GKE（標準クラスターおよびAutopilotクラスター）で動作します。MLは、標準的なソフトウェアインフラと比較して、動的なノードプロビジョニング、GPUサポート、高速アクセス用のボリューム、コスト予算管理、開発者の自律性など、いくつかの特別な要件があります。当社はクラスター全体にわたるあらゆる詳細を処理し、お客様が最先端のインフラ上で最高のアプリケーション構築に集中できるようサポートします。

データサイエンティストはインフラやYAMLの扱いに煩わされたくない

Python APIを提供しているため、YAMLを操作する必要はありません。CI/CDパイプラインで利用したい場合は、YAMLサポートも提供しています。

データを自社のクラウドまたはオンプレミス環境内に保持したい

TrueFoundryは、お客様ご自身のKubernetesクラスターに完全にデプロイされます。データはお客様ご自身のVPC内に留まり、Dockerイメージはお客様ご自身のDockerレジストリに保存され、すべてのモデルはお客様ご自身のBLOBストレージシステムに留まります。

モデルはHPAを使用してオートスケーリングが設定されてデプロイされますが、モデルのダウンロード時間のため、オートスケーリングが非常に遅くなります。

デプロイポッド全体で共有ボリュームにモデルをマウントすることで、モデルのロード時間を短縮し、オートスケーリングを大幅に高速化します。また、CPU/メモリではなくリクエスト数に基づいてオートスケーリングを設定することで、より迅速なスケールアウトを可能にします。

Jupyter Notebookをホストし、リソースを柔軟にプロビジョニングできるように、かつコストとセキュリティに一定の制約を設けながらセルフサービス化したいと考えています。

Jupyter NotebookをKubernetes上でシームレスに実行するために、多大な努力を払ってきました。データサイエンティストは、必要なリソースと、非アクティブ状態が続いた後にNotebookが自動的に停止するまでの時間を設定できます。Notebookは、すべての状態が保持されたまま、ワンクリックで再開できます。これにより、データサイエンティストは独自の依存関係で独立して作業でき、コストも削減できます。

社内のすべてのモデルを一元的に管理し、どのモデルがどの環境にデプロイされているかを把握するにはどうすればよいですか？

TrueFoundryはモデルレジストリを提供しており、どのモデルがどのステージにあるかを追跡でき、レジストリ内のすべてのモデルのスキーマとAPIも管理できます。

モデルの新しいバージョンにトラフィックをミラーリングまたは分割し、完全に展開する前にオンラインのトラフィックでテストするにはどうすればよいですか？

モデルのトラフィックを効率的にミラーリングまたは分割する機能に取り組んできました。これにより、データサイエンティストはモデルを完全に本番環境に展開することなくテストできます。

クラウド（AWS、GCP、Azure）とオンプレミス全体でハードウェアとコンピューティングを利用したいと考えています。開発者が基盤となるコンピューティングを気にすることなく、ワークロードをある環境から別の環境へシームレスに移動できるようにするには、どのように接続すればよいですか？

クラウド間のKubernetesクラスターの細かな違いに対応するため、多大な努力を払ってきました。開発者は、基盤となるインフラストラクチャを気にすることなく、同じコードを記述し、あらゆる環境にデプロイできます。Kubernetesの基盤コンポーネントがインストールされているかの確認、イングレスやリソースの自動変更は弊社が担当します。

ビジネスにLLMの力を活用したいのですが、データを自社環境外に出すことはできません。OpenAIにデータを送信せずにLLMの力を利用する方法はありますか？

TrueFoundryは、オープンソースのLLMを自社インフラにデプロイし、ファインチューニングすることを可能にします。最も一般的なオープンソースモデルについては、すでに最適な設定を見つけているため、お客様が苦労する必要はありません。

すべての開発者が様々なLLMを素早く試して、どのような結果が得られるかを確認できるようにするにはどうすればよいですか？

社内LLMプレイグラウンドを提供しており、社内開発者向けに、自社でホストしているものを含め、どのLLMをホワイトリストに登録するかを決定できます。また、様々な開発者が社内データを使って実験できます。

機械学習インフラに多大なコストがかかっており、その追跡と削減が困難になっています。

開発者向けにサービスのコスト可視化を実現し、コスト削減のためのインサイトを提供します。TrueFoundry導入後、すべてのお客様が少なくとも30%のコスト削減を達成しています。

よくある質問

機械学習モデルのホスト、監視、共有を驚異的な速さで実現！

リソース

TrueFoundryが選ばれる理由

よくある質問

機械学習モデルのホスト、監視、共有を驚異的な速さで実現！

リソース

TrueFoundryが選ばれる理由

ニュースレターに登録する