NVIDIAは世界をリードするGPUサプライヤーです。世界中で前例のないGPU需要がある中、チームはデータセンターにおけるGPUクラスターのパフォーマンスと利用率を向上させたいと考えました。このソリューションは、より多くのクライアントにGPUを提供し、GPUリクエストから提供までの遅延時間を短縮することで、ユーザーエクスペリエンスを向上させるのに役立ちます。
考案されたソリューションは、クラスターからリアルタイムで収集されるすべてのGPUテレメトリーデータ(利用率、消費電力、メモリ使用量、エラーなど)を処理し、GPUを利用率に基づいて評価し、ワークロードを最適化するための手順を提案するAIシステムでした。
チームはTrueFoundryプラットフォーム上に、斬新なマルチエージェント対話システムとドメイン固有のLLMを構築・展開しました。エージェントはテレメトリーデータを使用して機械学習モデルと最適化アルゴリズムを構築し、GPU利用率を最適化しました!
AIゴールドラッシュの真っただ中にある今日、NVIDIAは世界で最も価値のある企業の一つです。同社は1993年に設立され、汎用コンピューティングでは解決できなかったゲーミングやその他のユースケースに特有の課題を解決するアクセラレーテッドコンピューティングを構築してきました。
NVIDIAの社名にまつわる話は面白いものです!会社に名前がつく前、共同創設者たちはすべてのファイルに「next version」を意味する「NV」と名付けていました。会社を設立するにあたり、共同創設者たちはその2文字を含むすべての単語を検討しました。ある時、共同創設者たちは会社名をNVisionにしようとしましたが、その名前はすでにトイレットペーパーメーカーが使用していました。ファンは、「羨望」を意味するラテン語の「invidia」からNVIDIAという名前を提案しました。
2024年現在。NVIDIAのGPUは、LLMや生成AIを用いたほとんどの研究と価値創造の原動力となっています。ある四半期には、NVIDIAは250億ドル以上の収益を上げ、NVIDIAのGPUは非常に貴重なものとなり、データセンターへは装甲車で輸送されています。NVIDIAのGPUに対する需要は非常に高く、社内外のユーザーはしばしば最高クラスのバージョンを待たなければなりません。
今日、GPUがいかに貴重であり、その需要が指数関数的に増加していることを踏まえ、NVIDIAは以下の目的を持って社内にチームを立ち上げました。
各GPUクラスターのパフォーマンスと利用率の最大化
既存のGPUからユーザーエクスペリエンスを向上させ、価値を創造する。
従来、この問題は、過去のテレメトリーデータを分析し、ドメイン知識を用いて、任意の軸でクラスターのパフォーマンス/利用率を最適化する機械学習モデルを構築することで解決されてきました。
このアプローチの問題点は、以下の要素に影響されることです。
これにより、多くのGPUが十分に活用されず、多くのワークロードが待機し、多くのイノベーションが棚上げされ、多くの人々が不満を抱えています。
チームは、大規模なデータセットを処理し、GPU最適化を改善および拡張するための論理的なアクションを推論するLLMの能力を活用することを検討しました。ソリューションには以下のものが必要となります。
NVIDIAチームは、LLMエージェントシステムが、ドメインエキスパートやオペレーターが関連するドメイン固有の質問をすることで、実用的な洞察を生み出すのを助けることを望んでいました。LLMエージェントは、これらの洞察を得るために必要なデータラングリング、コード実行、モデル構築のすべてを実行できる必要があります。ユーザーは次のような抽象的な質問をすることができます。
NVIDIAの自律型オブザーバビリティエージェントチームは、この問題を解決するために独自の解決策を考案しました。彼らはAIエージェントを使ってこの最適化を自動化することを決定しました。そのAIエージェントは以下のことが可能です。
これらの戦略は、Llo11yPopというアプリケーションを通じてエンドユーザーに提供され、抽象的な質問を投げかけ、モデルにすべてのオーケストレーションを実行させることができます!
この壮大な課題を解決するため、NVIDIAチームはカスタムの基盤モデルを構築し、小規模言語モデル(SLM)をファインチューニングし、特殊なエージェントを開発し、さまざまなデータソースにわたる分散コンピューティングを自動化し、オンプレミスおよびクラウドサービスプロバイダーでワークロードを実行する必要がありました。このようなシステムを構築する上でのエンジニアリング上の課題には、次のようなものがあります。
チームは、これらのエンジニアリング課題を解決し、モデルの事前学習、ファインチューニング、エージェントのデプロイなどに必要なツールキットを提供するために、TrueFoundryプラットフォームを使用することを決定しました。チームは、ビジネス課題の解決と最も高性能なソリューションの開発に専念したいと考えていました。
ユースケースに応じてモデルを簡単に切り替え、新しいモデルがリリースされるたびに、この迅速な実験のペースが
NVIDIAチームは、上記のような複雑な問題を解決するには、プロジェクトの開始時に課題に正面から取り組む必要があると早期に認識しました。これにより、迅速な反復が可能になり、さまざまなデータソース、エージェント、ユーザーペルソナ、質問タイプに迅速に対応できるようになります。彼らはTrueFoundryプラットフォームを活用して、包括的な生成AIスタックを構築しました。
AI革命において、NVIDIA GPUの需要は事実上無限です。このソリューションは、これらのGPUフリートの利用率と迅速な交換に影響を与え、NVIDIAがより多くの顧客にこれらのリソースをはるかに迅速に提供できるようにします。わずかな割合であっても、それが大きなビジネスインパクトにつながります。利用率のわずかな改善でも、チームは新規顧客に対応できるようになり、会社にとって新たなビジネスを生み出します。TrueFoundryチームは、この分野にとって変革期にあるこのような重要なプロジェクトでNVIDIAチームと協力できたことを光栄に思っています。
