NVIDIAは、世界をリードするGPUサプライヤーです。世界中で前例のないGPU需要が高まる中、同社チームはデータセンターにおけるGPUクラスターのパフォーマンスと利用率の向上を目指しました。このソリューションにより、より多くのクライアントにGPUを提供し、GPUのリクエストから提供までの遅延時間を短縮することで、ユーザーエクスペリエンスを向上させることができます。
考案されたソリューションは、クラスターからリアルタイムで収集されるすべてのGPUテレメトリーデータ(利用率、消費電力、メモリ使用量、エラーなど)を処理し、GPUを利用率に基づいて評価し、ワークロードを最適化するための手順を提案するAIシステムでした。
チームは、TrueFoundryプラットフォーム上に、斬新なマルチエージェント対話システムとドメイン固有のLLMを構築・展開しました。エージェントはテレメトリーデータを使用してMLモデルと最適化アルゴリズムを構築し、GPU利用率を最適化しました!
NVIDIAは、AIゴールドラッシュの真っただ中にある今日、世界で最も価値のある企業の一つです。同社は1993年に、ゲーミングや汎用コンピューティングでは解決できなかったその他のユースケースに特有の課題を解決する、アクセラレーテッドコンピューティングを構築するために設立されました。
NVIDIAの社名にまつわる話は面白いものです!会社に名前がつく前、共同創設者たちはすべてのファイルに「next version」を意味する「NV」と名付けていました。会社設立にあたり、共同創設者たちはこの2文字を含むすべての単語を検討しました。ある時、共同創設者たちは会社を「NVision」と名付けたかったのですが、その名前はすでにトイレットペーパーメーカーが使用していました。そこで、ファンは「invidia」(ラテン語で「羨望」の意)からNVIDIAという名前を提案しました。
2024年現在、NVIDIAのGPUは、LLMや生成AIを用いたほとんどの研究や価値創造の原動力となっています。ある四半期には、NVIDIAは250億ドル以上の収益を上げ、NVIDIAのGPUは非常に貴重なものとなり、データセンターへは装甲車で輸送されるほどです。NVIDIAのGPUに対する需要は非常に高く、社内外のユーザーは最高クラスのバージョンを入手するために待たされることがよくあります。
今日、GPUがいかに貴重であり、その需要が指数関数的に増加しているかを鑑み、NVIDIAは以下の目的を掲げた社内チームを立ち上げました。
従来、この問題は、過去のテレメトリーデータを分析し、ドメイン知識を活用して、特定の軸におけるクラスターのパフォーマンスや利用率を最適化する機械学習モデルを構築することで解決されてきました。
このアプローチの問題点は、以下の要因に影響されることです。
このため、多くのGPUが十分に活用されず、多くのワークロードが待機状態になり、多くのイノベーションが棚上げされ、多くの人々が不満を抱えることになります。
チームは、大規模なデータセットを処理し、論理的なアクションを推論するLLMの能力を活用して、GPU最適化を改善し、スケールさせることを検討しました。この解決策には以下の要素が必要となります。

NVIDIAチームは、ドメインエキスパートやオペレーターが関連するドメイン固有の質問をすることで、実用的な洞察を生成できるよう、LLMエージェントシステムに支援を求めました。LLMエージェントは、これらの洞察を得るために必要なデータラングリング、コード実行、モデル構築のすべてを実行できるべきです。ユーザーは次のような抽象的な質問をすることができます。
NVIDIAの自律型可観測性エージェントチームは、この問題を解決するために独自のPアプローチを考案しました。彼らは、以下のことが可能なAIエージェントを用いてこの最適化を自動化することにしました。
これらの戦略は、Llo11yPopというアプリケーションを通じてエンドユーザーに提供されます。このアプリケーションでは、抽象的な質問を投げかけるだけで、モデルが全体のオーケストレーションを担ってくれます!

この壮大な問題に取り組むため、NVIDIAチームはカスタム基盤モデルの構築、小規模言語モデル(SLM)のファインチューニング、特殊なエージェントの開発、さまざまなデータソースにわたる分散コンピューティングの自動化、そしてオンプレミスおよびクラウドサービスプロバイダーでのワークロード実行を行う必要がありました。このようなシステムを構築する上でのエンジニアリング上の課題には、以下のようなものがあります。
チームは、これらのエンジニアリング課題を解決し、モデルの事前学習、ファインチューニング、エージェントのデプロイなどに必要なツールキットを提供するために、TrueFoundryプラットフォームを使用することにしました。チームは、ビジネス課題の解決と最も高性能なソリューションの開発にのみ集中したいと考えていました。
「ユースケースに応じてモデルを簡単に切り替えることができ、新しいモデルがリリースされるたびに、この迅速な実験ペースのおかげで、わずか6週間で動作するPoCを出荷できました」とAaronは述べています。
NVIDIAチームは早い段階で、上記のような複雑な問題を解決するには、プロジェクトの開始時に課題に正面から取り組む必要があると認識していました。これにより、迅速なイテレーションが可能になり、さまざまなデータソース、エージェント、ユーザーペルソナ、質問タイプを迅速にサポートできるようになります。彼らはTrueFoundryプラットフォームを活用して、包括的なGenAIスタックを構築しました。

AI革命において、NVIDIA製GPUの需要は事実上無限であるように見えます。このソリューションは、これらのGPUフリートの利用率と迅速な交換に影響を与え、NVIDIAがより多くの顧客や研究者にこれらのリソースを提供できるようにします。顧客へのサービス提供能力が1%向上するごとに、NVIDIAが事業を展開する規模において、数億ドル規模の影響が生じます。
このプロジェクトは、NVIDIAのGPUクラスター全体の利用率とそこから得られる成果に影響を与えるため、わずか1%の改善であっても数億ドル規模の影響をもたらします。利用率のわずかな改善でも、チームは新規顧客に対応できるようになり、会社にとって純粋な新規ビジネスにつながります。この分野にとって変革期とも言える時期に、影響力の大きいプロジェクトでチームと協力できたことを光栄に思います。
