Blank white background with no objects or features visible.

TrueFoundryはSeldon AIの買収を発表し、エンタープライズAI向けコントロールプレーンを拡張します。プレスリリース全文はこちら→

NVIDIAがLLMエージェントでGPUクラスターの利用率を向上させる方法

概要

NVIDIAは、世界をリードするGPUサプライヤーです。世界中で前例のないGPU需要が高まる中、同社チームはデータセンターにおけるGPUクラスターのパフォーマンスと利用率の向上を目指しました。このソリューションにより、より多くのクライアントにGPUを提供し、GPUのリクエストから提供までの遅延時間を短縮することで、ユーザーエクスペリエンスを向上させることができます。

考案されたソリューションは、クラスターからリアルタイムで収集されるすべてのGPUテレメトリーデータ(利用率、消費電力、メモリ使用量、エラーなど)を処理し、GPUを利用率に基づいて評価し、ワークロードを最適化するための手順を提案するAIシステムでした。

チームは、TrueFoundryプラットフォーム上に、斬新なマルチエージェント対話システムとドメイン固有のLLMを構築・展開しました。エージェントはテレメトリーデータを使用してMLモデルと最適化アルゴリズムを構築し、GPU利用率を最適化しました!

今日のAIの代名詞であるNVIDIA

NVIDIAは、AIゴールドラッシュの真っただ中にある今日、世界で最も価値のある企業の一つです。同社は1993年に、ゲーミングや汎用コンピューティングでは解決できなかったその他のユースケースに特有の課題を解決する、アクセラレーテッドコンピューティングを構築するために設立されました。

NVIDIAの社名にまつわる話は面白いものです!会社に名前がつく前、共同創設者たちはすべてのファイルに「next version」を意味する「NV」と名付けていました。会社設立にあたり、共同創設者たちはこの2文字を含むすべての単語を検討しました。ある時、共同創設者たちは会社を「NVision」と名付けたかったのですが、その名前はすでにトイレットペーパーメーカーが使用していました。そこで、ファンは「invidia」(ラテン語で「羨望」の意)からNVIDIAという名前を提案しました。

2024年現在、NVIDIAのGPUは、LLMや生成AIを用いたほとんどの研究や価値創造の原動力となっています。ある四半期には、NVIDIAは250億ドル以上の収益を上げ、NVIDIAのGPUは非常に貴重なものとなり、データセンターへは装甲車で輸送されるほどです。NVIDIAのGPUに対する需要は非常に高く、社内外のユーザーは最高クラスのバージョンを入手するために待たされることがよくあります。

動機:GPU利用率の向上は、その莫大な需要を満たすのに役立つ

今日、GPUがいかに貴重であり、その需要が指数関数的に増加しているかを鑑み、NVIDIAは以下の目的を掲げた社内チームを立ち上げました。

  1. GPUクラスターからのROI向上: 各GPUクラスターのパフォーマンスと利用率を最大化する。
  2. GPUリクエストの迅速な処理: 既存のGPUからのユーザーエクスペリエンスと価値創造を向上させる。

機械学習モデルを用いた従来のアプローチには限界がある

従来、この問題は、過去のテレメトリーデータを分析し、ドメイン知識を活用して、特定の軸におけるクラスターのパフォーマンスや利用率を最適化する機械学習モデルを構築することで解決されてきました。

このアプローチの問題点は、以下の要因に影響されることです。

  1. 人間のバイアス:開発チームが最適化を考えられる軸に限定される
  2. スケーラビリティがない:ワークロードの種類、問題のクラス、クラスターの種類が増えるにつれてスケールしません。それぞれが独自の最適化手法を必要とする可能性があるためです!

このため、多くのGPUが十分に活用されず、多くのワークロードが待機状態になり、多くのイノベーションが棚上げされ、多くの人々が不満を抱えることになります。

LLMエージェントを用いた、最適化へのまったく新しいアプローチ

チームは、大規模なデータセットを処理し、論理的なアクションを推論するLLMの能力を活用して、GPU最適化を改善し、スケールさせることを検討しました。この解決策には以下の要素が必要となります。

  1. データ収集: クラスターのテレメトリーデータ(GPU使用率、温度、ワークロード)を、地域やクラウドプロバイダーをまたがるデータセンターから収集する必要があります。
  2. 監視および分析ダッシュボード: オペレーターが質問し、入力データを分析し、リアルタイムで監視し、可視化を作成するためのシームレスな方法を提供します。
  3. 自動最適化: データを処理し、クラスターのワークロードとリソース利用率を最適化するためのアクションを実行できる、継続的に監視するエージェント。
NVIDIAチームが考案した自動クラスター最適化システムのアプローチ

NVIDIAチームは、ドメインエキスパートやオペレーターが関連するドメイン固有の質問をすることで、実用的な洞察を生成できるよう、LLMエージェントシステムに支援を求めました。LLMエージェントは、これらの洞察を得るために必要なデータラングリング、コード実行、モデル構築のすべてを実行できるべきです。ユーザーは次のような抽象的な質問をすることができます。

  • キャンセルされたジョブについて教えてください。ユーザーが終了を要求したジョブとはどう異なりますか?なぜですか?
  • どのチームがGPUで最も多くの問題を抱えていますか?何か共通の特徴はありますか?
  • このデータの中に、他に異常だと感じるものはありますか?もしあれば、その理由を説明してください。

ソリューション:NVIDIAチームは、画期的なマルチエージェントベースのアプローチを考案しました。

NVIDIAの自律型可観測性エージェントチームは、この問題を解決するために独自のPアプローチを考案しました。彼らは、以下のことが可能なAIエージェントを用いてこの最適化を自動化することにしました。

  1. それぞれが特定のタスクセットを実行します
  2. 互いに通信します
  3. 分析モデルとMLモデルを構築します
  4. シミュレーションを実行します
  5. GPU利用率を最適化するための戦略を考案します

これらの戦略は、Llo11yPopというアプリケーションを通じてエンドユーザーに提供されます。このアプリケーションでは、抽象的な質問を投げかけるだけで、モデルが全体のオーケストレーションを担ってくれます!

マルチエージェントLLMシステムのアーキテクチャ

課題:このビジョンを実現するには、多数のエンジニアリングオーケストレーションが必要でした

この壮大な問題に取り組むため、NVIDIAチームはカスタム基盤モデルの構築、小規模言語モデル(SLM)のファインチューニング、特殊なエージェントの開発、さまざまなデータソースにわたる分散コンピューティングの自動化、そしてオンプレミスおよびクラウドサービスプロバイダーでのワークロード実行を行う必要がありました。このようなシステムを構築する上でのエンジニアリング上の課題には、以下のようなものがあります。

  • ハイブリッドおよびクロスクラウド環境の管理: これらのGPUは、世界中のあらゆるオンプレミスおよびクラウドデータセンターに存在します。
  • シームレスなモデル切り替え: エージェントシステムへの入力クエリの種類や、現在処理しているタスクに応じて、最適なモデルを使用するため
  • エージェントの構築とベンチマーク: シームレスなエージェント間通信、関連エージェントへのリクエストルーティング、およびさまざまなエージェントアーキテクチャのパフォーマンスベンチマークを可能にするため。

チームは、これらのエンジニアリング課題を解決し、モデルの事前学習、ファインチューニング、エージェントのデプロイなどに必要なツールキットを提供するために、TrueFoundryプラットフォームを使用することにしました。チームは、ビジネス課題の解決と最も高性能なソリューションの開発にのみ集中したいと考えていました。

スタック:TrueFoundryがエンジニアリング課題を解決し、チームはわずか6週間でリリースを開始しました!

「ユースケースに応じてモデルを簡単に切り替えることができ、新しいモデルがリリースされるたびに、この迅速な実験ペースのおかげで、わずか6週間で動作するPoCを出荷できました」とAaronは述べています。

NVIDIAチームは早い段階で、上記のような複雑な問題を解決するには、プロジェクトの開始時に課題に正面から取り組む必要があると認識していました。これにより、迅速なイテレーションが可能になり、さまざまなデータソース、エージェント、ユーザーペルソナ、質問タイプを迅速にサポートできるようになります。彼らはTrueFoundryプラットフォームを活用して、包括的なGenAIスタックを構築しました。

TrueFoundryが提供する生成AIインフラストラクチャ

プロジェクトの影響

AI革命において、NVIDIA製GPUの需要は事実上無限であるように見えます。このソリューションは、これらのGPUフリートの利用率と迅速な交換に影響を与え、NVIDIAがより多くの顧客や研究者にこれらのリソースを提供できるようにします。顧客へのサービス提供能力が1%向上するごとに、NVIDIAが事業を展開する規模において、数億ドル規模の影響が生じます。

このプロジェクトは、NVIDIAのGPUクラスター全体の利用率とそこから得られる成果に影響を与えるため、わずか1%の改善であっても数億ドル規模の影響をもたらします。利用率のわずかな改善でも、チームは新規顧客に対応できるようになり、会社にとって純粋な新規ビジネスにつながります。この分野にとって変革期とも言える時期に、影響力の大きいプロジェクトでチームと協力できたことを光栄に思います。

The fastest way to build, govern and scale your AI

MLパイプラインを初日から運用

パイプライン