NVIDIAによるLLMエージェントを活用したGPUクラスター利用率の向上

概要

NVIDIAは世界をリードするGPUサプライヤーです。世界中で前例のないGPU需要がある中、チームはデータセンターにおけるGPUクラスターのパフォーマンスと利用率を向上させたいと考えました。このソリューションは、より多くのクライアントにGPUを提供し、GPUリクエストから提供までの遅延時間を短縮することで、ユーザーエクスペリエンスを向上させるのに役立ちます。

考案されたソリューションは、クラスターからリアルタイムで収集されるすべてのGPUテレメトリーデータ（利用率、消費電力、メモリ使用量、エラーなど）を処理し、GPUを利用率に基づいて評価し、ワークロードを最適化するための手順を提案するAIシステムでした。

チームはTrueFoundryプラットフォーム上に、斬新なマルチエージェント対話システムとドメイン固有のLLMを構築・展開しました。エージェントはテレメトリーデータを使用して機械学習モデルと最適化アルゴリズムを構築し、GPU利用率を最適化しました！

今日のAIにおいて、NVIDIAは代名詞的存在です。

AIゴールドラッシュの真っただ中にある今日、NVIDIAは世界で最も価値のある企業の一つです。同社は1993年に設立され、汎用コンピューティングでは解決できなかったゲーミングやその他のユースケースに特有の課題を解決するアクセラレーテッドコンピューティングを構築してきました。

NVIDIAの社名にまつわる話は面白いものです！会社に名前がつく前、共同創設者たちはすべてのファイルに「next version」を意味する「NV」と名付けていました。会社を設立するにあたり、共同創設者たちはその2文字を含むすべての単語を検討しました。ある時、共同創設者たちは会社名をNVisionにしようとしましたが、その名前はすでにトイレットペーパーメーカーが使用していました。ファンは、「羨望」を意味するラテン語の「invidia」からNVIDIAという名前を提案しました。

2024年現在。NVIDIAのGPUは、LLMや生成AIを用いたほとんどの研究と価値創造の原動力となっています。ある四半期には、NVIDIAは250億ドル以上の収益を上げ、NVIDIAのGPUは非常に貴重なものとなり、データセンターへは装甲車で輸送されています。NVIDIAのGPUに対する需要は非常に高く、社内外のユーザーはしばしば最高クラスのバージョンを待たなければなりません。

動機：GPU利用率の向上は、その莫大な需要を満たすのに役立つ

今日、GPUがいかに貴重であり、その需要が指数関数的に増加していることを踏まえ、NVIDIAは以下の目的を持って社内にチームを立ち上げました。

GPUクラスターからのROI向上

各GPUクラスターのパフォーマンスと利用率の最大化

GPUリクエストへのより迅速な対応

既存のGPUからユーザーエクスペリエンスを向上させ、価値を創造する。

機械学習モデルを用いた従来のアプローチには限界がある

従来、この問題は、過去のテレメトリーデータを分析し、ドメイン知識を用いて、任意の軸でクラスターのパフォーマンス/利用率を最適化する機械学習モデルを構築することで解決されてきました。 

このアプローチの問題点は、以下の要素に影響されることです。

人間のバイアス: 開発チームが最適化を考えられる軸に限定される
スケーラブルではない：ワークロードの種類、問題のクラス、またはクラスターの種類の数に応じてスケーリングしません。それぞれが独自の最適化手法を必要とする可能性があるためです！

これにより、多くのGPUが十分に活用されず、多くのワークロードが待機し、多くのイノベーションが棚上げされ、多くの人々が不満を抱えています。

LLMエージェントを使用した最適化へのまったく新しいアプローチ

チームは、大規模なデータセットを処理し、GPU最適化を改善および拡張するための論理的なアクションを推論するLLMの能力を活用することを検討しました。ソリューションには以下のものが必要となります。 

データ収集：クラスターテレメトリーデータ（GPU使用率、温度、ワークロード）は、地域やクラウドプロバイダーをまたがるデータセンターから収集する必要があります。
監視および分析ダッシュボード：オペレーターが質問し、受信データを分析し、リアルタイムで監視し、視覚化を作成するためのシームレスな方法を提供します。
自動最適化：データを継続的に処理し、クラスターのワークロードとリソース利用率を最適化するためのアクションを実行できる、継続的に監視するエージェント。

Telemetry data workflow with human validation and LLM agent analysis for cluster optimization process steps.

NVIDIAチームが考案した自動クラスター最適化システムのアプローチ

エージェントはドメインエキスパートの知識を活用できるべき

NVIDIAチームは、LLMエージェントシステムが、ドメインエキスパートやオペレーターが関連するドメイン固有の質問をすることで、実用的な洞察を生み出すのを助けることを望んでいました。LLMエージェントは、これらの洞察を得るために必要なデータラングリング、コード実行、モデル構築のすべてを実行できる必要があります。ユーザーは次のような抽象的な質問をすることができます。

キャンセルされたジョブについて教えてください。ユーザーが終了を要求したジョブとはどう異なりますか？なぜですか？
どのチームがGPUに関して最も問題を抱えていますか？何か共通の特徴はありますか？
このデータに他に異常な点はありませんか？もしあれば、その理由を説明してください。

ソリューション：NVIDIAチームは、画期的なマルチエージェントベースのアプローチを考案しました。

NVIDIAの自律型オブザーバビリティエージェントチームは、この問題を解決するために独自の解決策を考案しました。彼らはAIエージェントを使ってこの最適化を自動化することを決定しました。そのAIエージェントは以下のことが可能です。 

それぞれが特定のタスクセットを実行する
互いに連携する
分析モデルと機械学習モデルを構築する
シミュレーションを実行する
GPU利用率を最適化する戦略を立てる

これらの戦略は、Llo11yPopというアプリケーションを通じてエンドユーザーに提供され、抽象的な質問を投げかけ、モデルにすべてのオーケストレーションを実行させることができます！

Data pipeline architecture with agents, memory optimization, and modeling for internal ML models and optimization.

マルチエージェントLLMシステムのアーキテクチャ

課題：ビジョンを実現するためには、多数のエンジニアリングオーケストレーションが必要でした

この壮大な課題を解決するため、NVIDIAチームはカスタムの基盤モデルを構築し、小規模言語モデル（SLM）をファインチューニングし、特殊なエージェントを開発し、さまざまなデータソースにわたる分散コンピューティングを自動化し、オンプレミスおよびクラウドサービスプロバイダーでワークロードを実行する必要がありました。このようなシステムを構築する上でのエンジニアリング上の課題には、次のようなものがあります。 

ハイブリッドおよびクロスクラウド環境の管理：これらのGPUは、世界中のさまざまなオンプレミスおよびクラウドデータセンターに存在します。
シームレスなモデル切り替え：エージェントシステムへの入力クエリまたは現在のタスクの種類に基づいて、最適なモデルを使用するため
エージェントの構築とベンチマーク：

チームは、これらのエンジニアリング課題を解決し、モデルの事前学習、ファインチューニング、エージェントのデプロイなどに必要なツールキットを提供するために、TrueFoundryプラットフォームを使用することを決定しました。チームは、ビジネス課題の解決と最も高性能なソリューションの開発に専念したいと考えていました。

スタック：TrueFoundryプラットフォームがエンジニアリングの課題を解決したことで、NVIDIAチームはわずか6週間で出荷を開始しました！

ユースケースに応じてモデルを簡単に切り替え、新しいモデルがリリースされるたびに、この迅速な実験のペースが

アーロン・エリクソン

シニアエンジニアリングマネージャー 自律オブザーバビリティチーム、NVIDIA

NVIDIAチームは、上記のような複雑な問題を解決するには、プロジェクトの開始時に課題に正面から取り組む必要があると早期に認識しました。これにより、迅速な反復が可能になり、さまざまなデータソース、エージェント、ユーザーペルソナ、質問タイプに迅速に対応できるようになります。彼らはTrueFoundryプラットフォームを活用して、包括的な生成AIスタックを構築しました。

Central API Gateway with LLM deployment, backend and DB components, and agent playground architecture diagram.

TrueFoundryが実現する生成AIインフラ

プロジェクトの成果

AI革命において、NVIDIA GPUの需要は事実上無限です。このソリューションは、これらのGPUフリートの利用率と迅速な交換に影響を与え、NVIDIAがより多くの顧客にこれらのリソースをはるかに迅速に提供できるようにします。わずかな割合であっても、それが大きなビジネスインパクトにつながります。利用率のわずかな改善でも、チームは新規顧客に対応できるようになり、会社にとって新たなビジネスを生み出します。TrueFoundryチームは、この分野にとって変革期にあるこのような重要なプロジェクトでNVIDIAチームと協力できたことを光栄に思っています。

Purple gradient background with curved lines on gray, rounded rectangle with subtle design elements.

生成AIインフラ - シンプル、高速、低コスト

Fortune 100企業からスタートアップまで、幅広く信頼されています

今すぐお試しください

専門家にご相談ください

方法

LLMエージェントでGPUクラスターの利用率を向上させる

概要

今日のAIにおいて、NVIDIAは代名詞的存在です。