業界全体でAIの採用が加速する中、企業はイノベーションに必要な GPU リソースにアクセスするにあたり、これまでにない障壁に直面しています。高額な頭金、長期契約、数か月のリードタイムにより、多くの人にとって AI イノベーションは手の届かないものとなっています。しかし今日、GMI Cloud はオンデマンド GPU クラウド製品の発売により、その状況を変えつつあります。これにより、最上位の NVIDIA GPU への即時かつスケーラブルで手頃な価格のアクセスが可能になります。

コンピューティングに対するグローバルな需要に応える多彩なオプション:

現在、AI計算能力に対する世界的な需要の急増により、企業はGPUにアクセスするためのアプローチを戦略的に行う必要があります。急速に変化する環境の中で、組織は 25 ～ 50% の頭金を支払い、6 ～ 12 か月で予約済みの GPU インフラストラクチャにアクセスできるようになることを約束する 3 年契約への申し込みを求められています。

基盤モデルトレーニングや継続的な推論などの大規模なAIイニシアチブやプロジェクトには確かに価値がありますが、予約型のベアメタル/プライベートクラウドソリューションはすべてのユースケースに適しているわけではありません。特定の企業、特に新興企業には、大規模な GPU の導入に取り組むだけの予算や長期予測能力が常に備わっているとは限りません。アプリケーション要件に基づいてスケールアップまたはスケールダウンできる柔軟性が必要です。同様に、企業のデータサイエンスチームは、AI アプリケーションを迅速に実験、プロトタイプ作成、評価するためのアジリティを必要とすることがよくあります。

GMI クラウドオンデマンド GPU

GMI Cloudは、最上位のGPUコンピューティングへのアクセスを向上させることにより、イノベーションを促進することに専念しています。本日、必要なソリューションを提供するオンデマンド GPU クラウド製品を発売します。これにより、組織は長期契約を必要とせずに長いリードタイムを回避し、GPU リソースにアクセスできます。私たちは、GPU に効果的にアクセスできないことで企業が感じる不満を目の当たりにしてきました。現在、アクセシビリティは多くの企業にとってイノベーションの主な障害となっています。この問題を解決するために GMI Cloud On-Demand を構築しました。オンデマンドモデルは、ラピッドプロトタイピングやモデルの微調整など、高い計算能力を必要とするプロジェクトに取り組むために、1 つまたは 2 つのインスタンスに短期的にすぐにアクセスする必要があるユーザーに最適です。GMI Cloud On-Demand では、NVIDIA H100 コンピューティングリソースにほぼ瞬時にアクセスでき、予約済みのプライベートクラウド GPU のほかにオプションが追加されます。

GMI Cloud のオンデマンドモデルのメリット

柔軟性の向上:長期間の契約や頭金なしで、GPU リソースをほぼ瞬時にスケールアップまたはスケールダウンできます。
手間のかからないデプロイ:専門的に事前に構築されたDockerイメージライブラリを使用して、ワンクリックでコンテナを起動するだけで、AIモデルを簡単にデプロイできます。環境の設定にかかる時間と複雑さを軽減し、チームがインフラストラクチャではなくイノベーションに集中できるようにします。
クラウドネイティブオーケストレーション:NVIDIA ソフトウェアと Kubernetes の統合により、コントロールプレーンから管理 API まで、AI ワークロードをシームレスに管理およびスケーリングできます。スケーラビリティと柔軟性を提供することで、パフォーマンスを損なうことなく、変化する需要に迅速に対応できるようになります。

技術的特徴と利点:

NVIDIA ソフトウェアスタックの統合:

GMI Cloud のオンデマンド GPU クラウド製品には、シームレスな導入と推論を可能にする包括的な NVIDIA ソフトウェアスタックが含まれています。

TensorRT: NVIDIA GPU 向けに最適化された高性能ディープラーニング推論ライブラリ。TensorRT は、さまざまなフレームワークにわたるモデルの推論を高速化し、リアルタイムアプリケーションのレイテンシを大幅に削減します。
NVIDIA Triton 推論サーバー:TensorFlow、PyTorch、ONNX、OpenVINOなどの複数のフレームワークをサポートするオープンソースの推論サービスソフトウェア。Tritonを使用すると、アンサンブルのデプロイ、動的バッチ処理、モデル最適化が可能になり、効率的な推論が可能になります。
NVIDIA NGC コンテナ:NGC カタログからビルド済みの NVIDIA GPU 最適化コンテナにアクセスできます。ビジョン、NLP、スピーチ、レコメンデーションシステム用のモデルとコンテナが含まれています。

クベルネテス・オーケストレーション:

GMI CloudのKubernetes管理プラットフォームは、MLワークロードのスケーラブルなオーケストレーションを提供します

マルチテナントと分離:Kubernetes の名前空間とリソースクォータにより、安全な分離と効率的なリソース割り当てが可能になります。
自動スケーリング:水平ポッド自動スケーリング (HPA) は、ワークロードの要求に基づいてポッドレプリカの数を動的に調整します。
GPU リソーススケジューリング:Kubernetes デバイスプラグインによる NVIDIA GPU のネイティブサポートにより、GPU の利用とスケジューリングが最適化されます。

推論モデルの導入:

GMI CloudのオンデマンドGPUクラウド製品は、さまざまなモデルの展開と推論を簡素化します。

ラマ3:8Bから70Bまでのパラメータ範囲で、さまざまなラマ3モデルサイズを微調整して推論します。
Mixtral 8x7B: 並列推論用に設計されたマルチLLMアンサンブルであるMixtralを導入してください。
安定拡散:Stable Diffusionの最先端の拡散モデルを使用して、高品質の画像を効率的に生成します。
Gemma 8x16B: 並列推論サービス用に最適化された、Google の大規模 Gemma モデルの推論サポート。

オンデマンド GPU ユースケース

スタートアップと研究者:

初期段階のスタートアップ：長期契約や大規模な設備投資を必要とせずに、AIプロジェクトのプロトタイプをすばやく作成し、牽引力に基づいてGPUリソースをスケーリングできます。
機械学習研究者:短期的なワークロードや予測不可能なワークロードに最適な、柔軟な従量課金制の価格設定を使用して、新しいモデル、アルゴリズム、手法を試してみてください。
微調整スペシャリスト:LlAMA 3、Mixtral、Gemmaなどのモデルを最適化し、微調整できます。プライベートインフラストラクチャをセットアップする手間がかかりません。

エンタープライズデータサイエンスチーム:

データサイエンティストとアナリスト:ほぼ瞬時に GPU にアクセスして AI アプリケーションのプロトタイプ作成、評価、スケーリングを行い、アジャイルな実験とテストを可能にします。
締め切りが厳しいAIチーム:数か月のリードタイムや長期契約による遅延を回避しながら、モデルトレーニングと推論を迅速に行えます。
プライベートクラウドの補完:オンデマンドインスタンスを使用して既存のプライベートクラウドインフラストラクチャを補完し、バーストワークロードにオーバーフロー容量を提供します。

機械学習プラクティショナーと DevOps エンジニア:

ML エンジニア:事前設定された NVIDIA ソフトウェアスタック環境を使用して、Stable Diffusion、Mixtral、Triton などのモデルを効率的にデプロイして推論できます。
DevOps Teams: Kubernetes オーケストレーションと GPU スケジューリング、名前空間の分離、自動スケーリングを活用して ML ワークフローを合理化します。
モデルデプロイメントスペシャリスト:NVIDIA Triton、TensorRT、NGC コンテナとのシームレスな統合により、さまざまな AI モデル間での手間のかからない推論が可能になります。

はじめに:

GMI クラウドは、NVIDIA H100 GPU に 14 日間オンデマンドでアクセスできる 1 時間あたり 4.39 ドルという競争力のある価格を提供しています。をご覧ください gmicloud.ai 当社のオンデマンド GPU クラウドにアクセスして、無限の AI の可能性を解き放ってください。

6月に台湾のComputexで開催されるGMI Cloudのブースを訪れて、オンデマンドGPUクラウド製品やその他の革新的なAIソリューションの実地デモンストレーションを行ってください。

インスタントGPU、無限AI：GMIクラウドがオンデマンドGPUクラウド製品を発表