AI ワークロードは急速に変化しますが、インフラストラクチャもそうあるべきです。
開発者、新興企業、企業のいずれにとっても、厳格なプロビジョニングサイクルを待ったり、アイドル状態のリソースに多額の支払いをしたりするのは、不便というだけではありません。それはイノベーションを遅らせ、予算を浪費し、技術的負債を生み出します。チームは、長期契約や厳格なベンダーロックインに縛られることなく、迅速で柔軟かつ費用対効果の高いオプションを必要としています。
そこで、オンデマンド AI コンテナの出番です。
従来のインフラストラクチャの問題
ほとんどのクラウドとベアメタルインフラストラクチャはAI向けに設計されていません。
- 起動に時間がかかる: VM または物理マシンの起動には、数分から数時間かかる場合があります。簡単なジョブを実行したり、モデルの新しいバージョンをデプロイしたりするだけでは、時間の無駄になります。
- コストが高く無駄が多い: マシンがアイドル状態であっても料金が発生し、AI ワークロードが定常状態になることはめったにありません。
- ベンダーロックイン: 多くのチームは、長期契約、独自の API、またはロックステップのインフラストラクチャへのコミットメントを強いられることなく、オンデマンドコンピューティングのみを求めています。
そのため、完全に使用していないインフラストラクチャの管理オーバーヘッドや多額の支払いをすることなく、GPUにすぐにアクセスする必要がある開発者、研究者、製品チームにはギャップが生じます。
GMI クラウドオンデマンド AI コンテナの発表
GMI Cloudのクラスターエンジンがパワーアップしました オンデマンド AI コンテナ—数秒で起動し、弾力的にスケーリングし、アイドル状態の無駄を排除するGPUに最適化されたコンテナ。
On-Demand AI Containers を使用すれば、チームはパフォーマンスや経済性を犠牲にすることなく、集中的で実験的で予測不可能なワークロードを AI の実際の動作方法で実行できます。
主な特長とメリット
オンデマンド AI コンテナの各機能は、クライアントのニーズに合わせて設計されています。
スピード — ほぼ瞬時に起動
チームがジョブを実行するために数分または数時間待つ必要はもうありません。コンテナはすぐにスピンアップできるため、迅速な反復、より迅速なテスト、市場投入までの時間の短縮が可能になります。
伸縮自在性 — 必要に応じてスケーリング
ワークロードは予想外に増減します。オンデマンドスケーリングでは、簡単なテストに 1 つのコンテナーを使用する場合でも、大規模な推論バッチで数千のコンテナーを使用する場合でも、必要な分だけ支払いが発生します。過剰プロビジョニングや過少利用はもうありません。
グローバルな可用性 — どこにでも導入可能
当社のグローバルフットプリントにより、コンピューティングをユーザーの近くに配置し、レイテンシーを削減し、地域のデータ要件に準拠することができます。これは、顧客にリアルタイムでサービスを提供する必要がある分散型 AI アプリケーションにとって特に重要です。
効率性 — 課金は実際に使用した分だけ
AIコンテナは、使用していないときはクリーンにシャットダウンし、貴重なデータは後で再利用できるように共有ストレージに保存されます。つまり、アイドル状態の GPU コストが発生しないため、実際の製品開発のための予算を解放しつつ、インフラストラクチャの総支出を削減できます。
AI 最適化 — 推論とトレーニングの両方に対応するよう調整
スケジューリングとオーケストレーションは、GPU を中心に設計されています。推論パイプラインをデプロイする場合でも、トレーニングジョブをスピンアップする場合でも、このプラットフォームなら1ドルあたりのパフォーマンスを最大化できます。
開発者に優しい — API とカスタムイメージ
開発者がすでに使用しているツールを使用して、ワークフローにシームレスに統合できます。独自のイメージを持参するか、当社のイメージを使用して、数秒でデプロイできます。ロックインもプロプライエタリラッパーもありません。
仕組み
GMIクラウドの舞台裏 クラスターエンジン 複雑さを管理します。
- GPU、ネットワーク、スケジューリングを調整します。
- オンデマンドコンテナはその複雑さを抽象化するので、インフラストラクチャではなくモデルに集中できます。
- 組み込みのテレメトリにより、サードパーティのアドオンがなくてもオブザーバビリティとパフォーマンスに関するインサイトが得られます。
この組み合わせにより、必要のないオーバーヘッドなしで、必要な制御が可能になります。
対象者と使用事例
オンデマンド AI コンテナは、柔軟性を重視するチーム向けに構築されています。
- 推論パイプライン —ジェネレーティブAIプラットフォーム、SaaSスタートアップ、プロダクショントラフィックが急増している企業など、需要が変動する企業に最適です。コンテナは瞬時にスケーリングされ、ユーザーアクティビティの急増に対応できます。
- プロトタイピングとテスト — 数秒で環境を構築する必要がある開発者、研究者、データサイエンティストに最適です。待つ必要もなく、コミットメントも必要ありません。あっという間に実験するだけです。
- プロダクションアプリケーション —グローバルに事業を拡大している企業では、コンテナはユーザーの増加に合わせて調整されるため、インフラストラクチャを顧客の需要に合わせるのに必要な弾力性が得られます。
(多くの場合、トレーニングワークロードは、予約環境または専用環境の方が費用対効果が高くなりますが、オンデマンドコンテナを使用すると、チームは小規模または短期間のトレーニングジョブを遅滞なく柔軟に開始できます。)
空き状況とアクセス
ザの 本日、オープンベータが開始されました。
- サポートされている GPU: NVIDIA H100/H200
- 長期契約はありません。ロックインなし。必要なときに AI 対応インフラストラクチャを瞬時に利用できます。


