Powered by NVIDIA
NVIDIA Preferred Partner

本番環境のAI運用に最適化された、AIネイティブの推論クラウドです。サーバーレスによる弾力的なスケーリングと専用GPUインフラを組み合わせることで、安定したパフォーマンスと予測可能なコストを実現します。

コンソールで始める
Higgsfield
Utopai
HeyGen
Eigen AI
Higgsfield
Utopai
HeyGen
Eigen AI

サーバーレスで始め、スケールとともに成長を。.

サーバーレス推論によりAIモデルを即座に実行し、ワークロードの拡大に応じて専用GPUインフラへシームレスにスケールします。

コンソールで始める

アイドルコストを排除するゼロスケール対応の自動スケーリング

バッチ処理と低レイテンシに対応したスケジューリング機能を標準搭載

LLMおよびマルチモーダル推論に対応した本番環境向けAPI

安定したパフォーマンスを実現するマルチテナント分離設計

サーバーレスでは対応しきれない場合に、インフラを自在にコントロール。

パフォーマンス、信頼性、スケーラビリティを追求し、NVIDIAのリファレンスプラットフォームクラウドアーキテクチャと検証済みの設計に基づいて構築されています。

GPUインフラを探索

安定したパフォーマンスを提供する専用ベアメタルGPU

クラスター エンジンにより、インフラ層でマルチノードクラスターを自動オーケストレーション

インフラ制御が求められる環境に対応。ルートアクセスおよびカスタムスタック

GPU料金

NVIDIA H100、H200、Blackwellプラットフォーム全体で対応し、本番環境におけるAIワークロード向けに透明性の高いGPU料金体系を提供します。

GPU料金を見る

NVIDIA H100

$2.00/GPU-hour

高メモリ帯域幅と大規模モデルの実行に対応する推論およびトレーニングジョブに最適

提供中

NVIDIA H200

$2.60/GPU-hour

高いパフォーマンス、可用性、充実したエコシステムにより、大規模なトレーニングおよび推論に最適化

提供中

NVIDIA Blackwell

先行予約

最大限のパフォーマンス余力を求める大規模デプロイを計画するチームに最適

近日公開

本番環境のAIは、GMI Cloudでさらに高いパフォーマンスを発揮する

実際の本番AIワークロード全体におけるパフォーマンス向上を実証しています

3.7x

スループット向上

5.1x

推論速度の向上

30%

コスト最適化

2.3x

需要急増時のスケーリング速度向上

同一のモデル構成を用い、リアルタイムおよびバッチワークロードを含む実際の本番推論トラフィックに基づいています。

推論ファーストのアーキテクチャ

推論はデフォルトでサーバーレス環境により実行されます。スケーリング、トラフィック処理、コスト最適化、ゼロスケールへの対応はすべて自動的に行われます。

サーバーレスを標準で提供

推論はデフォルトでサーバーレス環境で実行され、自動スケーリング、リクエストのバッチ処理、コスト最適化を重視したスケジューリングに対応しています。

大規模環境でも安定したパフォーマンス

RDMA対応のネットワーキングを備えた専用GPUクラスターにより、高負荷時においても安定したスループットを実現します。

柔軟なスケーラビリティ設計

APIベースの推論からフルGPUクラスターまで、スタックを再設計することなくシームレスにスケール可能です。

一流のAIチームに選ばれる信頼

Mirelo AIは、低コスト・高速なイテレーション・スタートアップに適した柔軟性を備えた基盤モデル開発のスケールを目指し、GMI CloudをAIインフラパートナーとして選定しました。

  • トレーニングコストを40%削減
  • トレーニング時間を20%短縮
  • 代替手段と比較してインフラコストを10〜15%削減
  • スタートアップのニーズに合わせた柔軟な商業契約

HiggsfieldはGMI Cloud上でリアルタイムの生成動画ワークロードを実行し、低レイテンシ・低コンピュートコスト・本番グレードの安定性を実現しています。

  • p95推論レイテンシを65%削減
  • コンピュートコストを45%削減
  • ピークトラフィック時のリクエスト成功率99.9%
  • 本番グレードのendpoint安定性

WiAdvanceはGMI Cloudと連携し、柔軟なインフラ割り当てとマネージドAIアクセスを通じて、台湾における官公庁・エンタープライズ向けのAI導入を支援しています。

  • 信頼性の高いSI/チャネル主導のデリバリーモデル
  • 政府・教育関連のユースケースに対応
  • コミット容量とオンデマンド容量にわたる柔軟なリソース割り当て
  • 下流業務向けの詳細な使用状況レポート

よくある質問

サービスに関してよく寄せられるご質問とその回答をご紹介します。

モデルをデプロイ。推論を実行。自動でスケール。

コンソールで始める