Question 1

AI 推論における Prime Inference エンドポイントとは何ですか？

Accepted Answer

Prime Inference エンドポイントは、あなたのワークロードのために排他的に予約された GPU 容量上でモデルが動作する、シングルテナントの推論エンドポイントです。共用のサーバーレス推論とは異なり、他のテナントのトラフィックがスループットやレイテンシに影響を与えることはありません。パフォーマンスはプロビジョニングしたハードウェアによって決まり、レート制限は共用プールではなく専用容量に対して設定されます — これにより Prime Inference は、予測可能なレイテンシ、持続的なスループット、ワークロード分離を必要とする本番 AI ワークロードの標準的な選択肢となります。

Question 2

サーバーレス推論と Prime Inference の違いは何ですか？

Accepted Answer

サーバーレス推論はマルチテナントでトークン課金制、共用レート制限と固定のモデルカタログを備えています — プロトタイピング、低ボリュームな利用、弾力的なトラフィックに最適です。Prime Inference はシングルテナントで GPU 時間単位の課金、最適化されたランタイムを備えた予約済み NVIDIA GPU 上でオープンソースまたはカスタムモデルをデプロイできます。P95/P99 テールでの予測可能なレイテンシ、持続的な高スループット、カスタムまたはファインチューニング済みのモデルウェイト、コンプライアンスのためのワークロード分離が必要な場合は、Prime Inference を選択してください。

Question 3

H100、H200、Blackwell GPU の違いは何ですか？

Accepted Answer

NVIDIA H100（80 GB HBM3）は、ほとんどの LLM とマルチモーダル推論ワークロードの標準的な主力 GPU で、汎用本番トラフィックのベースラインです。H200（141 GB HBM3e）は H100 の約 1.4 倍のメモリと帯域幅を提供し、長文コンテキストモデル、大きな KV キャッシュのワークロード、メモリ依存の配信に最適です。Blackwell B200（192 GB HBM3e）はフロンティアモデルと FP4 推論を対象とし、最大 ~2.5 倍のスループットを実現します。GMI Cloud 上のほとんどの本番ワークロードは H100 または H200 で稼働し、Blackwell は性能が重要なフロンティアユースケース向けです。

Question 4

カスタムまたはファインチューニング済みのモデルを Prime Inference エンドポイントにデプロイできますか？

Accepted Answer

はい。GMI Cloud の Prime Inference は、Hugging Face のモデル、カスタムにファインチューニング済みの重み、そして Hugging Face、S3、または独自のストレージから読み込まれた独自モデルに対応しています。モデルは GMI の推論スタック — vLLM、TensorRT-LLM、SGLang — 上で読み込まれ、配信レイヤーの再設計は不要です。モデルごとのランタイム最適化により、カスタムウェイトでも予約済み NVIDIA GPU 上で最適化されたカーネルとルーティングの恩恵を受けられます。

Question 5

料金体系はどのようになっていますか？最低契約はありますか？

Accepted Answer

最低契約はありません。オンデマンド課金は GPU あたり時間単位で、トークンへのマークアップや共用プールでのサージプライシングはありません。持続的な本番ワークロード向けには、シーズン単位または年単位での予約容量が、より低い時間単価でご利用いただけます。条件を満たす見込み顧客には、自身のワークロードでパフォーマンスを検証できる無料の GPU 時間トライアルクレジットも提供されます。最新の GPU 料金、モデルとトラフィックプロファイルに基づくカスタム見積もり、その他の詳細については、営業までお問い合わせください。

より速くリリース。より広くスケール。たった一つの Prime Inference エンドポイントで。

ここで推論を実行する 3 つの理由。

重要なモデルでより高いスループットを

ユーザーのいる場所に容量を

予測ではなく、実際のトラフィックに合わせてスケール

GPU をリース。スループットはあなたのものに。

最適化されたランタイム

デフォルトでウォーム状態

シングルテナント分離

独自のモデルを持ち込み可能

使用するモデルに最適化

本番グレードのエンジン

ユーザーの近くにデプロイ。

アジア太平洋

北米

ヨーロッパ

トラフィックに合わせてスケール。

バースト可能な容量

休む分は払わない

ひとつのグローバルプール

アイデアからライブエンドポイントまで、4 ステップで。

モデルを選ぶ

構成を選ぶ

デプロイ

運用とスケール

使いたいモデルにアクセス。

DeepSeek V4

Kimi K2.6

GLM 5.1

Llama 4

Nemotron Omni

DeepSeek V4

Kimi K2.6

GLM 5.1

Llama 4

Nemotron Omni

共有推論では足りないワークロード。

コーディングエージェントと開発者ツール

TTS、文字起こし、会話

大規模 RAG とチャット

プライベートかつコンプライアンス対応のデプロイメント

用途に合った GPU を選ぶ。

H100

H200

B200

FAQ

AI 推論における Prime Inference エンドポイントとは何ですか？

サーバーレス推論と Prime Inference の違いは何ですか？

H100、H200、Blackwell GPU の違いは何ですか？

カスタムまたはファインチューニング済みのモデルを Prime Inference エンドポイントにデプロイできますか？

料金体系はどのようになっていますか？最低契約はありますか？

あなたの準備ができたら、すぐに。