より速くリリース。より広くスケール。たった一つの Prime Inference エンドポイントで。

Prime Inference は、モデルごとに最適化された予約済み GPU 容量と、動くプロトタイプを本番システムへと進化させるエンジニアリングパートナーシップを提供します。

コンソールで始める

H100 · H200 · Blackwell

NVIDIA 認定ハードウェア

99.9% 稼働率

本番 SLA

ここで推論を実行する 3 つの理由。

パフォーマンス、リーチ、そして弾力性 — 実際の本番トラフィック向けに設計され、あらゆる規模に対応します。

スループット 2 倍

トップパフォーマンス

重要なモデルでより高いスループットを

カーネル、スケジューリング、ルーティングを含むモデルごとのランタイム最適化により、主要なオープンソースモデルで汎用スタックの最大 2 倍の持続的スループットを実現します。

参考ベンチマーク。実際のパフォーマンスはモデルとワークロードにより異なります。

3 大リージョン

低レイテンシ

ユーザーのいる場所に容量を

APAC、北米、ヨーロッパに展開するシングルテナント容量。低 TTFT のためのリージョンピン、データレジデンシーのためのリージョンロック — 市場に合わせた最適なデプロイを実現します。

業界最高水準

弾力性を前提に設計

予測ではなく、実際のトラフィックに合わせてスケール

バーストでスパイクを吸収し、閑散時はドレインしてコストを削減。他のプラットフォームが解決できない課題をすでに克服し、プロビジョニングのさらなる高速化も進行中です。

GPU をリース。スループットはあなたのものに。

予約済み容量は実際の本番トラフィックに報い、モデルごとのランタイム最適化が時間とともにその優位性を積み重ねます。

最適化されたランタイム

汎用スタックではなく、モデルごとのカーネル、スケジューリング、ルーティング最適化。モデルを選べば、エンジン部分は私たちが担当します。

デフォルトでウォーム状態

予約済み GPU は重みをプリロードしてウォーム状態を維持。すべてのコールが即座にヒット — コールドスタートの遅延も、ファーストトークンのジッターもありません。

シングルテナント分離

あなたのワークロード専用に予約された GPU。騒がしい隣人も、負荷時の競合も、共用ティアの想定外も発生しません。

独自のモデルを持ち込み可能

オープンソース、ファインチューニング済み、独自のいずれの重みにも対応。Hugging Face、S3、または独自のストレージから読み込み — それを適切に提供するために構築されたランタイム上で。

使用するモデルに最適化

私たちの推論エンジニアが最も多くデプロイされているオープンソースモデルのランタイムを継続的にチューニング — モデルを選んだ瞬間、カーネル作業はすでに完了しています。

本番グレードのエンジン

vLLM、TensorRT-LLM、SGLang を GPU クラスごとに事前最適化。量子化は設定可能。マルチ GPU オーケストレーションにも対応。

ユーザーの近くにデプロイ。

ファーストトークン遅延のためにエンドポイントをリージョンピン、またはデータレジデンシーのためにリージョンロック。

アジア太平洋

東京 · シンガポール · 台湾 — 最も急成長する AI 市場に対応。

北米

米国 西部、東部、中部、南部 — 高スループットの本番トラフィック向け。

ヨーロッパ

EU パートナーデータセンター — レジデンシーとコンプライアンス要件のあるワークロード向け。

トラフィックに合わせてスケール。

保証されたパフォーマンスが必要なときは予約容量、需要が急増したらバースト容量、減少したらドレイン。実際に使った分だけお支払いください。

バースト可能な容量

スパイクは自動的に吸収されます。キューイングなし、手動スケーリングなし、デモやリリース時のリクエスト失敗もありません。

休む分は払わない

閑散時間帯はコストが下がります。実行中のコールを中断することなく、容量がスムーズに縮小されます。

ひとつのグローバルプール

ホームリージョンが容量上限に達した場合、トラフィックは最も近いリージョンから容量を借りて、低遅延とサービス継続性を維持します。

アイデアからライブエンドポイントまで、4 ステップで。

モデルを選び、ハードウェアを選び、デプロイ。プラットフォームがモデルの読み込み、リソースのオーケストレーション、ルーティングを処理 — 選択から稼働中の API まで数分で到達します。

1

モデルを選ぶ

任意のオープンソースモデル、Hugging Face のあらゆるモデル、または独自の重みをアップロード。

2

構成を選ぶ

GPU タイプ、レプリカあたりの GPU 数、レプリカ数、ターゲットリージョンを指定。

3

デプロイ

コンソール、CLI、または API から起動。エンドポイントは数日ではなく数分でライブに。

4

運用とスケール

レイテンシとスループットを監視。トラフィック急増時はバースト、減少時はドレイン。

使いたいモデルにアクセス。

DeepSeek、Kimi、GLM、Llama、NVIDIA など、主要なオープンソースモデルをワンクリックでデプロイ。フロンティア LLM からビジョン、音声、マルチモーダルまで — モデルを選べば、本番エンドポイントが手に入ります。

DeepSeek

DeepSeek V4

deepseek-ai

Reasoning · Code
MoonshotAI

Kimi K2.6

moonshot-ai

1M+ Context
Zhipu

GLM 5.1

zhipu-ai

Agentic · Tool-use
Meta

Llama 4

meta-llama

General LLM
Nvidia

Nemotron Omni

nvidia

Vision · Audio

共有推論では足りないワークロード。

予測可能性、スループット、エンジニアリングパートナーシップが、動くプロトタイプを信頼できるプロダクトへと変える本番トラフィックパターン。

コーディングエージェントと開発者ツール

エージェント & コパイロット

タスクあたり多数の短いコール。最初のコールのレイテンシがユーザー体験を左右します。ツール利用は速いだけでなく信頼性も必要です。

エージェントフリートごとに安定したエンドポイント · ウォーム容量 · デモやリリース時のコールドスタートなし。

TTS、文字起こし、会話

リアルタイム音声

音声はばらつきを許容しません。ウォーム容量上での持続的な WebSocket セッション。短いラウンドトリップのためにリージョンピン。

1 秒未満のファーストバイト TTS · ストリーミングエンドポイント · 共用ティアによるジッターなし。

大規模 RAG とチャット

高スループット

ハードウェア性能の上限まで活用して、毎日数百万のクエリを維持。長文コンテキストのワークロードでも一貫したテール遅延を確保。

最適化された KV キャッシュ · P95/P99 を制御 · 共用プールでの競合なし。

プライベートかつコンプライアンス対応のデプロイメント

規制対応

分離されたランタイム、監査ログ、ゼロリテンション配信。金融、ヘルスケア、公共部門のためのリージョンロック。

EU レジデンシー対応 · シングルテナント分離 · エンタープライズ SLA。

用途に合った GPU を選ぶ。

Hopper、Hopper リフレッシュ、そして Blackwell — メモリフットプリント、コンテキスト長、フロンティア性能ニーズに応じて選択。

H100

H100

Hopper · ベースライン

メモリ
80 GB HBM3
推論性能
1.0×(ベースライン)

主力モデル。汎用 LLM とマルチモーダル推論向け。ほとんどの本番ワークロードはここから始まります。

H200

H200

Hopper リフレッシュ

メモリ
141 GB HBM3e
推論性能
メモリと帯域幅で約 1.4×

メモリを多用するワークロード向け — 長文コンテキスト、大きな KV キャッシュ、大きなバッチサイズ。

B200

B200

Blackwell · フロンティア

メモリ
192 GB HBM3e
推論性能
FP4 で最大 ~2.5×

フロンティアモデル、FP4 推論、最大スループット。性能が重要なワークロード向け。

FAQ

よくあるご質問

あなたの準備ができたら、すぐに。

コンソールから Prime Inference エンドポイントを立ち上げ — または予約容量、カスタムチューニング、トライアルクレジットについて営業までお問い合わせください。

コンソールで始める