Question 1

什麼是用於 AI 推理的 Prime Inference 端點？

Accepted Answer

Prime Inference 端點是一種單一租戶推理端點，模型會執行在專為你的工作負載預留的 GPU 容量上。與共用的無伺服器推理不同，其他租戶的流量不會影響你的吞吐量或延遲。效能由你佈建的硬體決定，速率限制也是依你的專屬容量而非共用資源池來設定 — 這使得 Prime Inference 成為對延遲穩定性、持續吞吐量與工作負載隔離有需求的正式環境 AI 工作負載的標準選擇。

Question 2

無伺服器推理與 Prime Inference 有什麼差異？

Accepted Answer

無伺服器推理是多租戶並採用按 token 計費的方式，搭配共用速率限制與固定的模型清單 — 最適合做原型驗證、低用量場景與彈性流量。Prime Inference 為單一租戶、依 GPU 時數計費，可在預留的 NVIDIA GPU 上部署任何開源或自訂模型，並搭配經過最佳化的執行階段。如果你需要在 P95/P99 尾端維持可預期的延遲、持續維持高吞吐量、部署自訂或微調模型權重，或為了法遵需求需要工作負載隔離，請選擇 Prime Inference。

Question 3

H100、H200 與 Blackwell GPU 有什麼差異？

Accepted Answer

NVIDIA H100（80 GB HBM3）是多數 LLM 與多模態推理工作負載的標準主力 GPU，可作為一般正式環境流量的基準款。H200（141 GB HBM3e）相較於 H100 約有 1.4 倍的記憶體與頻寬，適合長上下文模型、大型 KV-cache 工作負載與記憶體密集型服務。Blackwell B200（192 GB HBM3e）則鎖定前沿模型與 FP4 推理，可提供最高約 2.5 倍的吞吐量。GMI Cloud 上大多數正式環境工作負載會執行於 H100 或 H200，Blackwell 則保留給對效能要求極高的前沿應用。

Question 4

可以在 Prime Inference 端點部署自訂或微調過的模型嗎？

Accepted Answer

可以。GMI Cloud Prime Inference 支援所有 Hugging Face 模型、自訂的微調權重，以及從 Hugging Face、S3 或自有儲存空間載入的自有模型。模型會載入到 GMI 推理堆疊 — vLLM、TensorRT-LLM、SGLang — 之上，不需要重新打造服務層。透過針對每個模型的執行階段最佳化，即使是自訂權重也能在預留的 NVIDIA GPU 上獲得最佳化過的核心與路由帶來的效益。

Question 5

計費方式與最低使用門檻是什麼？

Accepted Answer

沒有最低合約門檻。隨需用量採每 GPU 每小時計費，不會額外加收 token 費用，也不會有共用資源池的尖峰加價。對於需要持續執行的正式環境工作負載，可選擇以季為單位或年約的預留容量方案，享有更低的每小時費率。符合資格的潛在客戶也能取得免費 GPU 時數的試用額度，方便在自己的工作負載上驗證效能。如需最新 GPU 費率，或想取得依模型與流量量身估算的報價與更多細節，請聯絡銷售團隊。

更快上線。彈性擴展。一個 Prime Inference 端點。

在這裡執行推理的三個理由。

在關鍵模型上獲得更高吞吐

把容量部署在使用者所在的地方

順著實際流量擴展，而非依靠預測

租用 GPU，掌握吞吐量。

經過最佳化的執行階段

預設保持暖機狀態

單一租戶隔離

可使用自己的模型

為你常用的模型最佳化

正式環境等級的引擎

把服務部署在使用者附近。

亞太地區

北美

歐洲

順著流量擴展。

可突發的容量

離峰也省錢

單一全球資源池

從構想到正式上線端點，只需四個步驟。

選擇模型

設定組態

部署

營運與擴展

取用你想要的模型。

DeepSeek V4

Kimi K2.6

GLM 5.1

Llama 4

Nemotron Omni

DeepSeek V4

Kimi K2.6

GLM 5.1

Llama 4

Nemotron Omni

共用推理難以應付的工作負載。

程式碼代理與開發者工具

語音合成、轉錄與對話

規模化 RAG 與聊天服務

私有與符合法遵的部署

依任務選擇合適的 GPU。

H100

H200

B200

FAQ

什麼是用於 AI 推理的 Prime Inference 端點？

無伺服器推理與 Prime Inference 有什麼差異？

H100、H200 與 Blackwell GPU 有什麼差異？

可以在 Prime Inference 端點部署自訂或微調過的模型嗎？

計費方式與最低使用門檻是什麼？

等你準備好，我們隨時可以開始。