隨著 AI 跨行業的採用加速，公司在訪問創新所需的 GPU 資源方面遇到前所未有的障礙。高預付款、長期合約和多個月的交貨時間使人工智慧創新無法接觸到許多人。但如今，GMI Cloud 正在推出隨需 GPU 雲端產品，改變了這種環境，為頂級 NVIDIA GPU 提供即時、可擴展且經濟實惠的存取權。

多功能選擇性，滿足全球運算需求：

目前全球對 AI 運算能力的需求激增，要求公司在訪問 GPU 方面採取策略性。在快速發展的環境中，企業需要支付 25—50％的首付款，並簽訂 3 年合同，並承諾在 6-12 個月內獲得保留的 GPU 基礎架構訪問權限。

雖然對於大型 AI 計劃和項目（例如基礎模型培訓或持續推論）確實有價值，但保留的裸機/私有雲解決方案並不適合所有用例。某些企業，尤其是初創企業，並不總是有足夠的預算或長期預測能力來承諾進行大型 GPU 安裝。他們需要靈活性，以根據應用程序需求增加或降低擴展。同樣，企業資料科學團隊通常需要敏捷性才能快速實驗、製作原型和評估 AI 應用程式。

GMI 雲端隨選 GPU

GMI Cloud 致力於提供對頂級 GPU 運算的更高可訪問性來推動創新。今天，我們推出一款隨選 GPU 雲端產品，該產品提供所需的解決方案，讓組織能夠繞過長的交貨時間並存取 GPU 資源，而無需長期合約。我們已經看到公司因無法以有效的方式訪問 GPU 而感到沮喪。無障礙功能目前是許多公司創新的主要障礙 — 我們建立了 GMI 隨選雲端，以消除這個問題。隨選模型非常適合需要立即短期存取一或兩個執行個體的使用者來處理需要高計算能力的專案，例如快速原型製作或模型微調。GMI 隨選雲端提供幾乎即時存取 NVIDIA H100 運算資源，並且除了我們的專用雲 GPU 之外，還提供額外的選擇性。

GMI 雲端隨選模型的好處

增加靈活性：幾乎立即擴展 GPU 資源，無需長期承諾或首付款。
輕鬆部署：使用我們專業的預先構建的 docker 映像庫，一鍵啟動容器啟動，輕鬆部署 AI 模型。我們減少設置環境的時間和複雜性，讓您的團隊可以專注於創新而不是基礎架構。
雲端原生協調：透過 NVIDIA 軟體和 Kubernetes 整合，無縫管理和擴充 AI 工作負載，從控制平面到管理 API。我們提供可擴充性和靈活性，讓您的企業能夠快速適應不斷變化的需求，而不會影響效能。

技術特點和優點：

NVIDIA 軟體堆疊整合：

GMI Cloud 的隨選 GPU 雲端產品包括全面的 NVIDIA 軟體堆疊，可順暢部署和推論：

TensorRT：針對 NVIDIA GPU 最佳化的高效能深度學習推論庫。TensorRT 加速不同架構中模型推論，大幅降低即時應用程式的延遲。
NVIDIA 特里頓推論伺服器：一種開源推論服務軟體，支援多個架構，包括 TensorFlow、PyTorch、ONNX 和 OpenVINO。Triton 允許部署集合、動態批處理和模型最佳化，以實現有效率的推論。
NVIDIA NGC 容器：從 NGC 目錄存取預先建置的 NVIDIA GPU 最佳化容器。包括用於視覺、NLP、語音和推薦系統的模型和容器。

庫伯內特協調：

GMI Cloud 的 Kubernetes 管理平台為 ML 工作負載提供可擴展的協調

多租用和隔離：Kubernetes 命名空間和資源配額確保安全隔離和有效的資源分配。
自動調整：水平網格自動調整 (HPA) 會根據工作負載需求動態調整網格複本數目。
GPU 資源排程：透過 Kubernetes 裝置外掛程式對 NVIDIA GPU 的原生支援，確保最佳 GPU 使用率和排程。

推論模型部署：

GMI Cloud 的隨選 GPU 雲端產品簡化了各種模型的部署和推論：

LLama 3：針對不同的 LLama 3 型號尺寸進行微調和推論，從 8B 到 70B 參數不等。
Mixtral 8x7B：部署 Mixtral，這是一種專為平行推論而設計的多 LLM 組合。
穩定擴散：使用 Stable Diffusion 最先進的擴散模型，有效地產生高品質影像。
Gemma 8x16B：對谷歌的大型吉瑪模型推論支持，針對並行推論服務進行了最佳化。

隨選 GPU 使用案例

初創企業和研究人員：

初階段初創企業：快速製作人工智能專案的原型，並根據吸引力擴展 GPU 資源，無需長期合約或大量資本投資。
ML 研究人員：使用靈活的按用量付費定價來嘗試新模型、演算法和技術，非常適合短期或不可預測的工作負載。
微調專家：優化和微調 Lama 3、Mixtral 和 Gemma 等模型，而無需設置私人基礎架構的費用。

企業數據科學團隊：

資料科學家和分析師：利用幾乎即時的 GPU 存取 AI 應用程式原型、評估和擴展，從而實現敏捷的實驗和測試。
截止日期緊迫的 AI 團隊：加速模型培訓和推論，同時避免多個月前置時間和長期承諾引起的延遲。
私有雲補充功能：使用隨選執行個體來補充現有的私有雲基礎架構，為分解工作負載提供溢位容量。

機器學習從業者和開發運營工程師：

ML 工程師：使用預先設定的 NVIDIA 軟體堆疊環境，有效地部署和推論穩定擴散、Mixtral 和 Triton 等模型。
DevOps 團隊：利用 Kubernetes 協調，運用 GPU 排程、命名空間隔離和自動擴充功能，簡化 ML 工作流程。
模型部署專家：與 NVIDIA Triton、TensorRT 和 NGC 容器的無縫整合，確保跨各種 AI 模型的無憂推論。

開始使用：

GMI Cloud 提供具競爭力的價格，每小時 4.39 美元，可隨選訪問 NVIDIA H100 GPU，持續 14 天。參觀 gmicloud.ai 存取我們的隨選 GPU 雲端，並發揮無限的人工智慧潛力。

6 月參觀 GMI Cloud 在台灣 Computex 的展位，以實際示範我們的隨選 GPU 雲端產品和其他創新人工智能解決方案。

突破運算極限：GMI Cloud On-demad GPU 服務正式發布