今天,我們很高興地宣布 奎恩 3 號 32B 和 曲文三期 235B 現在可在 GMI Cloud 的美國推論叢集上使用,並提供全球部署支持,利用我們全球各地的資料中心。
由阿里巴巴的 Qwen 團隊打造 Qwen 3 模型以開放原始碼在允許的 Apache 2.0 授權下,代表開放 LLM 效能、靈活性和多語言可訪問性方面的新進步。現在,開發人員首次可以在美國的高可用性、低延遲基礎架構上,立即部署這些模型,由 GMI Cloud 專門構建的 AI 堆疊。
Qwen 3 為什麼重要

旗艦 曲文三號 235B-A22B 模型擁有 235 億總參數(22B 激活),並與 Gemini 2.5 Pro 和 Grok-3 等模型的性能競爭在 STEM、編碼、長環境任務和多語言推理方面。
同時,較小 奎恩 3 號 32B 模型以較輕的佔用空間和較低延遲提供頂級效能,非常適合大規模生產推論。
主要創新包括:
- 混合思維模式 — 根據任務複雜性和預算限制,動態切換「思考」(逐步推理)和「非思考」(快速響應)模式。
- 大型前後關聯視窗 — Qwen 3 型號具有高達 128K 代幣,可以處理更長的文檔,更詳細的說明和持續的多回合對話。
- 多語言掌握 — Qwen 3 支持 119 種語言和方言,是當今全球最可用的模型之一。
- 適用於抗菌功能 — 針對工具使用、程式碼執行以及與 MCP(多代理程式能力通訊協定)等新興代理程式標準相容性進行最佳化。
這為開發人員解鎖了什麼
Qwen 3 的混合思維、龐大的上下文長度和多語言流利性為 AI 開發人員創造了以前不實用的新機會:
- 動態成本品質的衡量:在需要「思考」時進行微調,根據您的任務平衡速度、深度和成本。
- 國際部署:建置多語言應用程式,無需外部翻譯層,無需外部翻譯層,以超過 100 種語言的使用者順暢地提供服務。
- 長形式推理:一次處理技術文檔、法律合約或研究論文等輸入,並在 128K 令牌序列中保持細微的理解。
- 工具增強代理:建置可以智慧方式推理、規劃和與 API 和服務互動的代理程式,並透過 MCP 整合原生支援工具呼叫工作流程。
現在可用的實際使用案例:
- 啟動 多語言支援代理 這個原因是通過複雜的產品手冊而無需單獨的翻譯管道。
- 部署一個 全球客戶服務助理 根據用戶查詢,在快速響應模式和深度推理之間切換。
- 建構 人工智能研究副駕駛 使用完整的 128K 令牌上下文窗口,在單一會話中分析完整的研究論文和技術文檔。
- 建立 工具增強代理 透過原生 MCP 支援,動態與 API、資料庫和工作流程互動。
- 發展 適應性代理 根據系統負載或用戶偏好,在快速互動和深度思維模式之間切換。
擴大您可以使用 Qwen 做的事情
- 自訂部署 使用我們的推論引擎 — 輕鬆調整延遲、輸送量和縮放參數,以滿足特定應用程式需求。
- 最佳化資源使用量 採用叢集引擎 — 動態平衡 GPU 配置,以達到最大效率和可預測的成本。
- 全球部署 透過我們的多區域基礎架構,讓您能夠為接近地理位置的使用者提供服務,並充分利用 Qwen 3 的多語言功能。
- 彈性擴充 透過將工作負載分配到多個 GPU 之間,非常適合高容量、低延遲或長環境的 AI 應用程式。
在 Qwen 3 之前,提供可擴展的多語言代理程式、推理引擎或成本最佳化的 AI 應用程式意味著將多個模型整合在一起,或依賴專有平台。現在,它已經開放原始碼,並且可以製作!— 在 GMI 雲端上。
為什麼選擇 GMI 雲
GMI Cloud 專為當今和未來的 AI 工作負載而打造:
- 推論最佳化的叢集 — 針對高輸送量、低延遲的大型模型服務進行調整。
- 透明的定價 — 簡單,可預測的計費,沒有隱藏費用。
- 即時 API 訪問 — 通過 vLLM 和 sgLang 等框架以最少的設置啟動與 OpenAI 相容的 API。
- 企業級可靠性 — 隨著您的需求增加,高可用性、安全部署和可擴展的容量。
無論您是執行自主代理程式、建立多語言副駕駛員,還是研究新的 AI 行為,Qwen 3 現在只需點擊幾下即可。
開始使用
準備好建置代理程式、副駕駛員或下一代 AI 產品了嗎?
今天開始推出 Qwen 3 32B 及 235B GMI 雲端的推論引擎— 具有靈活的擴展,API 簡單,沒有驚喜。
閱讀奎恩的書 博客公告。
使用 GMI 雲端上的 Qwen 3,建置更快、更深入思考。
.png)

