本日、それを発表できることを嬉しく思います クイーン 3 32B そして クイーン 3 235B GMI Cloudの米国ベースの推論クラスターで利用できるようになり、世界中のデータセンターを活用してグローバルな展開がサポートされるようになりました。
アリババのQwenチームによって建てられました Qwen 3モデルは、寛容なApache 2.0ライセンスの下でオープンソース化されており、オープンLLMのパフォーマンス、柔軟性、多言語アクセシビリティにおける新たな飛躍を表しています。そして今回、開発者は初めて、GMI Cloud の専用の AI スタックに支えられた米国の高可用性で低レイテンシーのインフラストラクチャーにこれらのモデルを即座にデプロイできるようになりました。
クウェン 3 が重要な理由

フラッグシップ クイーン 3 235B-A2B モデルには合計2,350億個のパラメーター(22Bが有効)があり、STEM、コーディング、ロングコンテキストタスク、多言語推論の点で、Gemini 2.5 ProやGrok-3などのモデルのパフォーマンスに匹敵します。
一方、小さい方 クイーン 3 32B このモデルは、設置面積が小さく、レイテンシーが低く、優れたパフォーマンスを発揮します。大規模な生産推論に最適です。
主なイノベーションには以下が含まれます。
- ハイブリッド思考モード — タスクの複雑さや予算の制約に応じて、「思考」(段階的な推論)モードと「非思考」(迅速対応)モードを動的に切り替えることができます。
- 大規模なコンテキストウィンドウ —最大128Kトークンを備えたQwen 3モデルは、より長い文書、より詳細な説明、および複数回にわたる継続的な会話を処理できます。
- 多言語の習得 —119の言語と方言をサポートするQwen 3は、現在入手可能なモデルの中で最もグローバルにアクセスしやすいモデルの1つです。
- エージェント対応 —ツールの使用、コードの実行、MCP(マルチエージェント機能プロトコル)などの新しいエージェント標準との互換性に最適化されています。
開発者が解き放つもの
Qwen 3のハイブリッドな考え方、膨大なコンテキストの長さ、多言語の流暢さは、以前は現実的ではなかった新しい機会をAI開発者に生み出します。
- 動的なコストと品質のトレードオフ:「考える」必要がある場合は、タスクに応じてスピード、深さ、コストのバランスをとるなど、微調整してください。
- 国際展開: 外部の翻訳レイヤーを必要とせずに、ネイティブの流暢さで100以上の言語でユーザーにシームレスにサービスを提供する多言語アプリケーションを構築できます。
- 長い形式の推論: 技術文書、法的契約、研究論文などの入力をワンパスで処理し、128,000トークンのシーケンスにわたって微妙な理解を維持します。
- ツール拡張エージェント:MCP統合を通じてツール呼び出しワークフローをネイティブにサポートし、APIとサービスをインテリジェントに推論、計画、操作できるエージェントを構築します。
現在手が届く現実のユースケース:
- を起動します 多言語サポートエージェント そのため、個別の翻訳パイプラインを必要とせずに複雑な製品マニュアルを処理できます。
- をデプロイ グローバルカスタマーサービスアシスタント ユーザーのクエリに応じて、高速応答モードとディープ推論モードを切り替えます。
- ビルド AI リサーチコパイロット 128Kトークンの完全なコンテキストウィンドウを使用して、1回のセッションで研究論文と技術文書全体を分析します。
- 作成 ツール・オーグメンテッド・エージェント ネイティブのMCPサポートにより、API、データベース、ワークフローと動的に相互作用します。
- 開発 アダプティブエージェント システムの負荷やユーザーの好みに応じて、高速インタラクションモードとディープシンキングモードを切り替えることができます。
Qwenでできることの幅を広げる
- デプロイメントをカスタマイズ 推論エンジンの使用 — 特定のアプリケーションニーズに合わせて、レイテンシー、スループット、スケーリングパラメータを簡単に調整できます。
- リソース使用量の最適化 Cluster Engine を使用すると、GPU 割り当てのバランスを動的に調整して、効率を最大限に高め、コストを予測できます。
- グローバルにデプロイ マルチリージョンのインフラストラクチャにより、地理的に近い場所に近いユーザーにサービスを提供し、Qwen 3の多言語機能を最大限に活用できます。
- 柔軟なスケーリング ワークロードを複数の GPU に分散できるため、大容量、低レイテンシー、またはロングコンテキストの AI アプリケーションに最適です。
Qwen 3以前は、スケーラブルな多言語エージェント、推論エンジン、またはコスト最適化されたAIアプリケーションを提供するには、複数のモデルをつなぎ合わせたり、独自のプラットフォームに依存したりする必要がありました。今では、オープンソースになり、本番環境ですぐに使えるようになりました。—GMI クラウドで。
GMI クラウドが選ばれる理由
GMI Cloudは、現在と将来のAIワークロードに特化して構築されています。
- 推論最適化クラスタ — 高スループット、低レイテンシーの大規模モデル配信向けに調整されています。
- 透明な価格設定 —隠れた料金なしの、シンプルで予測可能な請求。
- インスタント API アクセス — 最小限の設定で、vLLM や sGlang などのフレームワークを通じて OpenAI 互換 API を起動できます。
- エンタープライズグレードの信頼性 — 高可用性、安全な導入、ニーズの拡大に応じた拡張性の高いキャパシティ
自律型エージェントを実行している場合でも、多言語の副操縦士を構築している場合でも、新しいAIの動作を研究している場合でも、Qwen 3は数回クリックするだけで完了します。
始めよう
エージェント、コパイロット、または次世代 AI 製品を構築する準備はできていますか?
Qwen 3 32Bと235Bを今すぐスピンアップ GMI クラウドの推論エンジン—柔軟なスケーリングが可能で、APIがシンプルで、驚きはありません。
クウェンの記事を読む ブログ発表。
GMI Cloud の Qwen 3 で、より迅速に構築し、より深く考えましょう。
.png)

