오늘 이 소식을 발표하게 되어 매우 기쁩니다. 퀸 3 32B 과 퀸 3 235B 이제 GMI Cloud의 미국 기반 추론 클러스터에서 사용할 수 있으며 전 세계 데이터 센터를 활용하여 글로벌 배포를 지원합니다.
알리바바의 Qwen 팀이 제작했습니다. 허용된 Apache 2.0 라이선스에 따라 오픈 소스로 제공되는 Qwen 3 모델은 개방형 LLM 성능, 유연성 및 다국어 접근성의 새로운 도약을 나타냅니다.그리고 이제 개발자들은 처음으로 GMI Cloud의 전용 AI 스택을 기반으로 하는 미국의 고가용성, 저지연 인프라에서 이러한 모델을 즉시 배포할 수 있습니다.
퀸 3가 중요한 이유

플래그십 퀸 3 235B-A22B 모델은 총 2,350억 개의 파라미터 (22B 활성화) 를 자랑하며, STEM, 코딩, 긴 컨텍스트 작업 및 다국어 추론에서 Gemini 2.5 Pro 및 Grok-3과 같은 모델의 성능에 필적합니다.
한편, 더 작은 퀸 3 32B 모델은 더 적은 설치 공간과 짧은 지연 시간으로 최고의 성능을 제공하므로 대규모 생산 추론에 이상적입니다.
주요 혁신은 다음과 같습니다.
- 하이브리드 사고 모드 — 작업의 복잡성과 예산 제약에 따라 '사고' (단계별 추론) 모드와 '비사고' (신속 대응) 모드 사이를 동적으로 전환할 수 있습니다.
- 대규모 컨텍스트 윈도우 — 최대 128K 토큰을 갖춘 Qwen 3 모델은 더 긴 문서, 더 자세한 지침 및 지속적인 멀티 턴 대화를 처리할 수 있습니다.
- 다국어 마스터리 — 119개 언어와 방언을 지원하는 Qwen 3은 오늘날 세계에서 가장 접근하기 쉬운 모델 중 하나입니다.
- 에이전시 지원 — 도구 사용, 코드 실행 및 MCP (다중 에이전트 기능 프로토콜) 와 같은 새로운 에이전트 표준과의 호환성에 최적화되었습니다.
이를 통해 개발자들은 무엇을 얻을 수 있을까요?
Qwen 3의 하이브리드 사고, 방대한 컨텍스트 길이, 유창한 다국어 기능은 AI 개발자에게 이전에는 실용적이지 않았던 새로운 기회를 제공합니다.
- 역동적인 비용 품질 트레이드오프: “사고”가 필요한 경우 작업에 따라 속도, 깊이, 비용의 균형을 세밀하게 조정하세요.
- 전 세계 배포: 외부 번역 계층 없이 100개 이상의 언어를 모국어로 유창하게 사용하는 사용자에게 원활한 서비스를 제공하는 다국어 애플리케이션을 구축하세요.
- 긴 형식의 추론: 기술 문서, 법률 계약 또는 연구 논문과 같은 입력을 한 번에 처리하여 128K 토큰 시퀀스 전반에 걸쳐 미묘한 이해를 유지합니다.
- 툴 증강 에이전트: MCP 통합을 통해 도구 호출 워크플로우를 기본적으로 지원하면서 지능적으로 API 및 서비스를 추론하고 계획하고 상호 작용할 수 있는 에이전트를 구축하세요.
이제 실제 사용 사례를 접할 수 있습니다.
- 런칭 a 다국어 지원 에이전트 따라서 별도의 번역 파이프라인 없이 복잡한 제품 매뉴얼을 만들 수 있습니다.
- 배포 a 글로벌 고객 서비스 어시스턴트 사용자 쿼리에 따라 빠른 응답 모드와 심층 추론 사이를 전환합니다.
- 짓다 AI 연구 부조종사 전체 128K 토큰 컨텍스트 창을 사용하여 전체 연구 논문 및 기술 문서를 단일 세션에서 분석합니다.
- 작성 툴 보강 에이전트 네이티브 MCP 지원으로 구동되는 API, 데이터베이스 및 워크플로우와 동적으로 상호 작용합니다.
- 개발 어댑티브 에이전트 시스템 부하 또는 사용자 선호도에 따라 빠른 상호 작용과 심층 사고 모드 사이를 전환할 수 있습니다.
Qwen으로 수행할 수 있는 작업 확대
- 배포 사용자 지정 추론 엔진을 사용하여 특정 애플리케이션 요구 사항을 충족하도록 지연 시간, 처리량 및 규모 조정 매개변수를 쉽게 조정할 수 있습니다.
- 리소스 사용 최적화 클러스터 엔진 사용 - GPU 할당의 균형을 동적으로 조정하여 효율성을 극대화하고 비용을 예측할 수 있습니다.
- 전 세계에 배포 다중 지역 인프라를 통해 지리적 위치에 가까운 사용자에게 서비스를 제공하고 Qwen 3의 다국어 기능을 최대한 활용할 수 있습니다.
- 유연하게 확장 워크로드를 여러 GPU에 분산함으로써 대용량, 짧은 지연 시간 또는 긴 컨텍스트의 AI 애플리케이션에 적합합니다.
Qwen 3 이전에는 확장 가능한 다국어 에이전트, 추론 엔진 또는 비용 최적화된 AI 애플리케이션을 제공하려면 여러 모델을 통합하거나 독점 플랫폼을 사용해야 했습니다.이제 오픈 소스이며 프로덕션에 바로 사용할 수 있습니다!—GMI 클라우드에서 말이죠.
GMI 클라우드를 선택해야 하는 이유
GMI Cloud는 현재와 미래의 AI 워크로드를 위해 특별히 제작되었습니다.
- 추론 최적화 클러스터 — 처리량이 많고 지연 시간이 짧은 대형 모델 서비스에 맞게 조정되었습니다.
- 투명한 가격 — 숨겨진 수수료 없이 간편하고 예측 가능한 청구
- 즉각적인 API 액세스 — VLLM 및 sGlang과 같은 프레임워크를 통해 최소한의 설정만으로 OpenAI 호환 API를 시작할 수 있습니다.
- 엔터프라이즈급 안정성 — 요구 사항 증가에 따라 고가용성, 안전한 배포 및 확장 가능한 용량을 제공합니다.
자율 에이전트를 운영하든, 다국어 부조종사를 구축하든, 새로운 AI 행동을 연구하든, 이제 몇 번의 클릭만으로 Qwen 3를 이용할 수 있습니다.
시작하기
에이전트, 부파일럿 또는 차세대 AI 제품을 만들 준비가 되셨나요?
오늘 퀸 3 32B 및 235B를 스핀업하세요 GMI 클라우드의 추론 엔진—유연한 확장, API 단순성, 놀라운 문제 없음.
퀸즈 읽어보기 블로그 공지.
GMI Cloud의 Qwen 3를 사용하여 더 빠르게 빌드하고 더 깊이 생각하세요.
.png)

