다음은 GMI Studios와 함께 출시될 예정인 ModelMatch 기능에 대한 기술 개요입니다 (곧 출시 예정!)
크레딧은 주 연구원에게 돌아갑니다. 카오스 홍, GMI 클라우드의 MLE 연구원
기술 개요 편집자: 콜린 모, GMI 클라우드 콘텐츠 책임자
초록
GMI Cloud의 대규모 데이터 세트와 RAG 주석을 활용하는 상용 수준의 다차원 평가 파이프라인을 제시합니다.이 프레임워크는 심미적 품질, 배경 일관성, 동적 정도, 영상 품질, 동작 부드러움, 피사체 일관성 등 6가지 주요 요소를 평가하여 종합 점수와 상세한 진단 통찰력을 제공합니다.
주요 내용:
- Veo3 달성하다 전체 최고 점수 일관되고 균형 잡힌 성능을 제공합니다.
- 클링-이미지2 비디오-V2-마스터 에서 뛰어나다 특수 치수, 타겟팅된 고충실도 애플리케이션에 적합합니다.
- 다차원 지표 를 제공합니다 모델 기능에 대한 미묘한 이해, 활성화 데이터 중심의 고객별 배포 결정.
1.소개
AI 생성 비디오가 빠르게 변화함에 따라 광고, 엔터테인먼트, 소셜 미디어, 기업의 진정한 과제는 식별입니다 어떤 모델이 대규모로 신뢰할 수 있는 고품질 결과를 제공하는지.
비디오 제너레이션은 콘텐츠 제작에서 맞춤형 미디어에 이르기까지 상용 애플리케이션으로 이동하고 있습니다.액세스 가능 대규모로 생성된 비디오 데이터세트, GMI Cloud는 고유한 플랫폼을 제공합니다 아래 모델을 벤치마킹하려면 실제 프로덕션 수준의 조건.
비디오 생성을 평가하는 것은 여전히 어려운 일입니다.
- 캡션과 비디오 간의 정렬이 불완전함, 텍스트 기반 지표의 신뢰성을 제한합니다.
- 기존 벤치마크는 1차원적입니다., 움직임, 일관성 또는 이미지 품질을 무시하는 경우가 많습니다.
- 진단 인사이트는 제한적입니다모델이 성공하거나 실패하는 이유를 이해하기 어렵게 만듭니다.
우리의 목표는 건물을 짓는 것입니다 최초의 상용 등급, 다차원 평가 파이프라인 AI 비디오 생성을 위해.이 프레임워크는 다음을 제공합니다. 강력한 다방면 메트릭스 과 실행 가능한 인사이트, 모델 선택 활성화 및 고객 맞춤형 최적화.
모든 평가는 다음을 사용하여 수행되었습니다. GMI Cloud의 탄력적인 GPU 클러스터 및 추론 파이프라인—고객이 사용할 수 있는 동일한 인프라 실시간 비디오 AI 배포.이를 통해 벤치마크 결과를 얻을 수 있습니다. 기업이 프로덕션에서 달성할 수 있는 성과를 직접 반영.
1.1 산업에 미치는 영향
이 벤치마크는 AI 비디오 생태계 전반에 걸쳐 실질적인 이점을 제공합니다.
- 모델 개발자 다양한 차원에서 성능을 미세 조정할 수 있는 통찰력을 얻을 수 있습니다.
- 콘텐츠 제작자 및 기업 받다 데이터 기반 지침 필요에 맞는 AI 비디오 모델을 선택할 수 있습니다.
- GMI는 중립적인 상용 등급 평가자로 자리 매김했습니다., 학문적 벤치마크와 실제 비즈니스 요구 사항 간의 격차를 해소합니다.
1.2 GMI 클라우드에 대한 정보
GMI Cloud는 건축업자를 위한 차세대 AI 인프라를 제공합니다, 헌금 확장 가능한 GPU 클러스터, 추론 엔진 및 모델 평가 파이프라인.저희 플랫폼을 통해 누구나 대규모 AI 구축, 평가 및 배포, 기술적 장벽을 없애고 상업적 채택을 가속화합니다.
2.방법론
2.1 데이터 수집
GMI Cloud에서 생성된 비디오의 대규모 데이터 세트와 해당 프롬프트를 수집했습니다.이 데이터세트는 실제 세대 시나리오를 대표하며, 실제 조건에서 모델 성능을 평가하기 위한 견고한 토대를 제공합니다.
2.2 주석 및 라벨링
다음을 사용하여 비디오 샘플에 주석을 달았습니다. 두 가지 AI 지원 도구: RAG (검색-증강 생성) 및 DeepSeek.
- 헝겊 관련 참조 정보를 신속하게 수집할 수 있도록 도와줍니다.a를 사용합니다. 사전 정의된 프롬프트 목록 의 예제를 결합한 것입니다. 벤치, 비디오 벤치, 에발크래프트, 다양한 스타일, 동작, 콘텐츠 유형 등 다양한 시나리오를 비디오에 포함해야 합니다.
- 딥시크 RAG와 함께 작동하여 동영상 자체 분석, 움직임, 미학 및 일관성과 같은 다양한 품질 차원에 레이블 또는 점수를 자동으로 할당하는 데 도움이 됩니다.
이러한 도구를 함께 사용하면 대규모 데이터세트에 효율적으로 주석 달기 유지하는 동안 다양한 적용 범위 과 신뢰할 수 있는 치수 수준 평가, 수천 개의 동영상을 직접 보고 점수를 매길 필요가 없습니다.
테이크아웃: 이 하이브리드 접근 방식은 다음과 같은 장점을 결합합니다. 참조 기반 검색 (RAG) 및 직접 비디오 분석 (DeepSeek) 는 생성된 비디오 콘텐츠에 주석을 달고 평가할 수 있는 확장 가능하고 자동화된 방법을 제공합니다.
2.3 평가 프레임워크
우리의 평가는 다음을 기반으로 합니다. V벤치/F-벤치/VM-벤치, 다음과 같은 용도로 설계된 확장 기능 포함 상용 규모의 비디오 생성:
- 지지대 다중 GPU 병렬 연산 효율적인 대규모 평가를 위해
비디오 품질을 함께 평가합니다. 6가지 주요 치수:
- 심미적 품질 — 프레임의 전반적인 시각적 매력 (비디오가 시각적으로 얼마나 만족스러운지, LAION의 미적 예측 변수: CLIP+ Regressor/MLP를 사용하여 측정)
- 백그라운드 일관성 — 프레임 간 배경의 안정성 및 일관성 (장면 환경이 일관되게 유지되는 정도, CLIP을 통해 측정)
- 다이나믹 디그리 — 동작의 풍부함과 다양성 (모델이 생성하는 활동 및 움직임의 양, RAFT 광학 흐름으로 측정)
- 이미징 품질 — 해상도, 선명도, 노이즈 또는 아티팩트 없음 (기술적 품질, SPAQ에서 트레이닝된 MUSIQ를 사용하여 측정)
- 동작 부드러움 — 시간적 연속성 및 유동성 (움직임이 얼마나 부드럽고 자연스럽게 나타나는지, VBench의 프레임 보간 모델로 측정)
- 주제 일관성 — 프레임 전반에 걸쳐 주요 물체 또는 피사체의 보존 (주인공이나 물체가 일관성을 유지하는지 여부, DINO 기능을 사용하여 측정).
참고: vllm (tarsier-7b) 을 사용하는 것도 가능하며, ICCV 2025의 새로운 벤치마크가 곧 출시될 예정입니다.
2.4 통계적 채점
채점 및 집계 방법론
- 점수 정규화: 모든 측정기준 점수는 a로 조정됩니다. 0—1 범위따라서 독자는 높은 성능과 낮은 성능을 쉽게 해석할 수 있습니다.
- 이상값 제거: 왜곡된 결과를 피하기 위해 우리는 점수의 상위 5% 와 하위 5% 를 버립니다. 각 차원에 대해.이를 통해 매우 좋은 사례나 나쁜 사례로 인해 평가가 왜곡되지 않습니다.
- 차원 수준 채점: 각 동영상에 점수가 매겨집니다. 여섯 가지 차원 각각에 대해 개별적으로 (미적 품질, 배경 일관성, 동적 정도, 영상 품질, 동작 부드러움, 피사체 일관성).
- 종합 점수: 차원 수준의 점수를 매긴 후 전체 총점 치수의 가중치 조합을 사용하여 계산됩니다.
- 출력: 평가를 통해 얻을 수 있습니다. 표, 차트 및 요약, 모델 선택을 위한 빠른 정량적 비교와 실행 가능한 통찰력을 모두 제공합니다.
3.결과
3.1 전체 모델 순위
우리 271개 비디오를 평가했습니다. 5개의 주요 모델 패밀리에 의해 생성되었습니다. GMI 클라우드 인프라6가지 주요 차원에 걸쳐 점수를 매깁니다. 배경 일관성, 미적 품질, 피사체 일관성, 동적 정도, 영상 품질 및 동작 부드러움.각 차원은 0—1과 가중치 (동적 차수=0.1, 기타=1.0) 사이로 정규화되어 다음과 같은 결과를 산출했습니다. 실질적인 의사 결정을 알려주는 전체 순위.
- 시던스-1-0-프로-250528 다음 점수로 선두 12.8784, 뛰어나다 모션 에너지 및 영상 품질따라서 액션이 많고 시각적으로 세련된 콘텐츠에 적합합니다.
- Veo3 득점 12.0860, 헌금 모든 차원에서 균형 잡힌 성능, 다용도 범용 비디오 생성에 적합합니다.
- 베오3-패스트 에서 밀접하게 팔로우했습니다 12.0829, 제공 더 가볍고 비용 효율적인 대안 비슷한 기능을 가지고 있습니다.
- 루마-레이 2 달성했습니다 12.0080, 다이나믹 모션에서는 강하지만 일관성이 약간 약합니다.
- 클링 변종 (텍스트2비디오-V16-스탠다드 및 V21-마스터) 5-6위, 시연 일관성과 부드러운 움직임에 특화된 강점.
- 미니막스 하이루오-02 득점 11.3902일관성과 이미지 품질이 낮기 때문에 수요가 많은 시나리오에는 적합하지 않습니다.
테이크아웃: 시드댄스 1-0-프로-250528 제공 움직임이 많고 기술적으로 까다로운 비디오를 위한 최고의 성능, Veo3는 다음을 제공하는 반면 광범위한 애플리케이션을 위한 균형 잡힌 신뢰할 수 있는 선택.

3.2 차원별 최고 성능 모델
성능을 차원별로 분류하면 어떤 모델이 탁월한 성능을 발휘하는지 알 수 있습니다. 특정 비즈니스 요구 사항:
- 배경 일관성: 클링 텍스트 2 비디오 - V21 - 마스터 (1.000) 보장 완벽한 환경 안정성.
- 심미적 품질: 시던스-1-0-프로-250528 (1.000) 생산 고도로 세련되고 시각적으로 매력적인 출력.
- 주제 일관성: 클링 텍스트 2 비디오 - V21 - 마스터 (1.000) 유지 캐릭터 또는 키 오브젝트 안정 프레임 전반에 걸쳐.
- 다이나믹 디그리: 시던스-1-0-프로-250528 (1.000) 생성 가장 활기차고 매력적인 동작.
- 이미징 품질: 시던스-1-0-프로-250528 (1.000) 보장 선명한 고해상도 출력.
- 동작 부드러움: 클링 텍스트 2 비디오 - V21 - 마스터 (1.000) 제공 부드럽고 자연스러운 움직임.
테이크아웃: 다차원적 평가 결과 보완적인 강점, 고객이 다음을 기반으로 모델을 선택하도록 안내 특정 우선 순위 - 동작, 안정성 또는 전반적인 광택.
3.3 성능 일관성 분석
다양한 프롬프트에서 일관된 성능을 발휘하는 것이 중요합니다. 생산 신뢰성 및 확장성:
- 시던스-1-0-프로-250528 에서 강한 일관성을 보여줍니다 동적 각도 및 이미지 품질그러나 배경 및 동작 부드러움이 약간 낮습니다.
- 클링 텍스트 2 비디오 - V21 - 마스터 에서 뛰어나다 배경 및 주제 일관성, 그러나 동작 에너지와 이미지 품질이 낮습니다.
- Veo3 및 Veo3-Fast 유지하다 모든 차원에서 균형 잡힌 안정성신뢰할 수 있는 제품 만들기 범용 배포.
- 루마-레이2와 미니막스-하이루오-02 쇼 절충안예를 들어 Luma-Ray2는 움직임은 뛰어나지만 일관성이 떨어집니다. Minimax-Hailuo-02는 전반적으로 적당한 성능을 발휘합니다.
3.4 상관관계 분석
A 상관관계 히트맵 지표 간의 상호 의존성을 조사하기 위해 6개 평가 차원에서 생성되었습니다.예비 관찰 내용은 다음과 같습니다.
- 간의 강력한 상관 관계 동작 부드러움 과 배경 일관성, 시간적 일관성을 잘 처리하는 모델도 안정적인 배경을 유지함을 나타냅니다.
- 심미적 품질 다음과 중간 정도의 상관 관계를 보여줍니다 이미징 품질 하지만 상관관계는 약합니다. 동적 정도시각적 매력이 항상 풍부한 움직임과 관련이 있는 것은 아니라는 점을 강조합니다.



4.한계 및 향후 작업
제한 사항:
- 현재 평가 크기 (배경, 동작, 미적 등) 는 사람이 동영상을 판단하는 방식을 완전히 반영하지 못할 수 있습니다., 예: 내러티브 일관성 또는 감정적 영향.
- AI 평가 점수를 인간의 선호도와 연관시키는 것은 간단하지 않음; 기존의 상관 관계 지표로는 충분하지 않으므로 요구 사항이 충족되지 않습니다. 보다 발전된 수학적 접근법.
- 현재 멀티모달 LLM은 다음과 같습니다. 아직 충분히 강하지 않다 완전 자동화되고 신뢰할 수 있는 사람과 같은 평가를 제공합니다.
향후 작업:
- 둘러보기 휴먼 인 더 루프 평가 AI 기반 채점을 검증하고 개선합니다.
- 개발 LLM 기반 평가자 복잡한 내러티브 및 의미론적 측면을 자동으로 평가할 수 있습니다.
- 이 벤치마크를 활용하여 구축하세요 자율 비디오 최적화 에이전트특정 비즈니스 시나리오의 비디오 품질을 반복적으로 개선하는 자동 Photoshop 워크플로우와 유사합니다.
테이크아웃: 이러한 한계를 해결하면 더 나아질 것입니다. 평가 충실도, 인간 인식과의 일치 및 실제 배포, 이 벤치마크를 차세대 AI 비디오 도구의 기반으로 포지셔닝합니다.
5.토론 및 결론
5.1 토론
에 대한 우리의 평가 5개 주요 모델 제품군에 걸친 271개의 비디오 모델 선택을 위한 몇 가지 실용적인 통찰력을 제공합니다.
전체 성능 대 치수별 강점
- Veo3 전체 점수에서 선두, 오퍼링 6가지 차원에서 균형 잡힌 안정적인 성능.
- 클링-이미지2 비디오-V2-마스터전체적으로 약간 낮긴 하지만 배경 일관성, 동작 부드러움 및 피사체 충실도가 우수합니다., 필요한 애플리케이션에 이상적입니다. 특정 품질 특성.
성능 일관성이 중요합니다
- 다음과 같은 모델 Veo3 과 클링 이미지 2 비디오 - V21 프로 전시회 낮은 점수 변동성다양한 프롬프트에서 안정적인 성능을 보장합니다.
- 개별 점수가 높은 일부 모델은 다음과 같습니다. 더 높은 편차이는 생산 시 발생할 수 있는 잠재적 신뢰성 문제를 나타냅니다.
차원 전반의 성능 패턴
- 클링-이미지2 비디오-V2-마스터 빛난다 시간적 일관성과 피사체 안정성.
- 루마-레이 2 달성하다 최고의 이미징 품질, 시각적 충실도를 우선시하는 시나리오에 적합합니다.
- Veo3 남아 있습니다 유용한 범용 솔루션 균형 잡힌 전방위 성능을 제공합니다.
사용 사례별 모델 권장 사항
- 움직임이 많고 역동적인 콘텐츠: 높은 모델 선택 동적 정도 과 동작 부드러움 (예: 클링-이미지2비디오-V2-마스터).
- 시각적 충실도 중심 작업: 선택 루마-레이 2 선명도와 해상도를 위해.
- 균형 잡힌 다목적 애플리케이션: Veo3 모든 차원에서 신뢰할 수 있는 결과 제공
테이크아웃: 적합한 모델을 선택하는 것은 다음에 달려 있습니다. 특정 비즈니스 요구 사항, 다차원 평가 가능 작업 중심의 고객별 권장 사항.
5.2 결론
- 콘텐츠 제작자 대상: 제공합니다 정량적 지침 밸런스가 잘 맞는 모델 선택 시각적 미학, 모션 리얼리즘 및 장면 안정성 스토리텔링 및 광고에 사용됩니다.
- 엔터프라이즈용: a를 제공합니다 투명한 데이터 기반 기반 마케팅 자동화부터 맞춤형 미디어에 이르기까지 제너레이티브 비디오를 상용 파이프라인에 통합하는 데 사용됩니다.
- AI 에코시스템의 경우: 를 설립합니다. 재현 가능하고 표준화된 평가 프로토콜 실제 콘텐츠 품질 기대치에 부합하며 가속화되고 있습니다. 모델 성숙도 및 책임 있는 배포.
- 벤치마킹 트렌드의 경우: 초점을 다른 곳으로 이동합니다. 주관적인 인간 채점 에 자동화된 다차원 분석, AI 평가의 새로운 국면을 열다 투명성 및 확장성.
미래 지향적인 논평
향후 반복 버전에는 통합될 예정입니다. 인간의 지각 점수, 프롬프트 스타일의 다양성 테스트, 및 ICCV 2025에서 발표된 여러 가지 새로운 벤치마크에 대한 지원, 를 위한 기반 마련 세계 최초의 엔드-투-엔드 상용 비디오 AI 벤치마크.이 로드맵은 다음을 가능하게 합니다. 모델 설계, 평가 방법론 및 비즈니스 맞춤형 AI 비디오 솔루션의 지속적인 개선, GMI Cloud를 최전선에 두면서 상용 비디오 AI 평가 및 배포.



