這是我們即將推出的 ModelMatch 功能的技術概述,預計將與 GMI 工作室一起發布(即將推出!)
學分歸主研究人員: 洪混亂,GMI 雲端的 MLE 研究員
技術概述編輯器: 科林·莫,GMI 雲端內容主管
摘要
我們提供商業級的多維評估管道,利用 GMI Cloud 的大規模數據集和 RAG 註釋。該架構評估六個關鍵維度:美學品質、背景一致性、動態度、影像品質、運動平滑度和主體一致性,同時產生彙總分數和詳細的診斷見解。
主要摘要:
- 維奧 3 實現 最高整體分數 具有一致、平衡的性能。
- 克林影像 2 視訊 V2-主機 在方面表現出色 專用尺寸非常適合針對性、高保真度應用。
- 多維度指標 提供 對模型功能的細微理解,啟用 資料驅動的客戶特定部署決策。
1.簡介
隨著 AI 產生的視頻迅速轉型 廣告、娛樂和社交媒體,對企業的真正挑戰在於確定 哪些型號可大規模提供可靠、高品質的結果。
視頻生成正在轉向商業應用程序,從內容創建到個性化媒體。具有訪問權限 大規模生成的視頻數據集, GMI 雲端提供獨特的平台 至下面的基準模型 逼真的生產級條件。
評估視頻生成仍然具有挑戰性:
- 字幕對視頻對齊不完美,限制基於文本的指標的可靠性。
- 現有的基準是單維度,通常忽略運動,一致性或成像質量。
- 診斷見解有限這使得很難理解模型為什麼成功或失敗。
我們的目標是建立 第一個商業級、多維度評估管道 用於 AI 視頻生成。這個框架提供 強大的多方面指標 和 可行的洞察,啟用模型選擇和 客戶特定優化。
所有評估都是使用 GMI 雲端的彈性 GPU 叢集和推論管道— 客戶可以使用的相同基礎架構 即時視訊 AI 部署。這可確保基準結果 直接反映企業在生產中可以實現的績效。
1.1 行業影響
這個基準對 AI 視頻生態系統提供了實體的好處:
- 模型開發人員 獲得洞察,以微調多個維度的效能。
- 內容創作者和企業 接收 數據驅動的指導 用於根據他們的需求選擇合適的 AI 視頻模型。
- GMI 將自己定位為中立的商業級評估者,彌合學術基準和現實業務需求之間的差距。
1.2 關於 GMI 雲
GMI Cloud 為建築商提供下一代人工智能基礎架構, 提供 可擴充的 GPU 叢集、推論引擎和模型評估管道。我們的平台使任何人都能 大規模建置、評估和部署 AI消除技術障礙並加速商業採用。
二.方法
2.1 資料收集
我們收集了一個大規模生成的視頻數據集以及來自 GMI Cloud 的相應提示。該數據集代表現實世界生成情境,為在實際條件下評估模型性能提供了堅實的基礎。
2.2 註釋和標籤
我們使用了對視頻範例進行註釋 兩種 AI 輔助工具:RAG(檢索增強生成)和 DeepSeek。
- 抹布 幫助我們快速收集相關的參考信息。它使用 預先定義的提示清單 結合了來自的例子 VBench、視頻工作台和優化工藝確保我們的影片涵蓋各種場景,包括不同的風格、動作和內容類型。
- 深入搜索 與 RAG 一起工作 分析視頻本身,協助自動將標籤或分數指定給不同品質維度,例如動作、美學和一致性。
這些工具一起使我們能夠 有效地註釋大型資料集 同時維護 多元的覆蓋範圍 和 可靠的維度層級評估,無需手動觀看和評分數千個視頻。
外賣: 這種混合方法結合了的優勢 基於參考的檢索 (RAG) 及 直接視頻分析 (DeepSeek),為我們提供了可擴展的自動化方式來註釋和評估生成的視頻內容。
2.3 評估框架
我們的評估基於 VSTB 檯/F 檯座/虛擬機台,具有專為 商業規模的視頻生成:
- 支持 多 GPU 平行計算 實現高效的大規模評估。
我們一同評估視頻質量 六個關鍵維度:
- 美學品質 — 影格的整體視覺吸引力(視頻的視覺效果如何;使用 LAION 美學預測器:CLIP+ 回歸器/MLP 來測量)。
- 背景一致性 — 跨影格背景的穩定性和一致性(場景環境保持如何一致;通過 CLIP 測量)。
- 動態學位 — 運動的豐富和多樣性(模型產生多少活動和運動;使用 RAFT 光流量測量)。
- 影像品質 — 解析度,銳利度和沒有噪音或人工因素(技術質量;使用 SPAQ 訓練的 MUSIQ 進行測量)。
- 運動平滑度 — 時間連續性和流動性(運動出現的平滑和自然;使用 vBench 的框架插值模型測量)。
- 主題一致性 — 跨影格保留關鍵物件或主體(無論主角還是物件保持一致;使用 DINO 功能進行測量)。
注意:使用 vllm(tarsier-7b)也適用,ICCV 2025 中的新基準即將推出。
2.4 統計評分
評分和聚合方法
- 分數標準化: 所有維度分數都會縮放為 a 0—1 範圍,因此讀者可以輕鬆解釋高性能與低性能。
- 除外線: 為了避免誤差的結果,我們 丟棄排名前 5% 和最低 5% 的分數 針對每個維度。這可確保極好或壞的情況不會扭曲評估。
- 維度層級評分: 每個視頻都得分 分別為六個維度中的每個維度 (美學質量,背景一致性,動態度,成像質量,運動平滑度,主體一致性)。
- 綜合分數: 在維度層級評分之後, 整體總分數 使用尺寸的加權組合計算。
- 輸出: 評估產生 表格、圖表和摘要,可實現快速定量比較和可操作的模型選擇洞察。
三.結果
3.1 整體模型排名
我們 評價了 271 個視頻 由五個主要模型系列產生在 GMI 雲端基礎架構,在六個關鍵維度中對它們進行分數: 背景一致性、美學品質、主體一致性、動態度、影像品質和動作平滑度。每個維度都在 0—1 之間標準化並加權(動態度 = 0.1,其他尺寸 = 1.0)以產生 提供實際決策的整體排名。
- 種子 1-0-專業版-250528 以得分為領先 12.8784,在方面表現出色 運動能量和影像品質這使其非常適合用於高動作、視覺效果拋光的內容。
- 維奧 3 得分 12.0860, 提供 在所有維度之間均衡性能,適用於多功能的通用視頻生成。
- 威奧 3-快速 密切關注於 12.0829,提供一個 更輕、經濟實惠的替代品 具有類似的功能。
- 盧瑪雷 2 實現 12.0080,在動態運動中強勁,但一致性略微弱。
- 克林變體 (文本 2 視頻 16-標準和 V21-主)排名第 5 至 6,示範 一致性和運動平滑度的專業優勢。
- 迷你馬克斯-海魯 O-02 得分 11.3902,具有較低的一致性和成像質量,使其不適合高需求場景。
外賣: 種子 1-0-PRO-250528 交付 高動態和技術要求的影片提供最高效能,而 Veo3 提供 平衡、可靠的選擇,適用於廣泛應用。

3.2 按尺寸劃分的最佳性能模型
按維度分解效能,突出哪些模型最適合 具體業務需求:
- 背景一致性: 短語文 2 視頻 V21-大師 (一千)確保 完美的環境穩定性。
- 美學品質: 種子 1-0-專業版-250528 (一千)生產 高度拋光,視覺吸引人的輸出。
- 主題一致性: 短語文 2 視頻 V21-大師 (一千)保留 字符或關鍵對象穩定 跨框架。
- 動態學位: 種子 1-0-專業版-250528 (一千)生成 最充滿活力,引人入勝的動作。
- 影像品質: 種子 1-0-專業版-250528 (一千)確保 清晰、高解析度輸出。
- 運動平滑度: 短語文 2 視頻 V21-大師 (一千)交付 流暢,自然運動。
外賣: 多維度評估揭示 互補優勢,指導客戶根據的模型選擇 特定優先順序 — 運動、穩定性或整體拋光。
3.3 效能一致性分析
不同提示之間的一致性能對於非常重要 生產可靠性和可擴展性:
- 種子 1-0-專業版-250528 表現出強烈的一致性 動態度和成像質量,但背景和運動平滑度略低。
- 短篇文字 2 視頻 V21-大師 在方面表現出色 背景和主題一致性,但運動能量和成像質量較低。
- 維奧 3 和 VEO 3-快速 維護 所有尺寸均衡穩定性,使它們可靠 一般用途部署。
- 盧馬雷 2 和迷米馬克斯-海魯 o-02 顯示 妥協例如,Luma-Ray2 在運動中表現出色,但不一致;Minimax-Hailuo-02 在整個範圍內表現適中。
3.4 相關分析
一 相關熱圖 在六個評估維度中產生,以檢查指標之間的相互依性。初步觀察包括:
- 之間的強大關聯 運動平滑 和 背景一致性,指出良好處理時間一致性的模型也可以保持穩定的背景。
- 美學品質 顯示適中的關聯性 影像品質 但與之間的關聯性較弱 動態度,強調視覺吸引力並不總是與動作豐富有關。



4.限制與未來工作
限制:
- 當前評估 尺寸(背景,運動,美學等)可能無法完全反映人類評論視頻的方式,例如,敘事一致性或情緒影響。
- 將 AI 評估分數與人類偏好相關聯是 不直接; 傳統的關聯指標不足,需要 更先進的數學方法。
- 目前的多模式 LLM 是 還不夠強 提供完全自動、可靠的人類型評估。
未來工作:
- 探索 人工循環評估 驗證和改善基於 AI 的評分。
- 發展 LLM 支援的評估員 能夠自動評估複雜的敘事和語義方面。
- 利用這個基準來建立 自主視頻最佳化代理類似於自動 Photoshop 工作流程,可以反覆地改善特定商業場景的視頻質量。
外賣: 解決這些限制將增強 評估忠誠度,符合人類感知,實際部署,將這個基準定位為下一代 AI 視頻工具的基礎。
五.討論與結論
5.1 討論
我們的評估 跨五個主要模特系列的 271 部影片 揭示了幾個模型選擇的實用見解:
整體性能與維度特定優勢
- 維奧 3 在整體評分中的領先地位,提供 各六個維度均衡、可靠的效能。
- 克林影像 2 視訊 V2-主機,雖然整體略低, 在背景一致性、動作平滑度和主體保真度方面表現出色因此非常適合需要的應用 特定品質屬性。
效能一致性很重要
- 模型,例如 維奧 3 和 克林影像 2 視頻 V21 專業版 展品 低分數變化,確保跨各種提示的穩定性能。
- 一些具有高個人分數的模型顯示 更高的差異,提示生產中潛在的可靠性問題。
跨維度的效能模式
- 克林影像 2 視訊 V2-主機 閃耀 時間一致性和主體穩定性。
- 盧瑪雷 2 實現 頂級成像質量,非常適合優先視覺保真度的場景。
- 維奧 3 仍然是 一般用途解決方案 提供平衡、全方位的性能。
按使用案例分類的模型建議
- 高動態動態內容: 選擇高型號 動態度 和 運動平滑 (例如,克林影像 2 視頻 V2-主機)。
- 以視覺真實為中心的任務: 選擇 盧瑪雷 2 提供銳利度和解析度。
- 平衡、多用途應用: 維奧 3 跨所有維度提供可靠的結果
外賣: 選擇合適的模型取決於 具體業務需求,並且支持多維度評估 任務導向、客戶特定的建議。
5.2 結論
- 對於內容創作者: 提供 定量指導 用於選擇平衡的型號 視覺美學、動作逼真度和場景穩定 用於講故事和廣告。
- 對於企業: 提供 透明的資料驅動基礎 用於將生成視頻整合到商業管道中,從行銷自動化到個性化媒體。
- 對於 AI 生態系統: 建立一個 可重現的標準化評估協議 符合真實內容品質期望,加速 模型成熟度和負責任的部署。
- 關於基準趨勢: 將焦點從 主觀人類評分 至 自動化、多維度分析,標誌著人工智能評估的新階段 透明度和可擴展性。
前瞻性評論
未來的版序將包括 人類感知分數, 快速風格的多樣性測試,以及 支持在 ICCV 2025 上提出的多個新基準,建立基礎 全球首個端對端商業視頻 AI 基準。此路線圖可啟用 模型設計、評估方法和業務量身定制的 AI 視訊解決方案的持續改進,同時保持 GMI 雲端的領先地位 商業視頻 AI 評估和部署。



