我們對最好的視頻 AI 模型進行了基準

我們提供商業級的多維評估管道,利用 GMI Cloud 的大規模數據集和 RAG 註釋。該架構評估六個關鍵維度:美學品質、背景一致性、動態度、影像品質、運動平滑度和主體一致性,同時產生彙總分數和詳細的診斷見解。

這是我們即將推出的 ModelMatch 功能的技術概述,預計將與 GMI 工作室一起發布(即將推出!)

學分歸主研究人員: 洪混亂,GMI 雲端的 MLE 研究員

技術概述編輯器: 科林·莫,GMI 雲端內容主管

摘要

我們提供商業級的多維評估管道,利用 GMI Cloud 的大規模數據集和 RAG 註釋。該架構評估六個關鍵維度:美學品質、背景一致性、動態度、影像品質、運動平滑度和主體一致性,同時產生彙總分數和詳細的診斷見解。

主要摘要:

  • 維奧 3 實現 最高整體分數 具有一致、平衡的性能。
  • 克林影像 2 視訊 V2-主機 在方面表現出色 專用尺寸非常適合針對性、高保真度應用。
  • 多維度指標 提供 對模型功能的細微理解,啟用 資料驅動的客戶特定部署決策

1.簡介

隨著 AI 產生的視頻迅速轉型 廣告、娛樂和社交媒體,對企業的真正挑戰在於確定 哪些型號可大規模提供可靠、高品質的結果

視頻生成正在轉向商業應用程序,從內容創建到個性化媒體。具有訪問權限 大規模生成的視頻數據集GMI 雲端提供獨特的平台 至下面的基準模型 逼真的生產級條件

評估視頻生成仍然具有挑戰性:

  • 字幕對視頻對齊不完美,限制基於文本的指標的可靠性。
  • 現有的基準是單維度,通常忽略運動,一致性或成像質量。
  • 診斷見解有限這使得很難理解模型為什麼成功或失敗。

我們的目標是建立 第一個商業級、多維度評估管道 用於 AI 視頻生成。這個框架提供 強大的多方面指標可行的洞察,啟用模型選擇和 客戶特定優化

所有評估都是使用 GMI 雲端的彈性 GPU 叢集和推論管道— 客戶可以使用的相同基礎架構 即時視訊 AI 部署。這可確保基準結果 直接反映企業在生產中可以實現的績效

1.1 行業影響

這個基準對 AI 視頻生態系統提供了實體的好處:

  • 模型開發人員 獲得洞察,以微調多個維度的效能。
  • 內容創作者和企業 接收 數據驅動的指導 用於根據他們的需求選擇合適的 AI 視頻模型。
  • GMI 將自己定位為中立的商業級評估者,彌合學術基準和現實業務需求之間的差距。

1.2 關於 GMI 雲

GMI Cloud 為建築商提供下一代人工智能基礎架構, 提供 可擴充的 GPU 叢集、推論引擎和模型評估管道。我們的平台使任何人都能 大規模建置、評估和部署 AI消除技術障礙並加速商業採用。

二.方法

2.1 資料收集

我們收集了一個大規模生成的視頻數據集以及來自 GMI Cloud 的相應提示。該數據集代表現實世界生成情境,為在實際條件下評估模型性能提供了堅實的基礎。

2.2 註釋和標籤

我們使用了對視頻範例進行註釋 兩種 AI 輔助工具:RAG(檢索增強生成)和 DeepSeek

  • 抹布 幫助我們快速收集相關的參考信息。它使用 預先定義的提示清單 結合了來自的例子 VBench、視頻工作台和優化工藝確保我們的影片涵蓋各種場景,包括不同的風格、動作和內容類型。
  • 深入搜索 與 RAG 一起工作 分析視頻本身,協助自動將標籤或分數指定給不同品質維度,例如動作、美學和一致性。

這些工具一起使我們能夠 有效地註釋大型資料集 同時維護 多元的覆蓋範圍可靠的維度層級評估,無需手動觀看和評分數千個視頻。

外賣: 這種混合方法結合了的優勢 基於參考的檢索 (RAG) 及 直接視頻分析 (DeepSeek),為我們提供了可擴展的自動化方式來註釋和評估生成的視頻內容。

2.3 評估框架

我們的評估基於 VSTB 檯/F 檯座/虛擬機台,具有專為 商業規模的視頻生成:

  • 支持 多 GPU 平行計算 實現高效的大規模評估。

我們一同評估視頻質量 六個關鍵維度:

  • 美學品質 — 影格的整體視覺吸引力(視頻的視覺效果如何;使用 LAION 美學預測器:CLIP+ 回歸器/MLP 來測量)。
  • 背景一致性 — 跨影格背景的穩定性和一致性(場景環境保持如何一致;通過 CLIP 測量)。
  • 動態學位 — 運動的豐富和多樣性(模型產生多少活動和運動;使用 RAFT 光流量測量)。
  • 影像品質 — 解析度,銳利度和沒有噪音或人工因素(技術質量;使用 SPAQ 訓練的 MUSIQ 進行測量)。
  • 運動平滑度 — 時間連續性和流動性(運動出現的平滑和自然;使用 vBench 的框架插值模型測量)。
  • 主題一致性 — 跨影格保留關鍵物件或主體(無論主角還是物件保持一致;使用 DINO 功能進行測量)。

注意:使用 vllm(tarsier-7b)也適用,ICCV 2025 中的新基準即將推出。

2.4 統計評分

評分和聚合方法

  • 分數標準化: 所有維度分數都會縮放為 a 0—1 範圍,因此讀者可以輕鬆解釋高性能與低性能。
  • 除外線: 為了避免誤差的結果,我們 丟棄排名前 5% 和最低 5% 的分數 針對每個維度。這可確保極好或壞的情況不會扭曲評估。
  • 維度層級評分: 每個視頻都得分 分別為六個維度中的每個維度 (美學質量,背景一致性,動態度,成像質量,運動平滑度,主體一致性)。
  • 綜合分數: 在維度層級評分之後, 整體總分數 使用尺寸的加權組合計算。
  • 輸出: 評估產生 表格、圖表和摘要,可實現快速定量比較和可操作的模型選擇洞察。

三.結果

3.1 整體模型排名

我們 評價了 271 個視頻 由五個主要模型系列產生在 GMI 雲端基礎架構,在六個關鍵維度中對它們進行分數: 背景一致性、美學品質、主體一致性、動態度、影像品質和動作平滑度。每個維度都在 0—1 之間標準化並加權(動態度 = 0.1,其他尺寸 = 1.0)以產生 提供實際決策的整體排名

  • 種子 1-0-專業版-250528 以得分為領先 12.8784,在方面表現出色 運動能量和影像品質這使其非常適合用於高動作、視覺效果拋光的內容。
  • 維奧 3 得分 12.0860, 提供 在所有維度之間均衡性能,適用於多功能的通用視頻生成。
  • 威奧 3-快速 密切關注於 12.0829,提供一個 更輕、經濟實惠的替代品 具有類似的功能。
  • 盧瑪雷 2 實現 12.0080,在動態運動中強勁,但一致性略微弱。
  • 克林變體 (文本 2 視頻 16-標準和 V21-主)排名第 5 至 6,示範 一致性和運動平滑度的專業優勢
  • 迷你馬克斯-海魯 O-02 得分 11.3902,具有較低的一致性和成像質量,使其不適合高需求場景。

外賣: 種子 1-0-PRO-250528 交付 高動態和技術要求的影片提供最高效能,而 Veo3 提供 平衡、可靠的選擇,適用於廣泛應用

視頻基準測試結果摘要

3.2 按尺寸劃分的最佳性能模型

按維度分解效能,突出哪些模型最適合 具體業務需求:

  • 背景一致性: 短語文 2 視頻 V21-大師 (一千)確保 完美的環境穩定性
  • 美學品質: 種子 1-0-專業版-250528 (一千)生產 高度拋光,視覺吸引人的輸出
  • 主題一致性: 短語文 2 視頻 V21-大師 (一千)保留 字符或關鍵對象穩定 跨框架。
  • 動態學位: 種子 1-0-專業版-250528 (一千)生成 最充滿活力,引人入勝的動作
  • 影像品質: 種子 1-0-專業版-250528 (一千)確保 清晰、高解析度輸出
  • 運動平滑度: 短語文 2 視頻 V21-大師 (一千)交付 流暢,自然運動

外賣: 多維度評估揭示 互補優勢,指導客戶根據的模型選擇 特定優先順序 — 運動、穩定性或整體拋光

3.3 效能一致性分析

不同提示之間的一致性能對於非常重要 生產可靠性和可擴展性:

  • 種子 1-0-專業版-250528 表現出強烈的一致性 動態度和成像質量,但背景和運動平滑度略低。
  • 短篇文字 2 視頻 V21-大師 在方面表現出色 背景和主題一致性,但運動能量和成像質量較低。
  • 維奧 3 和 VEO 3-快速 維護 所有尺寸均衡穩定性,使它們可靠 一般用途部署
  • 盧馬雷 2 和迷米馬克斯-海魯 o-02 顯示 妥協例如,Luma-Ray2 在運動中表現出色,但不一致;Minimax-Hailuo-02 在整個範圍內表現適中。

3.4 相關分析

相關熱圖 在六個評估維度中產生,以檢查指標之間的相互依性。初步觀察包括:

  • 之間的強大關聯 運動平滑背景一致性,指出良好處理時間一致性的模型也可以保持穩定的背景。
  • 美學品質 顯示適中的關聯性 影像品質 但與之間的關聯性較弱 動態度,強調視覺吸引力並不總是與動作豐富有關。
模型性能雷達圖
模型效能熱圖
維度相關矩陣

4.限制與未來工作

限制:

  • 當前評估 尺寸(背景,運動,美學等)可能無法完全反映人類評論視頻的方式,例如,敘事一致性或情緒影響。
  • 將 AI 評估分數與人類偏好相關聯是 不直接; 傳統的關聯指標不足,需要 更先進的數學方法
  • 目前的多模式 LLM 是 還不夠強 提供完全自動、可靠的人類型評估。

未來工作:

  • 探索 人工循環評估 驗證和改善基於 AI 的評分。
  • 發展 LLM 支援的評估員 能夠自動評估複雜的敘事和語義方面。
  • 利用這個基準來建立 自主視頻最佳化代理類似於自動 Photoshop 工作流程,可以反覆地改善特定商業場景的視頻質量。

外賣: 解決這些限制將增強 評估忠誠度,符合人類感知,實際部署,將這個基準定位為下一代 AI 視頻工具的基礎。

五.討論與結論

5.1 討論

我們的評估 跨五個主要模特系列的 271 部影片 揭示了幾個模型選擇的實用見解:

整體性能與維度特定優勢

  • 維奧 3 在整體評分中的領先地位,提供 各六個維度均衡、可靠的效能
  • 克林影像 2 視訊 V2-主機,雖然整體略低, 在背景一致性、動作平滑度和主體保真度方面表現出色因此非常適合需要的應用 特定品質屬性

效能一致性很重要

  • 模型,例如 維奧 3克林影像 2 視頻 V21 專業版 展品 低分數變化,確保跨各種提示的穩定性能。
  • 一些具有高個人分數的模型顯示 更高的差異,提示生產中潛在的可靠性問題。

跨維度的效能模式

  • 克林影像 2 視訊 V2-主機 閃耀 時間一致性和主體穩定性
  • 盧瑪雷 2 實現 頂級成像質量,非常適合優先視覺保真度的場景。
  • 維奧 3 仍然是 一般用途解決方案 提供平衡、全方位的性能。

按使用案例分類的模型建議

  • 高動態動態內容: 選擇高型號 動態度運動平滑 (例如,克林影像 2 視頻 V2-主機)。
  • 以視覺真實為中心的任務: 選擇 盧瑪雷 2 提供銳利度和解析度。
  • 平衡、多用途應用: 維奧 3 跨所有維度提供可靠的結果

外賣: 選擇合適的模型取決於 具體業務需求,並且支持多維度評估 任務導向、客戶特定的建議

5.2 結論

  • 對於內容創作者: 提供 定量指導 用於選擇平衡的型號 視覺美學、動作逼真度和場景穩定 用於講故事和廣告。
  • 對於企業: 提供 透明的資料驅動基礎 用於將生成視頻整合到商業管道中,從行銷自動化到個性化媒體。
  • 對於 AI 生態系統: 建立一個 可重現的標準化評估協議 符合真實內容品質期望,加速 模型成熟度和負責任的部署
  • 關於基準趨勢: 將焦點從 主觀人類評分自動化、多維度分析,標誌著人工智能評估的新階段 透明度和可擴展性

前瞻性評論

未來的版序將包括 人類感知分數快速風格的多樣性測試,以及 支持在 ICCV 2025 上提出的多個新基準,建立基礎 全球首個端對端商業視頻 AI 基準。此路線圖可啟用 模型設計、評估方法和業務量身定制的 AI 視訊解決方案的持續改進,同時保持 GMI 雲端的領先地位 商業視頻 AI 評估和部署

Colin Mo
內容主管
Build AI Without Limits
GMI Cloud helps you architect, deploy, optimize, and scale your AI strategies
Get Started Now

Ready to build?

Explore powerful AI models and launch your project in just a few clicks.
Get Started