ArticleMetadataMain page

source · 2026-04-17

AIGV-Assessor(CVPR 2025):用大模型评测文本到视频生成感知质量

AIGV-Assessor(CVPR 2025):用大模型评测文本到视频生成感知质量

会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:2026-04-14
深分析稿:raw/ingest/2026-04-14-aigv-assessor/analysis

一句话结论

AIGV-Assessor 说明现有视频质量评测器对 AIGV 特有失真并不够敏感,因此需要专门的数据库和 LMM-based evaluator,来更贴近人类对 text-to-video 感知质量的判断。

论文定位

这篇论文是“AIGV 专用 evaluator”路线里的代表作。它的重点不是再造一个生成模型,而是重做评测器本身。

问题定义

作者指出,传统视频质量评测对 AIGV 场景存在结构性失配:

  • AIGV 会出现不真实物体、不自然运动和跨帧不一致等特殊失真
  • 传统 VQA / image-based 指标往往对这些问题不够敏感
  • 单一总分也不足以反映模型在不同维度上的质量差异

方法概述

AIGV-Assessor 有三层关键设计:

  1. AIGVQA-DB 数据集
  2. 大规模覆盖多个 T2V 模型和 prompt,并提供四个感知质量维度与总体偏好标注。

  1. 多维感知质量定义
  2. 论文把质量拆成 Static Quality、Temporal Smoothness、Dynamic Degree 和 T/V Correspondence。

  1. AIGV-Assessor 框架
  2. 使用空间/时间视觉编码器 + LMM decoder,并结合质量文本生成、质量回归和 pairwise comparison 来预测多维质量与偏好。

关键发现

  • AIGV 需要专门的视频质量评测器,不能简单沿用传统 VQA。
  • 多维质量拆分使 evaluator 更适合做模型诊断,而不只是粗略排名。
  • LMM 参与的评测框架在多种感知质量维度上优于既有评分方法。
  • 这篇论文清楚地区分了“感知质量评测”和“编辑理解评测”并不相同。

关键图示

AIGVQA-DB 与四维质量总览

!900

这一页展示 AIGVQA-DB 的四个质量维度、评分分布、模型表现与 prompt 复杂度分析,是理解数据集结构和标注设计的关键页。

AIGV-Assessor 方法总图

!900

这一页最关键。它展示 AIGV-Assessor 如何从空间/时间视觉特征出发,通过 LMM decoder 生成质量文本并回归质量分数,同时用 pairwise comparison 学到更细偏好。

主结果与消融

!900

这一页包含多维结果图和方法消融,是说明 AIGV-Assessor 在人类对齐上优于传统评测器的关键证据页。

核心实验与结果

  • AIGV-Assessor 在 AIGVQA-DB 和相关数据库上取得了更高的人类对齐表现。
  • 结果页说明它不只是对总分更准,也能在多个维度上更稳定地区分模型优劣。
  • pairwise comparison 与 quality regression 的结合是其性能提升的重要来源。
  • 这篇论文把 generative-model-evaluation 推向了更像人类感知的 AIGV 专用评测路线。

局限或疑问

  • 它测的是感知质量,不等于已经完整覆盖视频编辑理解能力。
  • 专家评分更接近人类判断,但仍不等于真实任务完成度本身。
  • 它更适合补评测层,而不是直接回答生成模型如何改进。

对当前 wiki 判断的影响

  • 它显著补强了 topics/generative-model-evaluation 中“评测器本身需要按 AIGV 特性重做”这条判断。
  • questions/question-do-benchmarks-track-real-video-editing-understanding 来说,它说明“感知质量评测”是一条必须单列的坐标轴。
  • 它也为 claims/claim-current-models-still-struggle-to-understand-video-editing 提供了旁证:即便生成得好看,也不代表理解得好。

相关页面

原始链接

  • https://openaccess.thecvf.com/content/CVPR2025/html/Wang_AIGV-Assessor_Benchmarking_and_Evaluating_the_Perceptual_Quality_of_Text-to-Video_Generation_CVPR_2025_paper.html
  • https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_AIGV-Assessor_Benchmarking_and_Evaluating_the_Perceptual_Quality_of_Text-to-Video_Generation_CVPR_2025_paper.pdf