AIGV-Assessor：用大模型评测文本到视频生成感知质量

一句话结论

AIGV-Assessor 说明现有视频质量评测器对 AIGV 特有失真并不够敏感，因此需要专门的数据库和 LMM-based evaluator，来更贴近人类对 text-to-video 感知质量的判断。

论文定位

这篇论文是“AIGV 专用 evaluator”路线里的代表作。它的重点不是再造一个生成模型，而是重做评测器本身。

问题定义

作者指出，传统视频质量评测对 AIGV 场景存在结构性失配：

AIGV 会出现不真实物体、不自然运动和跨帧不一致等特殊失真
传统 VQA / image-based 指标往往对这些问题不够敏感
单一总分也不足以反映模型在不同维度上的质量差异

方法概述

AIGV-Assessor 有三层关键设计：

AIGVQA-DB 数据集

大规模覆盖多个 T2V 模型和 prompt，并提供四个感知质量维度与总体偏好标注。

多维感知质量定义

论文把质量拆成 Static Quality、Temporal Smoothness、Dynamic Degree 和 T/V Correspondence。

AIGV-Assessor 框架

使用空间/时间视觉编码器 + LMM decoder，并结合质量文本生成、质量回归和 pairwise comparison 来预测多维质量与偏好。

关键发现

AIGV 需要专门的视频质量评测器，不能简单沿用传统 VQA。
多维质量拆分使 evaluator 更适合做模型诊断，而不只是粗略排名。
LMM 参与的评测框架在多种感知质量维度上优于既有评分方法。
这篇论文清楚地区分了“感知质量评测”和“编辑理解评测”并不相同。

关键图示

AIGVQA-DB 与四维质量总览

!900

这一页展示 AIGVQA-DB 的四个质量维度、评分分布、模型表现与 prompt 复杂度分析，是理解数据集结构和标注设计的关键页。

AIGV-Assessor 方法总图

!900

这一页最关键。它展示 AIGV-Assessor 如何从空间/时间视觉特征出发，通过 LMM decoder 生成质量文本并回归质量分数，同时用 pairwise comparison 学到更细偏好。

主结果与消融

!900

这一页包含多维结果图和方法消融，是说明 AIGV-Assessor 在人类对齐上优于传统评测器的关键证据页。

核心实验与结果

AIGV-Assessor 在 AIGVQA-DB 和相关数据库上取得了更高的人类对齐表现。
结果页说明它不只是对总分更准，也能在多个维度上更稳定地区分模型优劣。
pairwise comparison 与 quality regression 的结合是其性能提升的重要来源。
这篇论文把 generative-model-evaluation 推向了更像人类感知的 AIGV 专用评测路线。

局限或疑问

它测的是感知质量，不等于已经完整覆盖视频编辑理解能力。
专家评分更接近人类判断，但仍不等于真实任务完成度本身。
它更适合补评测层，而不是直接回答生成模型如何改进。

对当前 wiki 判断的影响

它显著补强了 topics/generative-model-evaluation 中“评测器本身需要按 AIGV 特性重做”这条判断。
对 questions/question-do-benchmarks-track-real-video-editing-understanding 来说，它说明“感知质量评测”是一条必须单列的坐标轴。
它也为 claims/claim-current-models-still-struggle-to-understand-video-editing 提供了旁证：即便生成得好看，也不代表理解得好。

原始链接

https://openaccess.thecvf.com/content/CVPR2025/html/Wang_AIGV-Assessor_Benchmarking_and_Evaluating_the_Perceptual_Quality_of_Text-to-Video_Generation_CVPR_2025_paper.html
https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_AIGV-Assessor_Benchmarking_and_Evaluating_the_Perceptual_Quality_of_Text-to-Video_Generation_CVPR_2025_paper.pdf

{ "id": "2026-04-14-aigv-assessor", "type": "source", "title": "AIGV-Assessor（CVPR 2025）：用大模型评测文本到视频生成感知质量", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-17", "venue": "CVPR 2025", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-generation", "evaluation", "benchmarking", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Jiarui Wang", "Huiyu Duan", "Guangtao Zhai", "Juntong Wang", "Xiongkuo Min" ], "published_at": "2025-06-11", "canonical_links": [ "https://openaccess.thecvf.com/content/CVPR2025/html/Wang_AIGV-Assessor_Benchmarking_and_Evaluating_the_Perceptual_Quality_of_Text-to-Video_Generation_CVPR_2025_paper.html", "https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_AIGV-Assessor_Benchmarking_and_Evaluating_the_Perceptual_Quality_of_Text-to-Video_Generation_CVPR_2025_paper.pdf" ], "raw_entry": "raw/ingest/2026-04-14-aigv-assessor/", "analysis_note": "raw/ingest/2026-04-14-aigv-assessor/analysis.md", "image_index": "raw/ingest/2026-04-14-aigv-assessor/images/index.md", "topics": [ "topics/generative-model-evaluation", "topics/video-generation", "topics/video-editing" ], "entities": [ "entities/video-editing-understanding" ], "claims": [ "claims/claim-current-models-still-struggle-to-understand-video-editing" ], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

AIGV-Assessor用大模型评测文本到视频生成感知质量

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

AIGVQA-DB 与四维质量总览

AIGV-Assessor 方法总图

主结果与消融

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

被引用7

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

AIGVQA-DB 与四维质量总览

AIGV-Assessor 方法总图

主结果与消融

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

关联页面

相关主题3

相关实体1

相关判断1

相关问题1

被引用7