VBench：视频生成模型综合评测套件

一句话结论

VBench 将文本到视频生成拆成 16 个质量/条件一致性维度，揭示一致性、动态程度、组合性与内容类别之间的 trade-off；它是生成结果质量骨架，不是视频理解或视频编辑理解 benchmark。

论文定位

直接测量：短 T2V 输出的帧质量、时间质量、动态程度和 prompt 条件一致性。
人类层：用逐维成对偏好验证自动指标的模型级排序。
边界：不含源视频、编辑指令保持/改变约束、长叙事或模型内部理解。

问题定义

FVD/FID/CLIPSim 等单值指标既难稳定对齐人类，也会掩盖模型具体短板。VBench 的目标不是再给一个总分，而是构建可分解、可自动运行、能指导模型改进的能力剖面。

方法与数据

16 个维度

Video Quality：Subject/Background Consistency、Temporal Flickering、Motion Smoothness、Dynamic Degree、Aesthetic Quality、Imaging Quality。
Video-Condition Consistency：Object Class、Multiple Objects、Human Action、Color、Spatial Relationship、Scene、Appearance Style、Temporal Style、Overall Consistency。

指标工具链

DINO/CLIP 测主体和背景一致性，MAE 测闪烁，插帧重建误差测运动平滑，RAFT 测动态程度，LAION/MUSIQ 测帧质量；GRiT、UMT、Tag2Text、CLIP/ViCLIP 测对象、动作、颜色、关系、场景与风格。

Prompt 与人工验证

每维约 100 个专门 prompt；另有 8 个内容类别、每类 100 prompt。
主实验为 LaVie、ModelScope、VideoCrafter、CogVideo，短视频通常约 2 秒。
同 prompt 的四模型结果做成对人类偏好，只让标注者关注指定维度；以模型 win ratio 的 Spearman 相关验证自动指标。

核心结果

没有统一赢家：CogVideo 主体一致性 92.19%，却只有 42.22% 动态程度和 7.70% 整体一致性；VideoCrafter 动态程度 89.72%，时间一致性较差。
Multiple Objects（最佳 38.98%）、Spatial Relationship（最佳 36.74%）、Overall Consistency（最佳 26.41%）仍是明显瓶颈。
VBench—人类的逐维 Spearman ρ 为 0.6073–0.9980，多数很高；但每维只有四个模型级点，不应解释为单视频可靠性。
T2I/T2V 对比：SDXL Multiple Objects 69.51%、Spatial Relationship 86.17%；最佳 T2V 仅 38.98%、36.74%，组合性差距巨大。
Human/Vehicle 等复杂动态类别更难；WebVid 中 Human 数据最多但表现差，说明数据数量并非充分条件。

消融与诊断

一致性—动态权衡：静态视频可“作弊”获得高一致性，Dynamic Degree 必须并列报告。
闪烁解耦：静态/半动态/动态视频上的人类模型排序约 99% 相关，支持用静态 prompt 隔离 flicker。
类别诊断：总体均值会掩盖模型在 Food、Human 等类别的局部强弱。
经验边界：Empirical Min/Max 和 WebVid-Avg 提供解释参照，但不是严格统计上界/下界。
VLM tuning：30K VBench 指令/偏好可改善 VideoChat evaluator 案例，但跨分布泛化证据有限。

局限或疑问

仅四个早期 T2V 模型；高相关性建立在 N=4 的模型级汇总上。
16 维依赖多个外部识别器，指标偏差会变成生成模型分数偏差。
指标存在 Goodhart 风险；Dynamic Degree 只缓解静态作弊的一部分。
短视频与每维约 100 prompt 不覆盖长程因果、叙事、音频或复杂编辑。
初版只面向 T2V，论文明确将 video-to-video/editing 留作未来扩展。
人类偏好只验证单一维度的 pairwise 判断，不等于完整用户满意度。

对 benchmark question 的证据分类

维度	分类	解释
视频理解	非目标	视觉模型只是 evaluator 组件
生成质量	直接强证据	16 维拆解质量与条件一致性
人类偏好	直接但有限	逐维模型排序对齐，N=4
长视频	非目标	约 2 秒短片
时空世界理解	间接输出证据	可发现运动/关系错误，不证明内部世界模型
视频编辑理解	边界证据	可复用部分质量维，但没有源视频与编辑目标

对当前 wiki 判断的影响

VBench 直接支持把“感知质量”“条件满足”“人类偏好”“编辑理解”分开。对 questions/question-do-benchmarks-track-real-video-editing-understanding，它提供的是生成结果质量坐标；任何把 VBench 总分称为“编辑理解能力”的做法都属于越界解释。

原始链接

{ "id": "2026-04-14-vbench", "type": "source", "title": "VBench：视频生成模型综合评测套件", "status": "reviewed", "created": "2026-04-14", "updated": "2026-07-12", "venue": "CVPR 2024", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-generation", "evaluation", "benchmarking", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Ziqi Huang", "Yinan He", "Jiashuo Yu", "Fan Zhang", "Chenyang Si", "Yuming Jiang", "Yuanhan Zhang", "Tianxing Wu", "Qingyang Jin", "Nattapol Chanpaisit", "Yaohui Wang", "Xinyuan Chen", "Limin Wang", "Dahua Lin", "Yu Qiao", "Ziwei Liu" ], "published_at": "2023-11-29", "canonical_links": [ "https://arxiv.org/abs/2311.17982", "https://arxiv.org/pdf/2311.17982" ], "raw_entry": "raw/ingest/2026-04-14-vbench/", "analysis_note": "raw/ingest/2026-04-14-vbench/analysis.md", "topics": [ "topics/generative-model-evaluation", "topics/video-generation" ], "entities": [], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

VBench视频生成模型综合评测套件

一句话结论

论文定位

问题定义

方法与数据

16 个维度

指标工具链

Prompt 与人工验证

核心结果

消融与诊断

局限或疑问

对 benchmark question 的证据分类

对当前 wiki 判断的影响

相关页面

原始链接

被引用4

一句话结论

论文定位

问题定义

方法与数据

16 个维度

指标工具链

Prompt 与人工验证

核心结果

消融与诊断

局限或疑问

对 benchmark question 的证据分类

对当前 wiki 判断的影响

相关页面

原始链接

关联页面

相关主题2

相关问题1

被引用4