EvalCrafter：大视频生成模型的多维评测与人工偏好校准

一句话结论

EvalCrafter 把 T2V 评测从 FVD/IS 单指标推进到“700 条真实用户分布启发的 prompt + 17 个多维指标 + 人工偏好校准”；它强力支持生成输出质量需要分维度评估，但对真实视频编辑理解只有边界证据。

论文定位

这是早期综合 T2V benchmark：被测对象是开源模型和黑盒商业服务的输出视频，评测覆盖视觉质量、文本—视频对齐、运动质量与时间一致性。与后来的 LMM evaluator 不同，它组合 DOVER、CLIP、RAFT、SAM-Track、VideoMAE 等预训练工具，再用人工评分拟合线性权重。

问题定义

FVD、IS 等指标难以同时回答：视频是否清晰、prompt 属性是否满足、运动是否正确、帧间是否一致；闭源服务又无法统一访问内部表征或训练数据。论文因此设计无需模型内部、可离线运行的输出层评测协议。

Benchmark 与数据

从 FullJourney、PikaLab Discord 收集 60 万+ prompt/video，清洗后约 20 万用于用户分布分析。
构建 700+ prompts，平均 12.3 words；四类主体为 human、animal、object、landscape。
覆盖 50 种 style、20 种 camera motion；约 250 条加入 style/camera-motion 变化。
GPT-4 生成 prompt 与属性 metadata、做一致性自检，作者再人工筛选；同时纳入真实用户与 T2I benchmark prompt。
真实用户 prompt 的 90% 长度在 3–40 words，但最终集合是能力覆盖集，不是自然流量分布的直接随机样本。

方法概述

17 个客观指标

维度	主要指标
视觉质量	DOVER aesthetic/technical、IS
文本—视频对齐	CLIP、SD-Score、BLIP2-BLEU、Detection/Count/Color、OCR、Celebrity ID
运动质量	VideoMAE Action、RAFT Flow、Motion AC
时间一致性	Warping Error、CLIP-Temp、Face Consistency

人工偏好校准

约 2,500 videos，7 名用户给 1–5 分；共 8,647 条反馈，过滤后保留 1,024 条。
从四种方法中取 80% 样本拟合每维线性回归权重，20% 做验证。
人工评测对应最初 512 prompts；集合扩到 700 后没有重做人工评分，作者以分数稳定性为依据沿用。

核心实验与结果

四维排名没有统一赢家

维度	第一名	分数
Visual Quality	Gen2	62.51
Text-Video Alignment	Show-1	62.07
Motion Quality	Gen2	56.43
Temporal Consistency	PikaLab	65.41

VideoCrafter1、PikaLab、Gen2、Show-1 分别在不同维度占优，直接说明单一分数会掩盖能力 trade-off。

指标与人工评分相关性

Visual：平均指标 Spearman/Kendall 0.550/0.410，校准后 0.554/0.411。
Temporal：0.544/0.389 → 0.567/0.415。
T/V Alignment：0.319/0.227 → 0.323/0.225，Kendall 略降。
Motion amplitude：未经校准平均为 -0.382/-0.277，校准后 0.450/0.324。
Warping Error 单指标达到 0.690/0.517；常用 CLIP-Score 仅 0.063/0.043，BLIP-BLEU 为 0.267/0.190。

最强证据不是“所有校准都大幅变好”，而是：异质指标不能盲目平均，尤其运动幅度与用户偏好甚至可能方向相反。

稳定性与成本

对 100 条 prompt 做增删换词噪声，大多数总分变化低于 0.2 points，排名保持。
完整 benchmark 约需 2 hours / A100 / ≥16 GB，定位是离线评测而非训练时监控。

关键诊断

元类别会改变模型相对排序。
用户常优先视觉吸引力，而不是严格 T/V 对齐。
所测模型都不能仅靠开放文本稳定控制 camera motion。
更高分辨率、更大运动幅度都不自动带来更高偏好。
可读文本、复杂场景、instruction following 与 entity detail 仍是失败点。

消融与证据强度

论文没有生成模型组件消融；评测器层主要验证：

回归加权 vs 简单平均：除 motion 外增益较小；
80/20 样本 holdout：不是 unseen-model 验证；
prompt 数量趋于稳定：支持 700 条的实用规模，不证明长尾全覆盖；
轻微 prompt 噪声：证明榜单局部稳定，不等于语义改写鲁棒。

局限或疑问

作者明确承认 700 prompts 不能覆盖复杂现实、motion quality 难评、人工标注者少、对预训练 evaluator 依赖重。
仅 1,024/8,647 条评分被保留，过滤准则与人口统计不足，可能有选择偏差。
80/20 切分可能让同一模型分布进入拟合与验证，跨代模型泛化未证。
CLIP/DOVER/RAFT/SAM-Track/VideoMAE 的域偏差会传入最终榜单。
CLIP-Temp 与偏好轻微运动可能奖励近静态视频，时间一致性和动态真实性仍纠缠。
商业/开源模型版本、长度、分辨率、默认参数不统一，不能用于架构因果归因。
不覆盖音频、长叙事、镜头剪辑、源视频保持或局部编辑。

对当前 Wiki 判断的影响

页面/命题	证据分类	影响
生成模型评测	直接支持	必须分维度并报告指标—人工相关性；CLIP/FVD 不能替代完整协议
视频生成	直接诊断	2023 年模型在画质、对齐、运动、时间一致性上没有统一赢家
DiT 主干趋势	当前不应引用	不统计 backbone，也没有 DiT 专属对照
评测是否刻画真实视频编辑理解	背景/边界证据	只测 T2V 输出；无源视频、preserve/change、镜头语法和工作流成功率

证据边界：低 generation-quality 分数不能直接解释成“模型不理解视频编辑”。EvalCrafter 测的是短 T2V 输出属性与偏好，不是编辑语法或编辑执行。

证据评级

T2V 生成质量评测：A-。benchmark、指标、人工校准、相关性和限制报告较完整。
真实视频编辑理解：C / 边界证据。可提供输出质量坐标，但不能承担理解能力结论。

EvalCrafter大视频生成模型的多维评测与人工偏好校准

一句话结论

论文定位

问题定义

Benchmark 与数据

方法概述

17 个客观指标

人工偏好校准

核心实验与结果

四维排名没有统一赢家

指标与人工评分相关性

稳定性与成本

关键诊断

消融与证据强度

局限或疑问

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

被引用4

一句话结论

论文定位

问题定义

Benchmark 与数据

方法概述

17 个客观指标

人工偏好校准

核心实验与结果

四维排名没有统一赢家

指标与人工评分相关性

稳定性与成本

关键诊断

消融与证据强度

局限或疑问

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

关联页面

相关主题2

相关实体1

相关问题1

被引用4