Align-A-Video：面向一致视频编辑的确定性奖励调优

一句话结论

Align-A-Video 证明，在 Stable Diffusion 1.5 的单视频编辑设定中，对一个锚帧做固定噪声的 LoRA reward tuning，再把其特征传播到全片，可以显著提高 DOVER、PickScore 与文本对齐，同时保持接近强特征注入基线的时序分数；它是实例级优化，不是通用视频 RLHF。

论文定位

这篇论文位于“图像扩散底座做视频编辑”的延长线上。它不训练视频生成模型，而是把 HPSv2 图像偏好 reward 用于单个视频/提示词，并显式处理 reward 优化与跨帧一致性的冲突。

问题定义与接口

输入：源视频与目标编辑提示词。
输出：保留源运动、按提示改变前景/背景/风格的编辑视频。
V2VBench 覆盖 50 个视频、每视频 3 个提示词，共 150 个组合、4 类任务。
核心难点：强结构注入保时序但压制编辑语义；弱约束又容易漂移、闪烁和失真。

方法概述

对锚帧做 DDIM inversion，固定初始噪声，消除单提示词 reward tuning 中由采样噪声引起的梯度波动。
只更新 attention 投影的 LoRA 参数，以 HPSv2 最大化锚帧偏好分数。
关键帧以 query 查询锚帧 key/value，再沿源视频特征对应关系传播到其他帧。
使用 Stable Diffusion 1.5、DDIM、PnP diffusion；没有大规模新训练数据。

核心实验与结果

指标	本文	最强基线	结论
PickScore ↑	21.847	21.039	约 +3.84%
DOVER ↑	0.761	0.708	约 +7.49%
CLIP / ViCLIP ↑	0.284 / 0.265	0.282 / 0.263	小幅最优
CLIP consistency ↑	0.955	0.957	略低于 TokenFlow
DINO consistency ↑	0.944	0.956	略低于 TokenFlow

论文明确写道没有方法在全部指标上横扫。最可靠结论是质量—语义—一致性折中改善，而非全面 SOTA。效率测试中 TokenFlow、ControlVideo 更快且更省显存；本文只是具有竞争力。

关键消融

去掉 reward tuning：示例保住冲浪动作，却不能完成“man→Captain America”；证据为质化图。
用 extended attention 替换锚帧 cross-frame attention：输出更模糊；仍是质化证据。
PickScore 和 LAION aesthetic reward 也能改善观感，但 LAION reward 不具文本对齐能力，说明 reward 决定优化方向。

局限或疑问

HPSv2 是图像 reward，只优化单锚帧，不能直接评分运动、闪烁和时序因果。
核心组件缺少完整数值消融、方差和多随机种子。
单锚帧传播在遮挡、视角大变、多对象交互和非刚体运动中可能偏置全片。
每个视频/提示词仍需 LoRA 调优，不能称 training-free。
50 个短视频不覆盖长视频、镜头切换与动作重写；EPE 的负值/方向说明也不充分。

对当前 Wiki 判断的影响

对视频编辑：直接支持“reward tuning 是独立工程路线”，但应限定为单实例图像奖励适配。
对视频生成：仅为背景/间接证据，论文不训练或评测纯 T2V。
对生成模型评测：支持把视觉质量、语义对齐与时序一致性分开报告。
对视频编辑理解评测问题：仅为背景证据。输出质量低不等于语言/编辑意图理解不足；V2VBench 也不测试剪辑语法、依据推理或叙事功能。

证据评级

B（中等偏强，任务内直接证据）。8 个指标、5 个基线和明确主表支持质量收益；但关键消融主要质化、规模有限，且不构成“真实视频编辑理解”的直接证据。

原始链接

相关页面

{ "id": "2026-04-12-align-a-video", "type": "source", "title": "Align-A-Video：面向一致视频编辑的确定性奖励调优", "status": "reviewed", "created": "2026-04-12", "updated": "2026-07-12", "venue": "CVPR 2025", "ingested_at": "2026-04-12", "tags": [ "near-cvpr-2025", "video-editing", "diffusion", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Shengzhi Wang", "Yingkang Zhong", "Jiangchuan Mu", "Kai Wu", "Mingliang Xiong", "Wen Fang", "Mingqing Liu", "Hao Deng", "Bin He", "Gang Li", "Qingwen Liu" ], "published_at": "2025-06-11", "canonical_links": [ "https://openaccess.thecvf.com/content/CVPR2025/html/Wang_Align-A-Video_Deterministic_Reward_Tuning_of_Image_Diffusion_Models_for_Consistent_CVPR_2025_paper.html", "https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_Align-A-Video_Deterministic_Reward_Tuning_of_Image_Diffusion_Models_for_Consistent_CVPR_2025_paper.pdf" ], "raw_entry": "raw/ingest/2026-04-12-align-a-video/", "topics": [ "topics/video-editing", "topics/video-generation", "topics/generative-model-evaluation" ], "entities": [], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

Align-A-Video面向一致视频编辑的确定性奖励调优

一句话结论

论文定位

问题定义与接口

方法概述

核心实验与结果

关键消融

局限或疑问

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

被引用3

一句话结论

论文定位

问题定义与接口

方法概述

核心实验与结果

关键消融

局限或疑问

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

关联页面

相关主题3

相关问题1

被引用3