OSV(CVPR 2025):高质量图像到视频生成一步就够
会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:"2026-04-12"
一句话结论
这篇工作认为,一步式 image-to-video 并不是噱头;只要一致性蒸馏和对抗训练是围绕视频特性设计的,它就可以真正逼近甚至超过许多更慢的多步系统。
问题定义
它想解决视频扩散模型推理慢、成本高的问题,让高质量视频生成不必依赖冗长的迭代过程。
方法概述
方法上,OSV 采用两阶段训练:先做 consistency distillation,再结合对抗训练与潜空间视频判别器,从而把高质量视频生成压缩到一步,同时保留可选多步 refinement。
关键发现
- 一步式生成开始在视频侧变得可信,而不只是图像侧特例。
- 训练稳定性在快速视频生成中和推理设计同样关键。
- 可选多步 refinement 提供了实用的质量-速度调节旋钮。
局限或疑问
- 一步式速度虽快,但复杂运动下的质量仍要仔细人工检验。
- image-to-video 任务范围仍窄于一般 text-to-video。
- 对抗训练会增加复现实验和稳定性的复杂度。
原始链接
- https://openaccess.thecvf.com/content/CVPR2025/html/Mao_OSV_One_Step_is_Enough_for_High-Quality_Image_to_Video_CVPR_2025_paper.html
- https://openaccess.thecvf.com/content/CVPR2025/papers/Mao_OSV_One_Step_is_Enough_for_High-Quality_Image_to_Video_CVPR_2025_paper.pdf
相关页面
- topics/video-generation
- topics/diffusion-models
- topics/image-generation
- topics/generative-model-evaluation
备注
OSV 代表 video-generation 中“速度极限”方向的一条重要路线。它提醒我们,快不只是采样步数少这么简单,背后往往是蒸馏、判别器设计和训练策略一起被重构。