Tune-A-Video(ICCV 2023):单样本调优图像扩散模型做文本到视频生成
会议:ICCV 2023
发表日期:2023-01-01
资料加入日期:2026-04-14
一句话结论
这篇工作是早期文本到视频路线的重要锚点,它说明图像扩散模型可以通过极小样本调优被改造成视频生成器。
问题定义
它要解决的是文本到视频生成训练成本过高的问题。相较于依赖大规模视频数据直接训练 T2V 模型的路线,Tune-A-Video 提出一种更轻量的设定:只给一个 text-video 对,也能把已有图像扩散模型调到视频生成任务上。
方法概述
方法上,它基于预训练图像扩散模型,引入时空注意力机制与 one-shot tuning 策略,并在推理时结合 DDIM inversion 做结构引导。它的重要性不只是效果,而是提供了一个早期“图像模型迁移到视频模型”的方法模板。
关键发现
- 它证明了图像扩散模型到视频生成模型的迁移是可行的。
- 它是后续很多 image-to-video / text-to-video 迁移路线的重要前史锚点。
- 它补强了当前视频生成主题中的“借已有强图像模型扩张到视频”这条线。
局限或疑问
- one-shot tuning 更像探索性设定,不代表最终大规模路线。
- 早期方法在长视频、一致性和复杂运动上仍然有限。
- 它的历史价值大于当前 SOTA 价值。
原始链接
- https://openaccess.thecvf.com/content/ICCV2023/html/Wu_Tune-A-Video_One-Shot_Tuning_of_Image_Diffusion_Models_for_Text-to-Video_Generation_ICCV_2023_paper.html
- https://openaccess.thecvf.com/content/ICCV2023/papers/Wu_Tune-A-Video_One-Shot_Tuning_of_Image_Diffusion_Models_for_Text-to-Video_Generation_ICCV_2023_paper.pdf
相关页面
- topics/video-generation
- topics/diffusion-models
- entities/diffusion-transformer
- claims/claim-dit-is-becoming-the-default-scalable-generation-backbone
备注
在当前 wiki 中,Tune-A-Video 最重要的意义是把视频生成路线的前史补上:很多后续工作其实都可以理解为在放大、修正或替代它的迁移逻辑。