Tune-A-Video（ICCV 2023）：单样本调优图像扩散模型做文本到视频生成

会议：ICCV 2023

发表日期：2023-01-01

资料加入日期：2026-04-14

一句话结论

这篇工作是早期文本到视频路线的重要锚点，它说明图像扩散模型可以通过极小样本调优被改造成视频生成器。

问题定义

它要解决的是文本到视频生成训练成本过高的问题。相较于依赖大规模视频数据直接训练 T2V 模型的路线，Tune-A-Video 提出一种更轻量的设定：只给一个 text-video 对，也能把已有图像扩散模型调到视频生成任务上。

方法概述

方法上，它基于预训练图像扩散模型，引入时空注意力机制与 one-shot tuning 策略，并在推理时结合 DDIM inversion 做结构引导。它的重要性不只是效果，而是提供了一个早期“图像模型迁移到视频模型”的方法模板。

关键发现

它证明了图像扩散模型到视频生成模型的迁移是可行的。
它是后续很多 image-to-video / text-to-video 迁移路线的重要前史锚点。
它补强了当前视频生成主题中的“借已有强图像模型扩张到视频”这条线。

局限或疑问

one-shot tuning 更像探索性设定，不代表最终大规模路线。
早期方法在长视频、一致性和复杂运动上仍然有限。
它的历史价值大于当前 SOTA 价值。

原始链接

https://openaccess.thecvf.com/content/ICCV2023/html/Wu_Tune-A-Video_One-Shot_Tuning_of_Image_Diffusion_Models_for_Text-to-Video_Generation_ICCV_2023_paper.html
https://openaccess.thecvf.com/content/ICCV2023/papers/Wu_Tune-A-Video_One-Shot_Tuning_of_Image_Diffusion_Models_for_Text-to-Video_Generation_ICCV_2023_paper.pdf

备注

在当前 wiki 中，Tune-A-Video 最重要的意义是把视频生成路线的前史补上：很多后续工作其实都可以理解为在放大、修正或替代它的迁移逻辑。

Metadata

{ "id": "2026-04-14-tune-a-video", "type": "source", "title": "Tune-A-Video（ICCV 2023）：单样本调优图像扩散模型做文本到视频生成", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "ICCV 2023", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-generation", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Jay Zhangjie Wu", "Yixiao Ge", "Xintao Wang", "Stan Weixian Lei", "Yuchao Gu", "Yufei Shi", "Wynne Hsu", "Ying Shan", "Xiaohu Qie", "Mike Zheng Shou" ], "published_at": "2023-01-01", "canonical_links": [ "https://openaccess.thecvf.com/content/ICCV2023/html/Wu_Tune-A-Video_One-Shot_Tuning_of_Image_Diffusion_Models_for_Text-to-Video_Generation_ICCV_2023_paper.html", "https://openaccess.thecvf.com/content/ICCV2023/papers/Wu_Tune-A-Video_One-Shot_Tuning_of_Image_Diffusion_Models_for_Text-to-Video_Generation_ICCV_2023_paper.pdf" ], "raw_entry": "raw/ingest/2026-04-14-tune-a-video/", "topics": [ "topics/video-generation", "topics/diffusion-models" ], "entities": [ "entities/diffusion-transformer" ], "claims": [ "claims/claim-dit-is-becoming-the-default-scalable-generation-backbone" ], "questions": [] }