ArticleMetadataMain page

source · 2026-04-15

Video-P2P(ICCV 2023):基于 cross-attention control 的视频编辑

Video-P2P(ICCV 2023):基于 cross-attention control 的视频编辑

会议:ICCV 2023
发表日期:2023-03-08
资料加入日期:2026-04-14

一句话结论

这篇工作把 Prompt-to-Prompt 式 cross-attention control 明确迁移到视频编辑,补上了早期“图像编辑技巧如何扩到视频”的关键环节。

问题定义

它要解决的是文本驱动视频编辑里如何在保持时序一致性的同时,沿用图像扩散编辑中已经很有效的 attention 控制能力。对当前 topic 来说,它是 FateZero 旁边非常关键的另一条早期锚点。

方法概述

Video-P2P 将 Prompt-to-Prompt 风格的 cross-attention control 引入视频扩散编辑,通过在视频生成过程中控制文本条件与注意力注入,尽量实现可控编辑同时减小时序漂移。

关键发现

  • 它说明 video-editing 的早期发展很大程度上是在“把图像编辑中的可控注入技巧迁移到视频”这一思路上前进。
  • 它为后续 RAVE、MotionEditor、CAMEL 一类工作提供了清晰前史:先解决可控性,再逐步补时序一致性与运动质量。
  • 它也提醒我们,很多视频编辑改进并不是完全新问题,而是图像编辑控制机制在时序域的重构。

局限或疑问

  • 这一路线天然容易受时序漂移和跨帧不一致影响。
  • 它更像强控制基线,不代表后续视频原生模型已经被它解决。
  • 仅凭这类方法很难证明模型真的“理解”了视频编辑任务。

原始链接

  • https://arxiv.org/abs/2303.04761
  • https://arxiv.org/pdf/2303.04761

相关页面

备注

Video-P2P 在这套库里的作用,是把视频编辑主线中的“attention 控制迁移路线”补成明确历史节点。