Article Metadata Main page

source · 2026-04-15

Video-P2P（ICCV 2023）：基于 cross-attention control 的视频编辑

#near-cvpr-2025 #video-editing #video-generation #diffusion #primary-source

Video-P2P（ICCV 2023）：基于 cross-attention control 的视频编辑

会议：ICCV 2023

发表日期：2023-03-08

资料加入日期：2026-04-14

一句话结论

这篇工作把 Prompt-to-Prompt 式 cross-attention control 明确迁移到视频编辑，补上了早期“图像编辑技巧如何扩到视频”的关键环节。

问题定义

它要解决的是文本驱动视频编辑里如何在保持时序一致性的同时，沿用图像扩散编辑中已经很有效的 attention 控制能力。对当前 topic 来说，它是 FateZero 旁边非常关键的另一条早期锚点。

方法概述

Video-P2P 将 Prompt-to-Prompt 风格的 cross-attention control 引入视频扩散编辑，通过在视频生成过程中控制文本条件与注意力注入，尽量实现可控编辑同时减小时序漂移。

关键发现

它说明 video-editing 的早期发展很大程度上是在“把图像编辑中的可控注入技巧迁移到视频”这一思路上前进。
它为后续 RAVE、MotionEditor、CAMEL 一类工作提供了清晰前史：先解决可控性，再逐步补时序一致性与运动质量。
它也提醒我们，很多视频编辑改进并不是完全新问题，而是图像编辑控制机制在时序域的重构。

局限或疑问

这一路线天然容易受时序漂移和跨帧不一致影响。
它更像强控制基线，不代表后续视频原生模型已经被它解决。
仅凭这类方法很难证明模型真的“理解”了视频编辑任务。

原始链接

https://arxiv.org/abs/2303.04761
https://arxiv.org/pdf/2303.04761

相关页面

备注

Video-P2P 在这套库里的作用，是把视频编辑主线中的“attention 控制迁移路线”补成明确历史节点。

Metadata

{
  "id": "2026-04-14-video-p2p",
  "type": "source",
  "title": "Video-P2P（ICCV 2023）：基于 cross-attention control 的视频编辑",
  "status": "reviewed",
  "created": "2026-04-14",
  "updated": "2026-04-15",
  "venue": "ICCV 2023",
  "ingested_at": "2026-04-14",
  "tags": [
    "near-cvpr-2025",
    "video-editing",
    "video-generation",
    "diffusion",
    "primary-source"
  ],
  "note_status": "reviewed",
  "source_type": "paper",
  "authors": [
    "Liu, Shaoteng",
    "Zhang, Yuechen",
    "Li, Wenbo",
    "Lin, Zhe",
    "Jia, Jiaya"
  ],
  "published_at": "2023-03-08",
  "canonical_links": [
    "https://arxiv.org/abs/2303.04761",
    "https://arxiv.org/pdf/2303.04761"
  ],
  "raw_entry": "raw/ingest/2026-04-14-video-p2p/",
  "topics": [
    "topics/video-editing",
    "topics/video-generation"
  ],
  "entities": [
    "entities/video-editing-understanding"
  ],
  "claims": [],
  "questions": [
    "questions/question-do-benchmarks-track-real-video-editing-understanding"
  ]
}