主题 · 更新于 2026-07-14

视频编辑

研究怎样按文本、草图、主体或运动条件修改现有视频，同时保持跨帧身份、背景、几何、运动与未编辑内容。

#near-cvpr-2025 #video-editing #diffusion #control

当前判断

视频编辑

研究怎样按文本、草图、主体或运动条件修改现有视频，同时保持跨帧身份、背景、几何、运动与未编辑内容。

33 来源笔记1 开放问题

阅读路径

问题明确任务与证据边界
方法比较方法族与结构选择
证据回到论文与可检索全文
开放问题记录仍待验证的张力

研究方法族地图

从问题定义走向可复核的系统能力

33 来源笔记

1问题明确任务与证据边界

2方法比较方法族与结构选择

3证据回到论文与可检索全文

4开放问题记录仍待验证的张力

三分钟摘要

视频编辑比图像编辑多一个硬约束：修改必须在时间上稳定，同时尊重源视频运动、身份、背景和遮挡。
主流路线包括逐视频调优/反演、训练免费注意力或特征传播、显式 mask/光流/3D 几何、主体/运动专门编辑，以及用大规模指令数据训练统一模型。
“training-free”通常只表示不更新模型参数，不代表没有反演、多轮优化、光流、特征缓存或较高 NFE。
研究价值更集中在可定位的时间失败、源视频保持协议、运动与主体编辑解耦、以及评测模型是否真正理解编辑意图。

任务或系统流程

视频编辑在哪些环节建立或失去跨帧一致性？

源视频怎样被修改而不逐帧漂移

系统先构造源视频的可编辑表示，再把条件传播到所有帧。任何只在单帧生效的编辑都可能在遮挡、视角和快速运动处失稳。

源视频解析帧、对象、mask、光流、深度、相机或 3D/latent 表示
反演/适配将源片段映射到模型轨迹、缓存特征或逐视频参数
编辑条件文本、草图、主体图、运动、局部 mask 或多模态指令
时间传播与生成attention 共享、token 融合、光流/几何传播或视频扩散
三类验收目标编辑、源内容保持、跨帧一致与真实端到端成本

图示依据FateZero、Video-P2P、RAVE、FiVE-Bench

当前综合判断

视频编辑仍没有单一统一方案。FateZero、Video-P2P 与 RAVE 代表在图像扩散先验上重用 attention/latent 并跨帧传播；MaskINT 提供非扩散 masked transformer 对照；FlowVid、Fairy、shape-aware layered editing 等用光流、特征传播或显式层改善几何一致。它们分别依赖不同源视频假设，不能只按总体视觉偏好排序。

运动与主体逐渐成为独立编辑对象。MotionEditor、Camel、MotionFollower 关注运动变化，DIVE 与 FramePainter关注主体/参考先验，VIVE3D 和 Re-Angle-a-Video 引入 3D/4D 表示。强控制通常意味着更多中间表示和前处理，也带来新误差来源。

数据与统一模型正在发展。INSVIE-1M、QK-Edit、VEGGIE 和 VideoDirector 表明指令数据、MM-DiT 注入与 grounded 条件可以扩展任务覆盖，但统一覆盖并未消除 source preservation 和时间失败。VEU-Bench、FiVE-Bench 则显示“会生成编辑结果”与“能理解编辑元素、推理和功能”是不同能力。

近五年演化（2022—2026）

视频编辑近五年的主要能力节点是什么？

从零样本注意力控制到统一指令与几何表示

时间线按接口变化组织：图像先验迁移、时间传播、显式运动/几何、规模化指令数据和专门评测。

2022–2023 · 图像先验迁移FateZero、Video-P2P、Pix2Video 等把注意力和反演扩展到时间
2024 · 一致与效率工程RAVE、VidToMe、Camel、MaskINT 探索网格、token、运动和非扩散路线
2024–2025 · 显式几何/主体FlowVid、VIVE3D、DIVE、FramePainter 引入光流、3D 或参考主体
2025 · 指令数据与统一接口INSVIE-1M、QK-Edit、VEGGIE、VideoDirector 扩大任务与条件
2025–2026 · 专门 benchmarkFiVE-Bench、VEU-Bench 区分结果质量、编辑理解和功能推理

图示依据FateZero、RAVE、MotionEditor、INSVIE-1M、VEU-Bench

方法家族与成熟阶段

一致性究竟来自反演、传播、显式运动、3D 还是数据？

视频编辑的六层方法关系

多数系统混合多层。消融应逐层移除，报告每层对编辑、保持、时间和成本的影响。

逐视频反演/调优精确贴合源片段，代价是每视频时间、存储和泛化
注意力与特征传播复用 T2I 特征跨帧保持语义，遮挡和大运动易失败
mask/光流/分层表示显式定位和传播局部变化，依赖估计质量
3D/4D 与运动表示用几何或运动先验保持视角和动态，前处理更复杂
指令数据与统一模型从大规模编辑对学习多任务接口，需检查任务干扰
评测与理解模型判断改了什么、保留什么、为什么失败，而不只给总体分

图示依据Video-P2P、FlowVid、VIVE3D、QK-Edit

方法家族的成熟度

当前阶段系统优化期

注意力/特征传播的零样本编辑

证据锚点

FateZero、Video-P2P、RAVE、VidToMe 已形成丰富工程路线。

研究机会

遮挡、快速运动、镜头切换与长片段的局部失败定位。

当前阶段成熟底座

逐视频反演与适配

证据锚点

StableVideo、Video Worth 256 Bases 等证明逐视频轨迹可增强保持。

研究机会

降低每视频成本并建立“重建好不等于可编辑好”的联合指标。

当前阶段活跃发展期

显式 mask、光流与分层几何

证据锚点

FlowVid、language-driven inpainting、shape-aware layered editing 等显示结构先验有效。

研究机会

估计不确定性、遮挡传播和软/硬约束冲突。

当前阶段活跃发展期

主体、运动与 3D/4D 专门编辑

证据锚点

MotionEditor、MotionFollower、DIVE、VIVE3D、Re-Angle 分别处理不同专门维度。

研究机会

身份、动作、相机与背景四因素解耦及跨域泛化。

当前阶段评测建设期

统一指令数据与编辑理解

证据锚点

INSVIE-1M、QK-Edit、VEGGIE 与 VEU/FiVE benchmark 建立数据和验收接口。

研究机会

同预算任务干扰、真实用户指令、模型评测器循环和失败可解释性。

哪些方向拥挤，哪些方向仍值得做

拥挤方向与研究机会

相对拥挤：对短、慢、单主体片段做总体定性；把不训练参数称为低成本；只测相邻帧相似；在不同源视频/指令上与基线比较。

仍值得做：遮挡与镜头切换下的可定位错误；源视频保持和编辑满足的双目标 benchmark；运动/相机/主体解耦；同硬件完整 pipeline 成本；体育、手术、教学等有明确时间语义的专业编辑与理解。

反方证据、局限与可证伪条件

若顺序打乱或逐帧编辑获得近似分数，所谓时间一致指标未测到时序能力。
若 training-free 方法包含昂贵反演、光流、缓存或多次采样，低成本结论必须用端到端延迟重新检验。
若统一模型在复杂运动/保持任务持续落后专用系统，强统一替代结论应撤回。
若评测器与编辑模型共享相同视觉语言表示，需用人工或独立诊断集验证。
共同局限包括遮挡、镜头切换、长时漂移、主体记忆、授权、安全和评测数据规模不足。

研究生可行的研究入口

候选课题 A：遮挡与镜头切换的编辑失败诊断优先推荐

展开研究设计收起研究设计

研究问题

编辑在对象消失/重现和 shot transition 时怎样漂移，能否定位到表示或传播层？

最小实验

300–800 个带遮挡/切换的短片段，固定三类公开方法。

指标

重现身份、局部编辑、背景保持、首次失效时间和人工错误类型。

止损条件

若上游对象真值不稳定，先收窄单对象可见性协议。

候选课题 B：运动—相机—主体解耦控制方法型

展开研究设计收起研究设计

研究问题

怎样只改对象运动，不误改相机、身份和场景？

最小实验

合成可控 + 少量真实体育片段，对比文本、轨迹、光流/姿态条件。

指标

运动命中、身份、相机轨迹、背景和额外成本。

止损条件

若真值不可获得，先做诊断 benchmark 而非声称因果解耦。

候选课题 C：training-free 完整成本与质量账本稳健

展开研究设计收起研究设计

研究问题

反演、预处理、缓存、NFE 与解码各占多少，收益在哪些片段消失？

最小实验

统一硬件、输入时长/分辨率，记录 P50/P95 和失败。

指标

总延迟、峰值显存、编辑/保持、时长扩展曲线。

止损条件

模型实现不可复现时只保留可测 subset，不填补缺失数字。

证据基础

注意力/反演：sources/2026-04-14-fatezero、sources/2026-04-14-video-p2p、sources/2026-04-14-rave-video-editing、sources/2026-04-14-stablevideo、sources/2026-04-14-pix2video、sources/2026-04-14-video-worth-256-bases。
传播与几何：sources/2026-04-12-fade、sources/2026-04-14-vidtome、sources/2026-04-14-avid-video-inpainting、sources/2026-04-14-dynvideo-e、sources/2026-04-14-language-driven-video-inpainting、sources/2026-04-14-shape-aware-layered-video-editing、sources/2026-04-14-fairy-video-to-video、sources/2026-04-14-flowvid。
运动/主体/3D：sources/2026-04-14-motioneditor、sources/2026-04-14-camel-video-editing、sources/2026-04-14-motionfollower、sources/2026-04-14-framepainter、sources/2026-04-14-dive-subject-driven-video-editing、sources/2026-04-14-vive3d、sources/2026-04-14-reangle-a-video、sources/2026-04-14-sketchvideo。
统一数据与模型：sources/2026-04-12-videodirector、sources/2026-04-12-align-a-video、sources/2026-04-14-qk-edit、sources/2026-04-14-insvie-1m、sources/2026-04-14-veggie、sources/2026-04-14-maskint、sources/2026-04-14-ccedit。
评测：sources/2026-04-12-veu-bench、sources/2026-04-14-five-bench、sources/2026-04-14-video-bench、sources/2026-04-14-aigv-assessor。

开放问题

benchmark 是否真正覆盖视频编辑理解？
怎样在多轮视频编辑中保持可撤销性与时间状态？
独立评测器怎样避免与生成/编辑模型共享捷径？
显式 3D/运动表示在何种视频上值得其前处理成本？

被引用39

通用 Vid-LLM 在视频剪辑元素识别、推理与功能判断上仍明显不足判断
视频编辑理解实体
索引入口
现有评测是否真的刻画了视频编辑理解能力问题
Align-A-Video：面向一致视频编辑的确定性奖励调优来源笔记
FADE：面向视频编辑的频率感知扩散模型分解来源笔记
VEU-Bench：通用 Vid-LLM 的视频剪辑元素理解基准来源笔记
VideoDirector：借助文本到视频模型实现精确视频编辑来源笔记
AIGV-Assessor：用大模型评测文本到视频生成感知质量来源笔记
AVID：用 Temporal MultiDiffusion 做任意长度视频修补来源笔记
CAMEL：面向文本驱动视频编辑的因果运动增强来源笔记
CCEdit：以结构—外观解耦实现创意可控视频编辑来源笔记
DIVE：用 DINO 做主体驱动视频编辑来源笔记
DynVideo-E：用动态 NeRF 编辑大运动与大视角人体视频来源笔记
Fairy：用 anchor cross-frame attention 并行加速指令视频编辑来源笔记
FateZero：融合注意力做零样本文本视频编辑来源笔记
FiVE-Bench：细粒度视频编辑评测基准来源笔记
FlowVid：把不完美光流作为软条件的视频编辑来源笔记
FramePainter：用视频扩散先验增强交互式图像编辑来源笔记
InsViE-1M：通过精细数据构造实现 instruction-based 视频编辑来源笔记
通过多模态大模型实现语言驱动视频修补来源笔记
MaskINT：关键帧扩散编辑与非自回归结构插帧的视频编辑来源笔记
MotionEditor：参考姿态驱动的人体视频运动编辑来源笔记
MotionFollower：通过 score-guided diffusion 编辑视频运动来源笔记
Pix2Video：利用图像扩散进行视频编辑来源笔记
QK-Edit：在 MM-DiT 中重构图像与视频编辑的 attention 注入来源笔记
RAVE：随机噪声重排的快速一致视频编辑来源笔记
Shape-aware Text-driven Layered Video Editing：用 UV 变形突破 atlas 的固定形状来源笔记
SketchVideo：基于草图的视频生成与编辑来源笔记
StableVideo：用 layered atlas 稳定扩散视频外观编辑来源笔记
VEGGIE：统一指令视频编辑、grounding 与 reasoning segmentation来源笔记
Video-Bench：人类偏好对齐的视频生成评测来源笔记
Video-P2P：用 shared-null inversion 与解耦 guidance 做 attention-control 视频编辑来源笔记
A Video is Worth 256 Bases：以时空 EM 低秩基改进零样本视频反演来源笔记
VidToMe：用跨帧 token merging 做零样本视频编辑来源笔记
VIVE3D：多帧个性化 EG3D 的视角无关人脸视频编辑来源笔记
生成模型评测主题
视频表示、运动信息与时序建模主题
视觉语言主题

元数据

{
  "id": "topic-video-editing",
  "type": "topic",
  "topic_kind": "research",
  "title": "视频编辑",
  "title_en": "Video Editing",
  "nav_title": "视频编辑",
  "nav_title_en": "Video Editing",
  "status": "active",
  "created": "2026-04-12",
  "updated": "2026-07-14",
  "research_stage": "evidence_map",
  "evidence_window": "2022-2026 + seminal",
  "last_evidence_review": "2026-07-14",
  "tags": [
    "near-cvpr-2025",
    "video-editing",
    "diffusion",
    "control"
  ],
  "summary": "研究怎样按文本、草图、主体或运动条件修改现有视频，同时保持跨帧身份、背景、几何、运动与未编辑内容。",
  "source_notes": [
    "sources/2026-04-12-videodirector",
    "sources/2026-04-12-fade",
    "sources/2026-04-12-align-a-video",
    "sources/2026-04-12-veu-bench",
    "sources/2026-04-14-aigv-assessor",
    "sources/2026-04-14-sketchvideo",
    "sources/2026-04-14-video-bench",
    "sources/2026-04-14-fatezero",
    "sources/2026-04-14-five-bench",
    "sources/2026-04-14-video-p2p",
    "sources/2026-04-14-rave-video-editing",
    "sources/2026-04-14-motioneditor",
    "sources/2026-04-14-maskint",
    "sources/2026-04-14-ccedit",
    "sources/2026-04-14-framepainter",
    "sources/2026-04-14-dive-subject-driven-video-editing",
    "sources/2026-04-14-qk-edit",
    "sources/2026-04-14-insvie-1m",
    "sources/2026-04-14-veggie",
    "sources/2026-04-14-camel-video-editing",
    "sources/2026-04-14-vidtome",
    "sources/2026-04-14-motionfollower",
    "sources/2026-04-14-reangle-a-video",
    "sources/2026-04-14-stablevideo",
    "sources/2026-04-14-pix2video",
    "sources/2026-04-14-video-worth-256-bases",
    "sources/2026-04-14-avid-video-inpainting",
    "sources/2026-04-14-dynvideo-e",
    "sources/2026-04-14-language-driven-video-inpainting",
    "sources/2026-04-14-shape-aware-layered-video-editing",
    "sources/2026-04-14-vive3d",
    "sources/2026-04-14-fairy-video-to-video",
    "sources/2026-04-14-flowvid"
  ],
  "foundational_sources": [
    "sources/2026-04-14-fatezero",
    "sources/2026-04-14-video-p2p",
    "sources/2026-04-14-rave-video-editing",
    "sources/2026-04-14-five-bench"
  ],
  "visuals": [
    "video-editing-system-flow",
    "video-editing-evolution",
    "video-editing-method-map"
  ],
  "related_topics": [
    "topics/video-representation-and-temporal-modeling",
    "topics/video-generation",
    "topics/diffusion-models",
    "topics/generative-model-evaluation",
    "topics/video-understanding"
  ],
  "related_entities": [
    "entities/video-editing-understanding"
  ],
  "open_questions": [
    "questions/question-do-benchmarks-track-real-video-editing-understanding"
  ]
}

视频编辑

视频编辑

从问题定义走向可复核的系统能力

三分钟摘要

任务或系统流程

当前综合判断

近五年演化（2022—2026）

方法家族与成熟阶段

方法家族的成熟度

注意力/特征传播的零样本编辑

逐视频反演与适配

显式 mask、光流与分层几何

主体、运动与 3D/4D 专门编辑

统一指令数据与编辑理解

哪些方向拥挤，哪些方向仍值得做

拥挤方向与研究机会

反方证据、局限与可证伪条件

研究生可行的研究入口

候选课题 A：遮挡与镜头切换的编辑失败诊断优先推荐

候选课题 B：运动—相机—主体解耦控制方法型

候选课题 C：training-free 完整成本与质量账本稳健

推荐排序与止损条件

证据基础

开放问题

相关页面

被引用39

视频编辑

从问题定义走向可复核的系统能力

三分钟摘要

任务或系统流程

当前综合判断

近五年演化（2022—2026）

方法家族与成熟阶段

方法家族的成熟度

注意力/特征传播的零样本编辑

逐视频反演与适配

显式 mask、光流与分层几何

主体、运动与 3D/4D 专门编辑

统一指令数据与编辑理解

哪些方向拥挤，哪些方向仍值得做

拥挤方向与研究机会

反方证据、局限与可证伪条件

研究生可行的研究入口

候选课题 A：遮挡与镜头切换的编辑失败诊断优先推荐

候选课题 B：运动—相机—主体解耦控制方法型

候选课题 C：training-free 完整成本与质量账本稳健

推荐排序与止损条件

证据基础

开放问题

相关页面

关联页面

相关主题5

相关实体1

开放问题1

来源笔记33

被引用39