FramePainter：用视频扩散先验增强交互式图像编辑

一句话结论

FramePainter 把单图交互编辑重写成 SVD 的两帧 image-to-video generation，并以 matching attention 建立源—目标 dense correspondence；在作者自建 200 对测试集上仅用 20k 训练对就领先所选基线，但它不是视频编辑器，也没有通过受控实验独立证明全部收益来自 video prior。

论文定位与接口

输入：源图与 sketch、click/drag points 或 coarse edit。
输出：重建源图 + 目标编辑图的两帧序列；最终评测对象是编辑图像。
目标：交互信号准确、身份/纹理/结构保真、变化自然。
非目标：输入视频编辑、长视频一致性、剪辑语法或叙事理解。

方法概述

两帧 SVD formulation：源图作为第一帧，目标图作为第二帧；联合重建源图并生成编辑图。
Sparse control encoder：只向目标帧注入交互信号，避免干扰源重建。
Matching attention：目标 token 查询所有源 token；CoTracker correspondence/visibility 监督 attention map，推理不需 tracker。
视频对构造：SEA-RAFT 过滤静态机位视频帧对，CoTracker/光流生成 points、sketch 与 coarse edit。

数据与实验

22,000 视频帧对；约 20,000 训练、200 评测。
SVD v1.1，576×1024；2×A6000，20k iterations，25-step Euler。
三类信号分别训练，并非单模型零样本切换。
指标：CLIP-FID、LPIPS、SSIM；另有 100 样本/500 输出的偏好研究，但未报告参与者人数与显著性。

核心结果

信号	方法	样本	CLIP-FID ↓	LPIPS ↓	SSIM ↑
Sketch	MasaCtrl+ControlNet	0	17.933	0.302	0.655
Sketch	FramePainter	20k	7.783	0.140	0.859
Coarse	Magic Fixup	2,500k	8.757	0.166	0.855
Coarse	FramePainter	20k	7.573	0.132	0.888
Points	LightningDrag	220k	9.894	0.214	0.794
Points	FramePainter	20k	8.513	0.166	0.825

这些结果支持任务内数据效率，但不同方法的底座、训练规模、mask 和交互要求不同，不能当作同预算因果比较。

关键消融

Temporal → cross-frame → matching attention：CLIP-FID 8.398→8.099→7.783，LPIPS 0.165→0.156→0.140，SSIM 0.807→0.826→0.859。
去掉源图重建：CLIP-FID 8.201、LPIPS 0.154、SSIM 0.834；加入后为 7.783/0.140/0.859。
未隔离 CoTracker loss、control encoder 或 SVD-vs-T2I 底座的独立贡献。

局限或疑问

200 对同流程自建测试集，偏向静态机位、光流可表示的局部变化。
每种信号单独训练，不是统一交互编辑模型。
“域外泛化”主要是精选质化案例，没有系统成功率。
CLIP-FID/LPIPS/SSIM 测 target 相似与保真，不证明物理因果或语义理解。
用户研究未报告参与者规模；基线比较也未控制底座和预算。

对当前 Wiki 判断的影响

对图像编辑：直接支持视频生成先验反向服务交互式图像编辑。
对视频生成：间接支持SVD prior 可迁移，但不比较开放式视频生成。
对视频编辑：中性相邻案例，因为没有编辑输入视频。
对统一模型优势问题：替代路线/压力测试，显示专用模块化跨任务借模仍可高效；不支持统一模型整体胜出。
对视频编辑理解评测问题：背景证据，其 target-image benchmark 不测剪辑语法、依据推理或叙事功能。

证据评级

B（图像编辑任务内中等偏强）。主表和两组数值消融完整，数据效率信号明显；但测试小且同源、基线不受控、video-prior 因果贡献未隔离。对 video-editing 只属于相邻证据。

原始链接

arXiv
PDF

相关页面

{ "id": "2026-04-14-framepainter", "type": "source", "title": "FramePainter：用视频扩散先验增强交互式图像编辑", "status": "reviewed", "created": "2026-04-14", "updated": "2026-07-12", "venue": "ICCV 2025", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "image-editing", "video-generation", "diffusion", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Zhang, Yabo", "Zhou, Xinpeng", "Zeng, Yihan", "Xu, Hang", "Li, Hui", "Zuo, Wangmeng" ], "published_at": "2025-01-14", "canonical_links": [ "https://arxiv.org/abs/2501.08225", "https://arxiv.org/pdf/2501.08225" ], "raw_entry": "raw/ingest/2026-04-14-framepainter/", "topics": [ "topics/image-editing", "topics/video-generation", "topics/video-editing" ], "entities": [ "entities/unified-image-generation-editing", "entities/video-editing-understanding" ], "claims": [], "questions": [ "questions/question-will-unified-image-models-sustain-their-advantage", "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

FramePainter用视频扩散先验增强交互式图像编辑

一句话结论

论文定位与接口

方法概述

数据与实验

核心结果

关键消融

局限或疑问

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

被引用4

一句话结论

论文定位与接口

方法概述

数据与实验

核心结果

关键消融

局限或疑问

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

关联页面

相关主题3

相关实体2

相关问题2

被引用4