Blended Diffusion(CVPR 2022):把文本驱动自然图像编辑直接接进扩散生成过程
会议:CVPR 2022
发表日期:2021/11/29
资料加入日期:2026-04-16
一句话结论
这篇工作把自然图像编辑更早地接进 diffusion 路线:它通过混合局部编辑与全局生成过程,让文本驱动编辑能够在真实图像上更自然地落地。
问题定义
早期文本驱动图像编辑常常在两个方向上失衡:要么局部改动不够贴合原图,要么生成结果虽然符合文本但破坏了原始结构。论文要解决的是,怎样让 diffusion 在真实图像编辑里同时保留原图内容和文本目标。
方法概述
作者提出 Blended Diffusion,把待编辑区域和上下文图像共同纳入扩散过程,通过扩散式采样在编辑区域内逐步完成语义改写,同时尽量维持上下文一致性。它的重要性在于把 text-driven editing 从纯生成路线拉回到真实图像编辑场景,并给后续 image-editing topic 提供了一个更早的 diffusion 锚点。
关键发现
- 它是 topics/image-editing 里很早的 diffusion editing 节点,说明文本驱动真实图像编辑在 2022 年就已经明确接入 diffusion 主线。
- 它把“编辑区域”和“上下文保持”同时作为生成过程的一部分处理,说明 diffusion editing 很早就开始围绕局部保真度与全局一致性做结构设计。
- 它和后来的 sources/2026-04-14-diffeditor、sources/2026-04-14-imagen-editor-editbench 能形成清晰前后关系:前者补强编辑精度,后者把方法与 benchmark 一起推进。
局限或疑问
- 它更像早期自然图像编辑范式,离后来的统一生成-编辑系统还有明显距离。
- 在复杂多对象、多步指令编辑场景里的可扩展性,当前材料里还看不到足够证据。
- 这条路线对编辑区域定义和上下文融合的依赖较强,后续是否会被更统一的 latent / transformer 路线替代,仍值得继续跟踪。
原始链接
- https://arxiv.org/abs/2111.14818
- https://arxiv.org/pdf/2111.14818.pdf
相关页面
- topics/image-editing
- topics/diffusion-models
- sources/2026-04-14-diffeditor
- sources/2026-04-14-imagen-editor-editbench
备注
它在本库中的价值,是把当前 image-editing 主线往前接到更早的 diffusion natural-image editing 起点,让后续编辑路线不只从 instruction editing 年代开始讲。