DiffusionCLIP（CVPR 2022）：把文本引导图像操控更早接到 diffusion 路线里

会议：CVPR 2022

发表日期：2021/10/06

资料加入日期：2026-04-16

一句话结论

这篇工作把文本驱动图像操控更早地接到 diffusion 路线里，说明真实图像属性编辑在 diffusion 时代很早就开始摆脱 GAN-only 范式。

真实图像编辑需要同时满足两件事：语义改动要准确，原图身份与结构也要尽量保住。论文要解决的是，怎样把文本驱动操控能力稳定迁移到 diffusion 模型上。

作者围绕预训练 diffusion model 做文本引导编辑，让模型在保留原图核心内容的同时按文本做语义变换。它的重要性在于给后续 image-editing 主线补上一个早期 diffusion text-guided manipulation 锚点。

它说明 2022 年时 diffusion 就已经开始争夺真实图像操控这条路线。
它和 sources/2026-04-16-blended-diffusion 一起构成早期 diffusion editing 双节点：一个更偏自然图像区域编辑，一个更偏文本驱动属性操控。
它能帮助解释后续 sources/2026-04-14-null-text-inversion、sources/2026-04-14-imagic、sources/2026-04-14-diffeditor 为什么会继续沿真实图像 diffusion 编辑深挖。

它在本库中的价值，是把“文本引导真实图像 diffusion 编辑”这条线往前接到 2022 年，使后续编辑谱系更完整。