Prompt-to-Prompt：把 cross-attention 直接变成文本编辑控制面板

一句话结论

这篇工作把图像编辑里的 prompt 改写问题，直接下沉到 cross-attention 控制：通过替换、精炼和重权重化注意力图，可以在尽量保留原图结构的同时完成文本驱动编辑。

问题定义

text-to-image diffusion 很擅长从零生成，但文本编辑真正困难的地方在于“改一部分、保留大部分”。只要 prompt 稍微变化，模型通常就会整张图一起漂移；而依赖人工 mask 的方法又会破坏原始结构与内容。

方法概述

作者深入分析 text-conditioned diffusion 的 cross-attention，指出它决定了词语和空间布局的对应关系。基于这一点，Prompt-to-Prompt 在推理时直接操控 cross-attention map，实现 word swap、prompt refinement 和 attention re-weighting，让文本编辑尽量沿着原始布局轨道前进。

关键发现

它为 topics/image-editing 补上了一个非常关键的机制锚点：后续大量 attention-based editing / guidance 工作，基本都默认继承了“cross-attention 可以直接编程”的前提。
这篇工作和 sources/2026-04-16-a-star、sources/2026-04-14-video-p2p 形成清晰谱系：先是把 attention 用作图像编辑控制接口，再扩到语义修复与视频编辑。
它说明 controllability 不一定非要靠新训练分支，prompt 本身也可以通过 attention 注入方式获得更精细的编辑行为。
在本库里，它把 batch-f 的 control / layout composition 主线与 image-editing 主线真正接上了。

局限或疑问

它更像一种推理期控制机制，而不是完整的统一编辑系统，因此对复杂编辑链条的覆盖有限。
方法强依赖 cross-attention 的可解释性和可操作性，对非 attention 主干并不天然适配。
当前证据主要强调语义与布局保留，对真实世界复杂遮挡、局部几何变化的鲁棒性仍有限。

原始链接

https://arxiv.org/abs/2208.01626
https://arxiv.org/pdf/2208.01626.pdf

备注

它在本库中的价值，是把 control / layout composition 这条长尾从“prompt 可以控制一点生成”推进到“attention、语义覆盖、布局建模和多路径组合都能成为独立接口设计问题”。

Prompt-to-Prompt把 cross-attention 直接变成文本编辑控制面板