Attention Calibration for Disentangled Text-to-Image Personalization：解耦式个性化注意力校准

一句话结论

DisenDiff从一张包含两个不同类别主体的图像学习两个可独立/组合调用的personalization tokens，通过modifier-class绑定与class-class分离校准SD1.5 cross-attention；10张图的CLIP评测中image-alignment 0.775最高，但无人评，同类别双实例和三概念明显退化。

问题定义

现有个性化方法可记住主体，却容易把同图多个主体的属性混在一起：请求单独生成灯时仍出现椅子，或颜色/纹理错绑。论文要求不提供训练mask，仅凭一张图同时学多个概念。

方法概述

Backbone：Stable Diffusion 1.5 latent diffusion U-Net；冻结大部分参数，只更新cross-attention的$W_K,W_V$与新token embeddings。
Prompt：V1* class1 and V2* class2；类别token提供粗定位，新modifier绑定实例属性。
$L_{bind}$让modifier attention与对应class attention的平滑区域对齐。
$L_{s&s}$最小化不同class maps的IoU；$A\odot A$ suppression锐化边界；Gaussian filter缓解token逐像素竞争。
只在16×16 attention施加约束；250 steps、batch 8、lr 8e-5；推理50-step DDIM、CFG 6。
从LAION-5B retrieval 200张同类正则图，故不是只依赖单图的完全封闭训练。

这是per-image微调方法，不是zero-shot reference adapter、统一生成编辑模型或DiT。

数据与结果

10组单图：Cat+Dog、Cow+Bird、Man+Woman、Chair+Vase、Chair+Lamp、Dog+Pig、Mother+Child、Woman+Dog、Horse+Dog、Baby+Toy。每图30 prompts，每prompt 16样本。

设置	方法	Image align↑	Text align↑
Mean	Textual Inversion	0.625	0.796
Mean	DreamBooth	0.696	0.788
Mean	Custom Diffusion	0.762	0.780
Mean	DisenDiff	0.775	0.780
Concept2	Custom Diffusion	0.709	0.799
Concept2	DisenDiff	0.733	0.791

提升主要是主体外观保留与Concept2解耦；文本对齐并非全面最优。指标都基于CLIP，无法充分衡量严格身份、细纹理和对象漏出。

消融、人评与成本

去$L_{bind}$/$L_{s&s}$会降两主体image-alignment；去suppression主要损Concept2；去Gaussian filter损组合；二次suppression过滤重要属性。约束所有尺度会使Concept2难重建；再更新$W_Q$虽更记外观，却损文本可编辑性。

没有正式用户研究。论文未报告GPU型号、显存、训练分钟/GPU-hours或checkpoint大小。

局限或疑问

同类别细粒度双实例（如Golden Retriever与Border Collie）很难分开。
三概念可定性运行但性能明显下降。
训练需类别名、200张外部正则图与per-image fine-tuning。
数据只有10张，自动指标共享CLIP evaluator。
不支持通用编辑接口、严格identity guarantee或DiT趋势判断。

证据评级

B：方法和逐数据结果透明；小数据、CLIP单一指标、无人评、成本缺失及同类/三概念边界限制结论。

{ "id": "2026-04-14-attention-calibration-personalization", "type": "source", "title": "Attention Calibration for Disentangled Text-to-Image Personalization：解耦式个性化注意力校准", "status": "reviewed", "note_status": "reviewed", "created": "2026-04-14", "updated": "2026-07-12", "source_type": "paper", "venue": "CVPR 2024", "authors": [ "Yanbing Zhang", "Mengping Yang", "Qin Zhou", "Zhe Wang" ], "published_at": "2024-03-27", "ingested_at": "2026-04-14", "canonical_links": [ "https://arxiv.org/abs/2403.18551", "https://arxiv.org/pdf/2403.18551", "https://github.com/Monalissaa/DisenDiff" ], "raw_entry": "raw/ingest/2026-04-14-attention-calibration-personalization/", "topics": [ "topics/image-generation", "topics/diffusion-models" ], "entities": [], "claims": [], "questions": [], "tags": [ "near-cvpr-2025", "image-generation", "diffusion", "conditioning", "primary-source" ] }

Attention Calibration for Disentangled Text-to-Image Personalization解耦式个性化注意力校准

一句话结论

问题定义

方法概述

数据与结果

消融、人评与成本

局限或疑问

相关页面

证据评级

被引用2

一句话结论

问题定义

方法概述

数据与结果

消融、人评与成本

局限或疑问

相关页面

证据评级

关联页面

相关主题2

被引用2