AnyDoor：训练一次的零样本对象级图像定制

一句话结论

AnyDoor 用 DINOv2 身份特征、HF-map 细节条件和大规模视频/图像混合数据训练一次，即可把未见参考对象前向插入指定场景区域；它是强专用对象重生成器，而不是统一生成—编辑模型。

论文定位与任务接口

输入去背景参考对象、场景图和目标 box/粗 mask，输出指定区域的对象重生成。它允许姿态、视角、照明和形状随场景变化，测试对象无需微调；与 DreamBooth 的“逐主体注册后生成”不同，也不接受任意自然语言编辑指令。

方法概述

DINOv2 全局+patch tokens 提取对象身份，并先去除参考背景。
Sobel 高频 RGB collage 经 ControlNet-style encoder 提取 logo、纹理等细节；粗 mask 控形。
ID tokens 经 Stable Diffusion 2.1 UNet cross-attention 注入，detail maps 拼到 decoder 多尺度特征；冻结 encoder、微调 decoder。
用视频同一对象跨帧构造真实变化对，再混合多视角、试衣、显著性与实例分割数据；ATS 让视频偏早期结构步、清晰图片偏后期细节步（PDF pp.3–5）。

训练数据与成本

Table 1 汇总 13 组来源，包括 YouTubeVOS/VIS、UVO、MOSE、VIPSeg、BURST、MVImgNet、VitonHD、FashionTryon、MSRA-10K、DUT、HFlickr、LVIS 与 100,864 条 SAM subset。512×512、Adam、学习率 $10^{-5}$。论文未报告 GPU、batch、步数、训练时长或总算力；“zero-shot”只指测试对象无微调，不表示低总训练成本。

核心实验与结果

30 个 DreamBooth 未见概念 × 80 张 COCO-Val 场景，共 2,400 组合；15 位标注者。
用户研究（质量/身份保真/多样性，1–4）：Paint-by-Example 2.71/2.10/3.04，Graphit 2.65/2.11/2.84，AnyDoor 3.04/3.06/2.88。AnyDoor 质量与身份最佳，但多样性不是最高（PDF p.6，Table 2）。
对 DreamBooth、Custom Diffusion、Cones 的优势主要来自定性图且接口不同，不能写成全面定量胜出。

关键消融

DINOv2 global+patch+去背景达到 CLIP/DINO 82.1/67.8；CLIP global+patch 仅 73.8/31.5，表明细粒度实例表征与背景清理关键（PDF p.7，Table 3）。
原图 collage 分数最高但近似复制粘贴；HF-map 为保真—变化折中（82.1/67.8），提醒自动相似度不等于自然编辑（Table 4）。
移除 HF-map 会丢小细节；均匀 timestep 比 ATS 多样，但质量与保真下降（Fig.7–9）。

局限或疑问

作者明确指出小字符与 logo 仍难保持，可能需要更相关数据、更高分辨率和更好 VAE decoder（PDF p.8）。
box/mask、去背景参考和局部重生成是强接口约束；多对象关系、复杂遮挡、透明/细线对象未充分评估。
benchmark 是 30 概念与 80 张手选场景，用户研究仅 15 人。
移动/交换依赖额外 SAM 与 inpainting；姿态迁移增加并训练额外 ControlNet，不是单模型统一能力。

对当前 Wiki 判断的影响

数据还是架构

DINOv2、HF-map 与 ATS 消融表明表征/模块/训练策略很重要；13 组混合训练来源又是零样本泛化前提。论文没有同预算数据规模—主干受控实验，只能支持“数据与架构耦合”，不能判定谁主导。

统一还是专用

AnyDoor 是专用对象级模型；扩展任务仍组合 SAM、inpainting 和 ControlNet。旧 source 将它归入 unified-image-generation-editing 并用于统一模型优势问题属于过度外推，现已移除。它更能说明通用生成先验与专用控制模块可以组合。

原始链接

相关页面

{ "id": "2026-04-14-anydoor", "type": "source", "title": "AnyDoor：训练一次的零样本对象级图像定制", "status": "reviewed", "created": "2026-04-14", "updated": "2026-07-12", "venue": "CVPR 2024", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "image-generation", "image-editing", "control", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Xi Chen", "Lianghua Huang", "Yu Liu", "Yujun Shen", "Deli Zhao", "Hengshuang Zhao" ], "published_at": "2023-07-18", "canonical_links": [ "https://openaccess.thecvf.com/content/CVPR2024/html/Chen_AnyDoor_Zero-shot_Object-level_Image_Customization_CVPR_2024_paper.html", "https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_AnyDoor_Zero-shot_Object-level_Image_Customization_CVPR_2024_paper.pdf", "https://arxiv.org/abs/2307.09481", "https://arxiv.org/pdf/2307.09481", "https://damo-vilab.github.io/AnyDoor-Page/" ], "raw_entry": "raw/ingest/2026-04-14-anydoor/", "topics": [ "topics/image-generation", "topics/image-editing", "topics/vision-language" ], "entities": [], "claims": [], "questions": [ "questions/question-data-vs-architecture-in-image-editing" ] }

AnyDoor训练一次的零样本对象级图像定制

一句话结论

论文定位与任务接口

方法概述

训练数据与成本

核心实验与结果

关键消融

局限或疑问

对当前 Wiki 判断的影响

数据还是架构

统一还是专用

原始链接

相关页面

被引用4

一句话结论

论文定位与任务接口

方法概述

训练数据与成本

核心实验与结果

关键消融

局限或疑问

对当前 Wiki 判断的影响

数据还是架构

统一还是专用

原始链接

相关页面

关联页面

相关主题3

相关问题1

被引用4