ArticleMetadataMain page

topic · 2026-04-17

图像生成

图像生成

概述

这一页主要整理 CVPR 2025 邻近范围内的图像生成研究脉络。当前最明显的趋势有三条:第一,图像生成和图像编辑正在快速融合,统一模型开始替代过去高度割裂的专用流水线;第二,生成质量的提升仍然强依赖底层架构改造,尤其是围绕 diffusion transformer 的效率与表达能力优化;第三,图像系统越来越像“通用视觉变换模型”,而不只是单纯的 text-to-image 模型。

本页关注什么

  • 图像生成的方法家族
  • 训练与推理策略的变化
  • 条件控制机制
  • 与编辑相连的生成范式
  • 横跨多篇论文的比较与综合判断

当前综合判断

sources/2026-04-12-anyeditsources/2026-04-12-omnigensources/2026-04-12-dreamomnisources/2026-04-12-fireeditsources/2026-04-12-unirealsources/2026-04-12-d2it 这两轮按“深分析 + 提图 + 再编译”重做后,也把 image-generation 主线的内部结构照得更清楚了:AnyEdit 把统一编辑系统的瓶颈重新拉回高质量数据和任务组织;OmniGen 把统一图像系统推进到更像 LLM 的统一接口与工作流;DreamOmni 说明统一路线还能建立在 synthetic data pipeline 与联合训练协同上;UniReal 更进一步把统一路线推进到“真实世界动态建模”层;D²iT 则从反方向提醒我们,专用生成主干内部的动态粒度优化依然非常强,统一路线面前始终存在强大的 backbone 精修竞争。这使当前主线更像一场“统一接口、统一训练、世界动态建模、主干内部精修”并行推进的系统竞争。

sources/2026-04-15-freeusources/2026-04-15-distilling-ode-solvers-diffusion-modelssources/2026-04-16-on-distillation-of-guided-diffusion-modelssources/2026-04-16-post-training-quantization-on-diffusion-modelssources/2026-04-16-towards-practical-plug-and-play-diffusion-modelssources/2026-04-16-self-guided-diffusion-modelssources/2026-04-15-accelerating-diffusion-sampling-optimized-time-stepssources/2026-04-15-diffusion-models-without-attention 又把 image-generation 的基础工程层补厚了一截:现在 backbone 对照、solver 蒸馏、guidance 蒸馏、低比特量化、plug-and-play 控制工程化、自监督 guidance、时间步优化和推理期免费提质都已进入本库主线。

sources/2026-04-15-all-are-worth-wordssources/2026-04-15-scalable-diffusion-models-with-transformerssources/2026-04-15-analyzing-training-dynamics-diffusion-modelssources/2026-04-15-act-diffusionsources/2026-04-15-deepcache 让 image-generation 的 backbone、训练动力学、一步扩散训练与推理缓存加速几条基础工程线更完整地并排站住;其中 DiT 论文把“Transformer 主干为何会成为默认路线”解释得更清楚了。

sources/2026-04-16-diffusion-autoencoderssources/2026-04-16-high-fidelity-guided-image-synthesis 又把 image-generation 的前史补得更完整:前者强调 diffusion 的可解码语义表示,后者强调 latent diffusion 上的高保真 guidance 质量。

sources/2026-04-16-diffusionclipsources/2026-04-16-bbdm-brownian-bridge-diffusion 也提醒我们,image-generation 主线很早就开始向 editing / translation 接口外溢,而不是只停留在纯生成。

sources/2026-04-16-come-closer-diffuse-fastersources/2026-04-16-rethinking-spatial-inconsistency-cfgsources/2026-04-16-sana-sprint 则把 image-generation 的 acceleration / guidance frontier 再拉长:从早期 conditional acceleration,到 CFG 局部空间治理,再到 one-step consistency distillation 前沿。

sources/2026-04-16-accelerating-dit-gradient-cachesources/2026-04-16-distilling-parallel-gradients-ode-solverssources/2026-04-16-text-embedding-quantization-diffusion 进一步说明,2025 的 diffusion engineering 已经进入更细的系统级优化:cache 机制、solver 内部蒸馏、以及 text-guided 条件链路量化都在独立演化。

sources/2026-04-16-controlnetsources/2026-04-16-a-starsources/2026-04-16-boxdiffsources/2026-04-16-dense-text-attention-modulation 又把 image-generation 的 controllability 补成了一条更细的 guidance 长尾:除了 plug-and-play 与 self-guidance,现在还出现了 side-branch condition adapters、test-time attention 修复、training-free box guidance 和 dense-caption layout modulation。也就是说,图像生成里的控制接口已经不只是“给 prompt”,而是在逐步演化成一整套 inference-time interface design。

再补入 sources/2026-04-16-prompt-to-promptsources/2026-04-16-attend-and-excitesources/2026-04-16-multidiffusionsources/2026-04-16-dlt-layout-transformer 后,这条线又往更抽象的 composition 层推进了一步:现在不仅可以修局部 attention、补主体遗漏,还可以把多条 diffusion 轨迹绑定成统一控制框架,甚至把 layout generation 本身提前建模成离散-连续联合 diffusion 问题。这说明 controllability 正在从“局部技巧”收敛成“多层接口栈”。

sources/2026-04-16-self-correcting-llm-controlled-diffusion-modelssources/2026-04-16-c3netsources/2026-04-16-layoutdiffusion-graphic-layout-generationsources/2026-04-16-dc-controlnet 则把这条接口栈继续往“标准接口边界”推进:闭环 controller、多模态复合条件、离散 layout diffusion,以及 inter-element / intra-element 分层控制都开始具备较清晰的位置。这让 image-generation 的 controllability 更像一套正在成形的 control taxonomy。

sources/2026-04-14-attention-calibration-personalizationsources/2026-04-14-condition-aware-neural-networksources/2026-04-14-contrastive-denoising-scoresources/2026-04-14-cosmicman 进一步把 image-generation 的个性化校准、条件感知控制、编辑机制优化和人物专门 foundation model 路线补厚了。

sources/2026-04-14-codisources/2026-04-14-conformsources/2026-04-14-check-locate-rectifysources/2026-04-14-customization-assistant 又让 image-generation 在蒸馏提速、高保真训练、布局校准和定制辅助工作流四条线上更完整。

sources/2026-04-14-domain-expansion-image-generatorssources/2026-04-14-wavelet-diffusion-modelssources/2026-04-14-commoncanvassources/2026-04-14-concept-weaver 又让 image-generation 在域扩展、高效表示、开放训练生态和多概念融合四条线更完整。

sources/2026-04-14-recosources/2026-04-14-multi-concept-customizationsources/2026-04-14-specialist-diffusionsources/2026-04-14-image-specific-prompt-learning 让 image-generation 在区域控制、多概念个性化、样本高效适配和提示层适配四条线上明显更完整。

sources/2026-04-14-concon-chi 也给个性化生成相关路线补入了更明确的 benchmark 支撑。

sources/2026-04-14-layoutdiffusion 又补入了显式空间布局控制路线,使 image-generation 的控制接口谱系更完整。

sources/2026-04-14-reangle-a-video 又给“生成接口被重写为翻译/编辑接口”这条线补入了一个更近期的视频样本。

sources/2026-04-14-qk-editsources/2026-04-14-insvie-1m 也从侧面说明,统一生成-编辑系统的竞争已开始同时受新主干可编辑性与数据构造能力影响。

sources/2026-04-14-framepaintersources/2026-04-14-dive-subject-driven-video-editing 说明图像生成中的视频先验与主体驱动能力,正在继续外溢到图像/视频混合编辑接口。

sources/2026-04-14-paint-by-example 也进一步说明,近三年图像生成主线的一部分能力已经通过“示例驱动编辑”重新流回编辑接口层。

近三年补回的 sources/2026-04-14-anydoor 还说明,对象级零样本定制已经成为图像生成主线中的重要能力分支;而 sources/2026-04-14-verifiable-human-eval-t2i 则提醒我们,图像生成评测不只是造新指标,也在重建更可信的人类评测协议。

跨年份补强之后,这条主线的前史更完整了。近三年补回的 sources/2026-04-14-imagen-editor-editbenchsources/2026-04-14-flasheval 又把这条线往两个方向拉开:前者说明图像生成/编辑系统很早就开始同时建设专门评测基准,后者说明生成模型评测正在朝快速可迭代基础设施演化。sources/2026-04-14-latent-diffusion-models 提供了现代高分辨率扩散生成的关键工程底座;sources/2026-04-14-dreambooth 把主体驱动生成与个性化能力推进成明确方向;sources/2026-04-14-gligen 则把 grounded control 接进图像生成主线。放在一起看,当前 image-generation 不是突然在 2025 才变复杂,而是经过了底座建立、个性化扩展、可控生成增强,再到统一生成/编辑系统汇合的过程。前两批 source 已经显示出三条强趋势。第一,统一模型正成为中心路线:sources/2026-04-12-dreamomnisources/2026-04-12-omnigensources/2026-04-12-unireal 都认为生成应与编辑及其他下游任务共享结构。第二,图像生成质量仍在架构核心上持续改进,例如 sources/2026-04-12-d2it 通过动态区域压缩优化 diffusion transformer 内部表示。第三,生成与编辑之间的边界正在消失:第一批和第二批合在一起看,未来图像系统更像通用视觉变换模型,而不是单一 T2I 工具。sources/2026-04-14-pathways-image-manifold 更进一步,直接把图像编辑问题改写到视频生成路径上,说明跨任务借模已经开始进入具体方法层。

方法家族

相关实体

证据基础

后续值得追踪的问题