OmniGen：统一图像生成

一句话结论

OmniGen 把图像系统往“统一接口 + 端到端工作流”方向推进了一大步：同一个模型原生覆盖 text-to-image、image editing、subject-driven generation 和 visual-conditional generation，并把插件式工作流简化成统一指令驱动流程。

论文定位

这篇论文是统一图像模型路线中的“系统接口派”代表作。它主打三个词：unification、simplicity、knowledge transfer。

问题定义

OmniGen 关注的是图像生成系统长期存在的三个结构性问题：

图像任务被拆成多个专用流水线
多条件控制依赖额外插件和中间步骤
不同任务之间难共享知识与能力

作者希望把图像任务改写成一个更像 LLM 的统一交互接口。

方法概述

论文的核心机制有三层：

统一框架

文本被 token 化，输入图像经 VAE 映射为 embedding，再进入统一 Transformer 式生成流程；Figure 2 明确说明 OmniGen 接受 free-form multi-modal prompts，并通过统一流程生成图像。

统一任务格式

OmniGen 把 image editing、subject-driven generation、visual-conditional generation、few-shot / mixed-modal to image 等任务改写到统一输入输出格式里。

跨任务知识迁移

论文把 knowledge transfer 作为核心主张，认为统一格式训练可让模型更好处理 unseen tasks 与 unseen domains。

关键发现

统一模型可以原生覆盖多种图像任务，而不是依赖插件堆叠。
simplicity 本身就是系统级优势，它直接改善了工作流复杂度。
统一格式训练被明确当作知识迁移机制，而不只是任务混合。
论文已经开始讨论 reasoning 和 chain-of-thought，说明统一图像系统正在向更通用能力边界外溢。

关键图示

OmniGen 框架图

!900

Figure 2 是最关键的方法图，展示文本 token、图像 token、Transformer 与 VAE 如何构成统一图像生成框架，并说明 OmniGen 支持 free-form multi-modal prompts。

统一任务设定与数据格式

!900

这一页展示 X2I dataset、mixed-modal prompts、subject-driven generation 与 computer vision tasks 等内容，最能解释 OmniGen 统一了哪些任务类型。

主结果总览

!900

这一页同时提供多任务质化结果、主体驱动案例和 benchmark 定量结果，是说明 OmniGen 不是概念统一而是有效统一的关键证据。

核心实验与结果

论文在主结果页同时覆盖 text-to-image、multi-modal-to-image 和 subject-driven generation。
结果页既有任务广度，也有 benchmark 表格，因此很适合当作统一路线的综合证据页。
OmniGen 试图用一个更简单的系统结构完成过去需要多条工作流拼接的任务。
reasoning 与 step-by-step 生成部分说明作者在探索统一图像系统进一步的能力边界。

局限或疑问

统一接口的系统优势很明显，单项任务的峰值性能仍需继续与专用系统对照。
reasoning / chain-of-thought 相关能力目前更像潜力展示，后续需要更严格验证。
统一模型在高阶可控性和超复杂场景下的稳定性还值得继续跟踪。

对当前 wiki 判断的影响

它强化了 topics/image-generation 中“图像系统越来越像通用视觉变换模型”的判断。
它补强了 entities/unified-image-generation-editing：统一路线内部存在一类非常强调接口统一和工作流简化的方法。
它为 claims/claim-unified-models-may-outcompete-specialized-image-pipelines 提供了系统形态层的支持证据。

原始链接

https://openaccess.thecvf.com/content/CVPR2025/html/Xiao_OmniGen_Unified_Image_Generation_CVPR_2025_paper.html
https://openaccess.thecvf.com/content/CVPR2025/papers/Xiao_OmniGen_Unified_Image_Generation_CVPR_2025_paper.pdf

{ "id": "2026-04-12-omnigen", "type": "source", "title": "OmniGen（CVPR 2025）：统一图像生成", "status": "reviewed", "created": "2026-04-12", "updated": "2026-04-17", "venue": "CVPR 2025", "ingested_at": "2026-04-12", "tags": [ "near-cvpr-2025", "image-generation", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Shitao Xiao", "Yueze Wang", "Junjie Zhou", "Huaying Yuan", "Xingrun Xing", "Ruiran Yan", "Chaofan Li", "Shuting Wang", "Tiejun Huang", "Zheng Liu" ], "published_at": "2025-06-11", "canonical_links": [ "https://openaccess.thecvf.com/content/CVPR2025/html/Xiao_OmniGen_Unified_Image_Generation_CVPR_2025_paper.html", "https://openaccess.thecvf.com/content/CVPR2025/papers/Xiao_OmniGen_Unified_Image_Generation_CVPR_2025_paper.pdf" ], "raw_entry": "raw/ingest/2026-04-12-omnigen/", "analysis_note": "raw/ingest/2026-04-12-omnigen/analysis.md", "image_index": "raw/ingest/2026-04-12-omnigen/images/index.md", "topics": [ "topics/image-generation", "topics/diffusion-models" ], "entities": [ "entities/unified-image-generation-editing" ], "claims": [ "claims/claim-unified-models-may-outcompete-specialized-image-pipelines" ], "questions": [ "questions/question-will-unified-image-models-sustain-their-advantage" ] }

OmniGen统一图像生成

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

OmniGen 框架图

统一任务设定与数据格式

主结果总览

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

被引用6

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

OmniGen 框架图

统一任务设定与数据格式

主结果总览

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

关联页面

相关主题2

相关实体1

相关判断1

相关问题1

被引用6