Encapsulated Composition：组合式文本到图像/视频模型高质量视频合成

一句话结论

这篇论文证明了模块组合系统并不天然弱于统一大模型：通过封装式组合 T2I 的图像先验与 T2V 的时序先验，并用 selective feature injection 精细控制信息流，可以同时提升视频质量、运动平滑度和推理效率。

论文定位

它是“modular composition”路线里的代表作。与追求统一大模型不同，这篇论文把重点放在推理阶段的系统封装与信息注入设计上。

问题定义

作者面对的是 T2V 的长期矛盾：

画质高时，时序往往不稳
时序自然时，单帧细节又容易不足

简单逐帧调用 T2I 会闪烁，纯 T2V 又常常失去图像质量。

方法概述

论文主线有三层：

encapsulated composition of T2I and T2V

在推理层面组合两个预训练系统，而不是重新训练统一模型。

T2I/T2V denoising composition

研究不同去噪组合方式，说明简单串联不能得到理想结果。

Selective Feature Injection（SFI）

只提取 T2V 中对时序有价值的特征，而不把其较弱外观带入 T2I，从而同时保住画质与一致性。

关键发现

模块组合系统可以同时提升画质和运动平滑度。
SFI 是平衡 image prior 与 temporal prior 的关键机制。
组合路线在推理速度上也有优势，说明它不只是质量策略，也是工程策略。
这篇论文为统一模型路线提供了非常强的反向证据。

关键图示

组合式去噪框架

!900

这一页解释 T2I/T2V 去噪流程如何被封装组合，以及为什么简单串联不能得到理想结果，是理解论文的主图。

Selective Feature Injection 机制

!900

这一页最适合解释 SFI：如何提取 T2V 的 temporal prior，同时避免低质量外观污染 T2I 结果。

主结果页

!900

这一页集中展示与多个 baseline 的定性和定量比较，是说明 modular composition 路线竞争力的关键证据页。

核心实验与结果

论文显示组合式系统可以显著提升视频视觉质量和运动一致性。
主结果页说明它不是只在单一场景有效，而是在多个 baseline 对照下都具有优势。
速度相关分析进一步说明模块封装并不必然带来更重的推理成本。
这篇论文把“统一模型 vs 模块组合系统”的问题从抽象讨论拉回了实证层面。

局限或疑问

主要在视频合成侧成立，不能直接外推到图像生成/编辑的全局结论。
训练免费组合的长期上限是否高于深度统一训练框架，仍需更多长期比较。
目前更偏系统设计优势，跨任务统一对照仍然有限。

对当前 wiki 判断的影响

它显著补强了 questions/question-will-unified-image-models-sustain-their-advantage：模块组合系统也是非常强的竞争者。
它让 topics/video-generation 不再只围绕统一模型或单主干改造，而是增加了一条系统封装路线。
这篇论文提醒我们，工程上更强的系统未必来自更大的单体模型，也可能来自更聪明的模型组合方式。

原始链接

https://openaccess.thecvf.com/content/CVPR2025/html/Su_Encapsulated_Composition_of_Text-to-Image_and_Text-to-Video_Models_for_High-Quality_Video_CVPR_2025_paper.html
https://openaccess.thecvf.com/content/CVPR2025/papers/Su_Encapsulated_Composition_of_Text-to-Image_and_Text-to-Video_Models_for_High-Quality_Video_CVPR_2025_paper.pdf
http://arxiv.org/abs/2507.13753

{ "id": "2026-04-14-encapsulated-composition-t2i-t2v", "type": "source", "title": "Encapsulated Composition（CVPR 2025）：组合式文本到图像/视频模型高质量视频合成", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-17", "venue": "CVPR 2025", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-generation", "image-generation", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Tongtong Su", "Chengyu Wang", "Bingyan Liu", "Jun Huang", "Dongming Lu" ], "published_at": "2025-06-11", "canonical_links": [ "https://openaccess.thecvf.com/content/CVPR2025/html/Su_Encapsulated_Composition_of_Text-to-Image_and_Text-to-Video_Models_for_High-Quality_Video_CVPR_2025_paper.html", "https://openaccess.thecvf.com/content/CVPR2025/papers/Su_Encapsulated_Composition_of_Text-to-Image_and_Text-to-Video_Models_for_High-Quality_Video_CVPR_2025_paper.pdf", "http://arxiv.org/abs/2507.13753" ], "raw_entry": "raw/ingest/2026-04-14-encapsulated-composition-t2i-t2v/", "analysis_note": "raw/ingest/2026-04-14-encapsulated-composition-t2i-t2v/analysis.md", "image_index": "raw/ingest/2026-04-14-encapsulated-composition-t2i-t2v/images/index.md", "topics": [ "topics/video-generation", "topics/image-generation", "topics/diffusion-models" ], "entities": [ "entities/diffusion-transformer" ], "claims": [], "questions": [ "questions/question-will-unified-image-models-sustain-their-advantage" ] }

Encapsulated Composition组合式文本到图像/视频模型高质量视频合成

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

组合式去噪框架

Selective Feature Injection 机制

主结果页

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

被引用4

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

组合式去噪框架

Selective Feature Injection 机制

主结果页

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

关联页面

相关主题3

相关实体1

相关问题1

被引用4