MotionStone：用 DiT 解耦运动强度调制的图像到视频生成

一句话结论

MotionStone 把图生视频里的 motion control 推到了更细粒度层：通过将 object motion 与 camera motion 强度解耦，并分别注入 Diffusion Transformer，模型能更稳定、更可解释地控制视频动态。

论文定位

这篇论文是“DiT 主干结构改造 + 运动控制解耦”路线里的代表作。它最重要的贡献不在于统一任务，而在于把 controllability 的增益明确地放在主干结构设计上。

问题定义

作者认为图生视频生成长期存在一个关键问题：

运动强度控制过于粗糙，
对象运动与相机运动混在一起，
用户很难精确指定视频到底“谁在动、动多大”。

方法概述

MotionStone 的关键设计有三层：

motion intensity estimation

学习估计 object motion intensity 与 camera motion intensity。

decoupled motion embedding

将对象和相机两类运动分别编码，而不是混成一个统一条件。

motion condition injection into DiT

将解耦后的 motion embedding 分别注入 Diffusion Transformer，实现更稳定的 controllability。

关键发现

运动控制需要结构化解耦，而不是单一粗糙条件。
decoupled injection 是这篇论文最核心的结构设计。
定量与定性结果都说明架构设计本身可以成为强增益来源。
MotionStone 继续强化了 DiT 作为可扩展生成主干的地位。

关键图示

方法总览图

!900

这一页展示 object / camera 两类运动强度如何被估计、编码并注入 DiT，是理解 MotionStone 的关键主图。

主定性结果

!900

这一页与 I2VGen-XL、SVD、AnimateAnything、CogVideoX 等方法做定性对比，是说明其运动控制能力的关键结果页。

定量与消融

!900

这一页同时给出主结果定量比较、消融实验以及 motion condition injection design，是最适合作为证据页的页面。

核心实验与结果

MotionStone 显著提升了 object motion 与 camera motion 的可控性。
主结果页显示它在多个场景里更能同时保持主体动作、镜头运动和视觉稳定性。
消融说明 decoupled motion embedding 和 decoupled injection 都是有效设计。
这篇论文清楚地把“性能增益来自架构改造”摆到了前台。

局限或疑问

它主要提供视频生成证据，不直接回答图像编辑任务。
即便架构收益明显，也不能据此否定高质量监督数据的重要性。
仍需要和更严格控制数据变量的研究做配套阅读。

对当前 wiki 判断的影响

它显著补强了 claims/claim-dit-is-becoming-the-default-scalable-generation-backbone：DiT 仍在持续被改造，并且仍是 controllability 的重要底座。
它也补强了 questions/question-data-vs-architecture-in-image-editing 的反向证据侧：强增益完全可能来自结构改造。
MotionStone 让 topics/video-generation 里的“架构改造是强杠杆”这条判断更具体。

原始链接

https://openaccess.thecvf.com/content/CVPR2025/html/Shi_MotionStone_Decoupled_Motion_Intensity_Modulation_with_Diffusion_Transformer_for_Image-to-Video_CVPR_2025_paper.html
https://openaccess.thecvf.com/content/CVPR2025/papers/Shi_MotionStone_Decoupled_Motion_Intensity_Modulation_with_Diffusion_Transformer_for_Image-to-Video_CVPR_2025_paper.pdf
http://arxiv.org/abs/2412.05848

{ "id": "2026-04-14-motionstone", "type": "source", "title": "MotionStone（CVPR 2025）：用 DiT 解耦运动强度调制的图像到视频生成", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-17", "venue": "CVPR 2025", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-generation", "diffusion", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Shuwei Shi", "Biao Gong", "Xi Chen", "Dandan Zheng", "Shuai Tan", "Zizheng Yang", "Yuyuan Li", "Jingwen He", "Kecheng Zheng", "Jingdong Chen", "Ming Yang", "Yinqiang Zheng" ], "published_at": "2025-06-11", "canonical_links": [ "https://openaccess.thecvf.com/content/CVPR2025/html/Shi_MotionStone_Decoupled_Motion_Intensity_Modulation_with_Diffusion_Transformer_for_Image-to-Video_CVPR_2025_paper.html", "https://openaccess.thecvf.com/content/CVPR2025/papers/Shi_MotionStone_Decoupled_Motion_Intensity_Modulation_with_Diffusion_Transformer_for_Image-to-Video_CVPR_2025_paper.pdf", "http://arxiv.org/abs/2412.05848" ], "raw_entry": "raw/ingest/2026-04-14-motionstone/", "analysis_note": "raw/ingest/2026-04-14-motionstone/analysis.md", "image_index": "raw/ingest/2026-04-14-motionstone/images/index.md", "topics": [ "topics/video-generation", "topics/diffusion-models" ], "entities": [ "entities/diffusion-transformer" ], "claims": [ "claims/claim-dit-is-becoming-the-default-scalable-generation-backbone" ], "questions": [ "questions/question-data-vs-architecture-in-image-editing" ] }

MotionStone用 DiT 解耦运动强度调制的图像到视频生成

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

方法总览图

主定性结果

定量与消融

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

被引用3

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

方法总览图

主定性结果

定量与消融

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

关联页面

相关主题2

相关实体1

相关判断1

相关问题1

被引用3