InsViE-1M：通过精细数据构造实现 instruction-based 视频编辑

一句话结论

InsViE-1M 用约 102 万个高分辨率三元组、GPT-4o + optical-flow 双过滤和三阶段课程微调 CogVideoX-2B，在自建 100 视频与 TGVE/TGVE+ 上取得强结果；它证明数据工程与原生视频底座可以共同改善编辑，但没有把数据质量、规模、架构与 64×A100 训练预算完全拆开。

论文定位与接口

输入：源视频 + 自然语言 instruction，无需 mask 或 edited first frame。
输出：instruction-based edited video。
核心对象：数据构造、质量过滤、CogVideoX-2B LoRA 与分阶段训练。
非目标：长视频、多镜头剪辑、编辑解释或叙事推理。

数据与方法

来源	数量	输出	帧数	GPT	EPE
Real videos	450,790	1024×576	25	3.47	0.79
Image pairs	110,374	1024×576	25	3.43	1.22
Real images	458,429	1024×576	25	4.07	0.16
总计	1,019,593	1024×576	25	3.74	0.55

CosXL 以 CFG 3–8 生成 6 个首帧候选，GPT-4o 选四维最佳结果。
SVD 传播到视频，再以 GPT-4o 六维评分和 GMFlow EPE 过滤。
CogVideoX-2B 仅训练 input embedding 与 rank-128 LoRA。
Set-S1 全量 20k steps；Set-S2 高质量子集 10k；Set-S3 静态:真实=5:1、加入 LPIPS loss，再 10k。

实验设置

720×480 crop，batch 128，64×A100；训练约 100 小时，推理约 90 秒/20 GB/单 GPU。
自建 100 视频测试集（DAVIS/YoutubeVOS/Pexels）以及 TGVE/TGVE+。
八指标覆盖 temporal consistency、text alignment、video quality；GPT-4o 同时参与过滤与评测。

核心结果

方法	TC CLIP ↑	EPE ↓	TA CLIP ↑	Pick ↑	DOVER ↑	VQ GPT ↑
TokenFlow	0.951	6.58	18.59	18.63	0.566	3.77
Videoshop	0.952	5.02	18.92	18.78	0.501	3.42
InsV2V	0.951	4.97	19.01	18.75	0.559	3.68
InsViE	0.956	4.84	19.37	18.91	0.567	3.79

主表八项均最优，但部分差距很小，且底座、训练数据、分辨率与计算量未受控。TGVE/TGVE+ 上 InsViE 四项也均最优；InsV2V 在该数据上重训后多数指标改善，是数据价值的相邻受控证据。

关键消融

设置	TC CLIP ↑	EPE ↓	TA CLIP ↑	Pick ↑	DOVER ↑
w/o GPT filter	0.944	5.66	18.47	18.23	0.515
w/o OF filter	0.941	6.58	18.73	18.37	0.490
Stage 1	0.950	5.08	18.87	18.40	0.510
Stage 1&2	0.951	4.87	19.03	18.65	0.519
Stage 1&2&3	0.956	4.84	19.37	18.91	0.567

GPT filter 更影响文本对齐，OF filter 更影响运动/画质；Stage 3 同时改变静态数据比例并加入 LPIPS，无法拆开两者贡献。

局限或疑问

作者承认过滤受 GPT-4o 视觉理解上限制约，25 帧仍不够长。
干净 instruction 训练导致对无用描述鲁棒性较差，并继承开源生成底座缺陷。
GPT-4o 既筛数据又参与三组评测，存在 evaluator coupling。
64×A100、100 小时，加上数据生成/筛选，成本和复现门槛高。
原始数据近半来自静态图像，Set-S3 静态:真实=5:1；高画质不等于复杂运动覆盖。
自建测试仅 100 视频，CLIP/Pick/DOVER/EPE 不测关系、物理、叙事与编辑规划。

对当前 Wiki 判断的影响

对视频编辑：直接支持大规模过滤数据 + 原生视频底座微调路线。
对视频生成：间接支持生成底座会限制编辑能力，不等于评测开放式 T2V。
对图像编辑：背景/迁移证据，只因图像编辑对参与数据构造。
对数据与架构问题：相邻间接支持，且问题域不同；不能据此证明数据比架构更重要。
对视频编辑理解评测问题：压力测试证据。八项输出指标仍不测剪辑元素识别、依据推理、叙事功能或多步计划。

证据评级

B+（视频编辑数据工程强案例）。数据统计、跨 benchmark 主表与过滤/课程消融较完整；但 GPT 循环评估、比较不受控、训练成本大，无法精确分离数据、架构和预算贡献。

原始链接

相关页面

{ "id": "2026-04-14-insvie-1m", "type": "source", "title": "InsViE-1M：通过精细数据构造实现 instruction-based 视频编辑", "status": "reviewed", "created": "2026-04-14", "updated": "2026-07-12", "venue": "ICCV 2025", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-editing", "video-generation", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Yuhui Wu", "Liyi Chen", "Ruibin Li", "Shihao Wang", "Chenxi Xie", "Lei Zhang" ], "published_at": "2025-01-01", "canonical_links": [ "https://openaccess.thecvf.com/content/ICCV2025/html/Wu_InsViE-1M_Effective_Instruction-based_Video_Editing_with_Elaborate_Dataset_Construction_ICCV_2025_paper.html", "https://openaccess.thecvf.com/content/ICCV2025/papers/Wu_InsViE-1M_Effective_Instruction-based_Video_Editing_with_Elaborate_Dataset_Construction_ICCV_2025_paper.pdf" ], "raw_entry": "raw/ingest/2026-04-14-insvie-1m/", "topics": [ "topics/video-editing", "topics/video-generation", "topics/image-editing" ], "entities": [ "entities/video-editing-understanding" ], "claims": [], "questions": [ "questions/question-data-vs-architecture-in-image-editing", "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

InsViE-1M通过精细数据构造实现 instruction-based 视频编辑

一句话结论

论文定位与接口

数据与方法

实验设置

核心结果

关键消融

局限或疑问

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

被引用4

一句话结论

论文定位与接口

数据与方法

实验设置

核心结果

关键消融

局限或疑问

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

关联页面

相关主题3

相关实体1

相关问题2

被引用4