VEGGIE：统一指令视频编辑、grounding 与 reasoning segmentation

一句话结论

VEGGIE 用 MLLM 生成逐帧 grounded task queries，再由 video diffusion 统一执行 6 类编辑、对象 grounding 与 reasoning segmentation；其 132-pair VEG-Bench 证明了受限像素 grounding/reasoning 的优势，但没有人工用户研究，且训练/推理成本几乎未披露。

输入、输出与方法

输入视频与文本指令/问题；输出同长度编辑视频或把答案区域涂色的 mask 视频。
MLLM 产生逐帧连续 task tokens，单层 MLP 对齐 diffusion 条件空间；原视频 latent 与噪声拼接，tokens 进入 cross-attention。
Stage 1 用约 3.4M image instruction pairs 对齐语言与 diffusion；Stage 2 加 temporal attention，用约 134K/136K video pairs 端到端微调。
两阶段只用 diffusion loss；“单一 loss”不等于低成本或简单模型。
8 技能：addition、removal、swap、environment、visual feature、style、grounding、reasoning segmentation。

数据、指标与人评

VEG-Bench：132 video-instruction pairs，8 类各约 15–20；7 个模型比较。
编辑用 CLIP alignment、CLIP-F smoothness、MUSIQ quality、GroundingDINO detection。
GPT-4o MLLM-as-a-Judge 给语义完成度 1–10；这是自动 evaluator，不是人评，论文未报告与人工偏好的相关性。
grounding/reasoning 用 SSIM、Jaccard $J$ 与 F-measure $F$。
无参与者用户研究、置信区间、难度分层或 train/benchmark overlap 审计。

主要结果

Addition：VEGGIE MLLM-Judge 7.44、Detection 57.96，表内最好。
Removal：Detection 70.22，低于 LGVI 78.40；MLLM-Judge 5.07 也非第一。
Stylization：8.26，略低 Flatten 8.31；多个 smoothness/quality 指标也非第一。
Object grounding：SSIM/J/F = 70.90/37.74/21.83，表内第一。
Reasoning segmentation：68.41/22.53/15.97，表内第一，但绝对 J/F 仍低。
平均排名：VEGGIE 1.78，是 instructional 方法中最好；TokenFlow 跨表为 1.41，因此不能写成所有模型/指标总冠军。

核心优势是统一接口与 mask-grounded 子任务，不是每类视觉质量全面领先。

消融与成本

VPLM 上 removal-only FVD 1098.52，mixed 987.80；grounding-only SSIM 52.34，mixed 55.21，支持平衡多任务互助。
作者同时观察 grounding 数据过多会引入 artifacts；未给数据配比扫描或方差。
没有 MLLM、task query、curriculum、合成数据过滤的独立数值消融。
本地正式 PDF 未披露确切 MLLM/diffusion checkpoint 参数量、GPU、训练步数、batch、分辨率、学习率、训练时长、推理 latency、sampling steps 或 GPU-hours。
数据生成本身还需离线 MLLM、I2V、video editor 与自动过滤器。

编辑与理解能力边界

6 类是生成式 video-to-video editing；不控制新运动或相机轨迹。
grounding 有 GT mask 的直接定位证据；reasoning segmentation 测“问题→目标概念→mask”的受限理解。
不测动作时序、事件因果、长程记忆、开放 QA 或多轮交互，不能外推为一般视频理解。
CLIP/SSIM 不能证明 face/instance identity、局部背景保持、动作轨迹或遮挡恢复。
参考图与 in-context 编辑只有定性案例，未量化成功率。

关键局限

132-pair benchmark 小，无人工偏好与统计区间。
GPT-4o judge 未做人类校准，可能奖励模型熟悉的视觉/指令模式。
合成数据继承 I2V/editor 偏差，质量过滤可能偏好保守、低运动输出。
训练数据巨大但成本不透明，难与 training-free 方法公平比较。
grounding/reasoning 的绝对 J/F 仍有限；复杂遮挡、多相似对象、长视频未分桶。

对当前 Wiki 判断的影响

对视频编辑：说明编辑、grounding 和受限 reasoning 可共享生成接口。
对视频理解：只有 grounding/reasoning segmentation 是直接理解证据，且覆盖窄。
对视觉语言：连续 task query 连接 MLLM 与 VidDM，避免离散中间布局。
对视频编辑理解与 benchmark 问题：必须分开 edit success、mask grounding、真正时序推理和人类偏好。

证据评级

B-（统一编辑+grounding 的直接但小规模证据；对受限 reasoning segmentation 为 C+，对一般视频理解为 C-/无覆盖）。

原始链接

相关页面

{ "id": "2026-04-14-veggie", "type": "source", "title": "VEGGIE：统一指令视频编辑、grounding 与 reasoning segmentation", "status": "reviewed", "created": "2026-04-14", "updated": "2026-07-12", "venue": "ICCV 2025", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-editing", "video-understanding", "vision-language", "reasoning", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Shoubin Yu", "Difan Liu", "Ziqiao Ma", "Yicong Hong", "Yang Zhou", "Hao Tan", "Joyce Chai", "Mohit Bansal" ], "published_at": "2025-01-01", "canonical_links": [ "https://openaccess.thecvf.com/content/ICCV2025/html/Yu_VEGGIE_Instructional_Editing_and_Reasoning_Video_Concepts_with_Grounded_Generation_ICCV_2025_paper.html", "https://openaccess.thecvf.com/content/ICCV2025/papers/Yu_VEGGIE_Instructional_Editing_and_Reasoning_Video_Concepts_with_Grounded_Generation_ICCV_2025_paper.pdf", "https://veggie-gen.github.io/", "https://github.com/Yui010206/VEGGIE-VidEdit/" ], "raw_entry": "raw/ingest/2026-04-14-veggie/", "analysis_note": "raw/ingest/2026-04-14-veggie/analysis.md", "topics": [ "topics/video-editing", "topics/video-understanding", "topics/vision-language" ], "entities": [ "entities/video-editing-understanding" ], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

VEGGIE统一指令视频编辑、grounding 与 reasoning segmentation

一句话结论

输入、输出与方法

数据、指标与人评

主要结果

消融与成本

编辑与理解能力边界

关键局限

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

被引用4

一句话结论

输入、输出与方法

数据、指标与人评

主要结果

消融与成本

编辑与理解能力边界

关键局限

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

关联页面

相关主题3

相关实体1

相关问题1

被引用4