ArticleMetadataMain page

source · 2026-04-15

VEGGIE(ICCV 2025):通过 grounded generation 进行指令式编辑与视频概念推理

VEGGIE(ICCV 2025):通过 grounded generation 进行指令式编辑与视频概念推理

会议:ICCV 2025
发表日期:2025-01-01
资料加入日期:2026-04-14

一句话结论

这篇工作把 instruction-based 视频编辑与视频概念推理放到同一框架里,补上了 editing 和 understanding 交界处的一条关键路线。

问题定义

它要解决的是视频编辑系统不只是要会改视频,还要能围绕视频概念进行更 grounded 的理解与操作。对当前知识库来说,它非常适合填厚 video-understanding 这一页。

方法概述

VEGGIE 将 instructional editing、reasoning video concepts 和 grounded generation 结合起来,让视频编辑过程和概念层推理更紧密耦合。

关键发现

  • 它说明 video-editing 与 video-understanding 之间的界面正在变得更直接,编辑系统开始显式吸收 reasoning 需求。
  • 它为“模型是否真正理解了编辑任务”这个问题提供了更贴近能力本体的样本。
  • 它也把 vision-language 与 grounded generation 更强地拉入视频编辑主线。

局限或疑问

  • 概念推理是否真的提升了最终编辑完成度,还需要更多细粒度评测支持。
  • grounded generation 路线往往系统更复杂。
  • 它是很强的方向性工作,但还需要更多后续跟进才能看清稳定收益。

原始链接

  • https://openaccess.thecvf.com/content/ICCV2025/html/Yu_VEGGIE_Instructional_Editing_and_Reasoning_Video_Concepts_with_Grounded_Generation_ICCV_2025_paper.html
  • https://openaccess.thecvf.com/content/ICCV2025/papers/Yu_VEGGIE_Instructional_Editing_and_Reasoning_Video_Concepts_with_Grounded_Generation_ICCV_2025_paper.pdf

相关页面

备注

VEGGIE 在这套库里的作用,是把视频编辑与视频理解交界处的 reasoning 路线补成明确节点。