ArticleMetadataMain page

source · 2026-04-15

ANetQA(CVPR 2023):面向未裁剪视频细粒度组合推理的大规模基准

ANetQA(CVPR 2023):面向未裁剪视频细粒度组合推理的大规模基准

会议:CVPR 2023
发表日期:2023/05/04
资料加入日期:2026-04-14

一句话结论

这篇工作把未裁剪视频中的细粒度组合推理 benchmark 补了进来,强化了 video-understanding 对事件结构理解的覆盖。

问题定义

它要解决的是模型在长而未裁剪的视频里能否真正理解多事件、组合关系和时序结构的问题。对当前知识库来说,它补的是 compositional reasoning 这一层。

方法概述

ANetQA 构建面向 untrimmed videos 的 fine-grained compositional reasoning benchmark,通过问答形式测试模型对事件关系与结构的理解。

关键发现

  • 它让 video-understanding 页增加了对 untrimmed / compositional reasoning 的明确样本。
  • 它有助于之后判断模型是否只是抓住显眼线索,而不是真正理解事件结构。
  • 它也为“视频编辑理解”提供了更底层的参考,因为编辑判断常常同样依赖事件结构。

局限或疑问

  • 问答式 benchmark 仍然和真实编辑任务之间有距离。
  • 它更偏 reasoning 测试,不直接覆盖生成或编辑控制。
  • 它适合作为理解层补厚,而不是直接替代编辑 benchmark。

原始链接

  • https://arxiv.org/abs/2305.02519
  • https://arxiv.org/pdf/2305.02519

相关页面

备注

ANetQA 在这套库里的作用,是把未裁剪视频组合推理 benchmark 补成 video-understanding 的重要分支。