ANetQA（CVPR 2023）：面向未裁剪视频细粒度组合推理的大规模基准

会议：CVPR 2023

发表日期：2023/05/04

资料加入日期：2026-04-14

一句话结论

这篇工作把未裁剪视频中的细粒度组合推理 benchmark 补了进来，强化了 video-understanding 对事件结构理解的覆盖。

问题定义

它要解决的是模型在长而未裁剪的视频里能否真正理解多事件、组合关系和时序结构的问题。对当前知识库来说，它补的是 compositional reasoning 这一层。

方法概述

ANetQA 构建面向 untrimmed videos 的 fine-grained compositional reasoning benchmark，通过问答形式测试模型对事件关系与结构的理解。

关键发现

它让 video-understanding 页增加了对 untrimmed / compositional reasoning 的明确样本。
它有助于之后判断模型是否只是抓住显眼线索，而不是真正理解事件结构。
它也为“视频编辑理解”提供了更底层的参考，因为编辑判断常常同样依赖事件结构。

局限或疑问

问答式 benchmark 仍然和真实编辑任务之间有距离。
它更偏 reasoning 测试，不直接覆盖生成或编辑控制。
它适合作为理解层补厚，而不是直接替代编辑 benchmark。

原始链接

https://arxiv.org/abs/2305.02519
https://arxiv.org/pdf/2305.02519

备注

ANetQA 在这套库里的作用，是把未裁剪视频组合推理 benchmark 补成 video-understanding 的重要分支。

Metadata

{ "id": "2026-04-14-anetqa", "type": "source", "title": "ANetQA（CVPR 2023）：面向未裁剪视频细粒度组合推理的大规模基准", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "CVPR 2023", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-understanding", "evaluation", "benchmarking", "reasoning", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Yu, Zhou", "Zheng, Lixiang", "Zhao, Zhou", "Wu, Fei", "Fan, Jianping", "Ren, Kui", "Yu, Jun" ], "published_at": "2023/05/04", "canonical_links": [ "https://arxiv.org/abs/2305.02519", "https://arxiv.org/pdf/2305.02519" ], "raw_entry": "raw/ingest/2026-04-14-anetqa/", "topics": [ "topics/video-understanding", "topics/generative-model-evaluation" ], "entities": [], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }