ANetQA：未裁剪视频细粒度组合推理基准

一句话结论

ANetQA 用 ActivityNet 的人工时空场景图和 119 个功能模板生成 13.4M 平衡 VideoQA，旧模型最高 44.53%、人类多数投票 84.48%；它强在规模和类型诊断，但平均每视频仅 3.69 个代表帧、blind 模型仍约 36%，且公开派生数据的预训练污染未审计。

评测接口与数据

输入未裁剪视频和问题，输出单一答案；包含 query/verify/choose/compare/logic 五种结构、21 类问题。
11,525 videos：train 9,155、val/test 各 1,185；QA 为 10.4M/1.5M/1.5M，另有 0.3M test-dev。
43K representative frames（平均 3.69/视频）上标 118K objects、83K relations、1M attributes，并复用 16K temporal action captions。
词表含 2,072 object、86 relationship、618 attribute classes；>50 annotators、4+ 月，但无支付、总工时或 agreement。
先生成 1.4B candidates，再固定结构比例并在模板内均衡答案；这抑制简单 prior，不消除模板与共现捷径。

指标、模型与结果

评测 exact-match accuracy，不使用 LLM judge。HCRN/ClipBERT/All-in-One 都在 train 微调，但 test 帧预算分别依其实现，非严格等采样比较。

方法	有视觉 overall	blind overall	open
HCRN	41.15	37.11	29.95
ClipBERT	43.92	35.55	33.17
All-in-One	44.53	36.48	34.33
Human majority	84.48	--	84.82

All-in-One：attribute 40.14、sequencing 35.27、action 74.39，支持细属性与时序更难。
加 video-level 高频 object+relation+attribute 词，HCRN 41.15→45.45；这类信息现实测试中未必可得，且可能利用同视频其他题。
oracle frames 同时注入 train/test，All-in-One 44.53→46.07；瓶颈不只在采帧。

Human、污染与成本

4,000 test QA，每题 5 人，majority 84.48%，单人平均 81.5%。作者把差错分为 0.75% annotation error、1.95% ambiguity、12.82% human error；无资历、支付、CI 或 agreement。
ActivityNet、ANet-Captions/Entities 均公开，模型可能预训练见过视频或字幕；没有 hash/近重复/训练集重叠审计。
同一视频产生大量相关 QA，13.4M 不是独立样本数；无按视频聚类置信区间。
只报告 >50 人、4+ 月；未报告标注费用、训练/评测 GPU-hours 和延迟。

能力边界

属于视频理解/VideoQA/组合推理，不是视频生成质量评测。
没有编辑指令、源—编辑后视频对、变化/保持/局部性指标，不是视频编辑 benchmark。
object identity、attribute、relation、action order 是真实编辑理解的必要子能力，但模板 QA 高分不证明模型能定位编辑或判断未指令区域是否保持。

证据评级

B+（规模与可诊断性强；稀疏场景图、模板/语言偏置、污染与成本审计不足）。

原始链接

相关页面

{ "id": "2026-04-14-anetqa", "type": "source", "title": "ANetQA：未裁剪视频细粒度组合推理基准", "status": "reviewed", "created": "2026-04-14", "updated": "2026-07-12", "venue": "CVPR 2023", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-understanding", "evaluation", "benchmarking", "reasoning", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Yu, Zhou", "Zheng, Lixiang", "Zhao, Zhou", "Wu, Fei", "Fan, Jianping", "Ren, Kui", "Yu, Jun" ], "published_at": "2023-05-04", "canonical_links": [ "https://arxiv.org/abs/2305.02519", "https://arxiv.org/pdf/2305.02519" ], "raw_entry": "raw/ingest/2026-04-14-anetqa/", "analysis_note": "raw/ingest/2026-04-14-anetqa/analysis.md", "topics": [ "topics/video-understanding", "topics/generative-model-evaluation" ], "entities": [], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

ANetQA未裁剪视频细粒度组合推理基准

一句话结论

评测接口与数据

指标、模型与结果

Human、污染与成本

能力边界

证据评级

原始链接

相关页面

被引用3

一句话结论

评测接口与数据

指标、模型与结果

Human、污染与成本

能力边界

证据评级

原始链接

相关页面

关联页面

相关主题2

相关问题1

被引用3