Topic · Updated 2026-07-16

Video Understanding

A synthesis of temporal localization, long-context memory, multi-agent state understanding, rule-grounded reasoning, and evidence-based evaluation.

#near-cvpr-2025 #video-understanding #reasoning

Current view

Video Understanding

A synthesis of temporal localization, long-context memory, multi-agent state understanding, rule-grounded reasoning, and evidence-based evaluation.

76 Source notes2 Open questions

Reading path

ProblemDefine task and evidence boundary
MethodsCompare families and design choices
EvidenceReturn to papers and searchable text
Open questionsTrack unresolved tensions

Method family map

From problem definition to verifiable system capability

76 Source notes

1ProblemDefine task and evidence boundary

2MethodsCompare families and design choices

3EvidenceReturn to papers and searchable text

4Open questionsTrack unresolved tensions

三分钟摘要

它研究什么：从连续帧中识别“什么在何时发生、由谁发生、前后因果和状态如何变化”，并定位支持结论的时间片段。
基本难点：视频长度远大于模型输入预算；相邻帧高度冗余，但关键事件可能只持续几帧；多主体身份还会因遮挡和镜头切换中断。
当前前沿：长视频记忆、证据定位、多主体轨迹与状态重建、视频语言推理，以及能排除字幕和语言先验捷径的 benchmark。
研究判断：单纯增加采样帧数或把视频接入大语言模型已相对拥挤；“预算内找到正确证据并解释不确定性”更值得做。

本页给出通用视频理解研究图谱。体育场景的跟踪、比赛状态、规则判罚和训练反馈在体育 AI 视频理解中展开。

任务或系统流程

视频理解系统如何在有限输入预算下保留关键时序信息？

从长视频到带证据的任务输出

系统必须先做时间采样与事件候选，再结合视觉、运动、音频或文本建立短期表示和长期记忆；最终答案要回链到时间片段、轨迹或状态证据。

视频与任务输入长视频、问题、目标实体或待定位事件
预算化采样均匀、事件感知或自适应选择帧与片段
时空表示编码外观、运动、姿态、轨迹和可选音频文本
记忆与交互聚合长程上下文并保持实体身份与状态
任务解码输出动作、事件、问答、轨迹、比赛状态或评分
证据与拒答返回时间片段、实体关系、置信度和无法判断原因

Diagram evidenceTimeSformer、VideoMAE、LVBench、TranSPORTmer

当前综合判断

1. 时空主干已经成熟，输入选择仍决定上限

双流网络与 I3D把外观和运动纳入视频识别，TimeSformer和VideoMAE分别代表时空注意力与掩码预训练路线（双流网络、I3D、TimeSformer、VideoMAE）。这些主干可以提供强片段表示，但对一小时视频仍不可能无损读取全部帧；采样和证据检索不是前处理细节，而是核心建模问题。

2. 长视频理解需要“检索—记忆—验证”，不只是更长上下文

MVBench 测短视频通用技能，LVBench 将问题推到长程检索、记忆和总结，STI-Bench 则检查定量空间、速度、轨迹和相机位姿（MVBench、LVBench、STI-Bench）。模型若能靠问题文本或常识猜答案，即使得分高也不能证明使用了视频。因此，长视频系统应显式定位证据片段，并用打乱/遮挡对照验证。

3. 结构化状态比自由文本答案更可验证

体育任务显示了一条通用路线：先检测与跟踪实体，再恢复轨迹、交互和场地坐标，最后预测事件和比赛状态（SportsMOT、TeamTrack、TranSPORTmer、SoccerNet-GSR）。结构化中间状态虽然需要标注，却让错误能被定位到感知、关联、时序还是规则层。

4. 动作理解正从分类走向质量、阶段和因果反馈

FineGym、MultiSports 与 FineDiving把动作从整段标签拆为细粒度阶段、时空定位和质量评估；FineCausal进一步关注影响评分的关键步骤（FineGym、MultiSports、FineDiving、FineCausal）。这比通用分类更接近“哪里做错、为什么”的应用目标，但专家标签和跨项目泛化仍是瓶颈。

5. 视频语言模型需要专业规则与失败诊断

SOK-Bench、ANetQA、Sports-QA 与 RefereeBench分别测试情境常识、组合视频问答、体育专业问答和裁判推理（SOK-Bench、ANetQA、Sports-QA、RefereeBench）。HallusionBench 与 GlitchBench又说明模型会忽略视觉事实或动态异常（HallusionBench、GlitchBench）。流畅解释必须和证据、规则状态及拒答机制一起验收。

近五年演化（2022—2026）

研究为何从片段识别转向长程证据和结构化状态？

近五年视频理解的问题迁移

随着预训练主干成熟，瓶颈逐步从表示转移到长视频输入预算、多主体状态、专业规则和可信评测。

2022掩码视频预训练降低动作识别对密集标签的依赖
2023多能力视频问答、多人跟踪和细粒度动作 benchmark 扩展
2024长视频检索记忆、轨迹补全和比赛状态重建成为独立问题
2025精确时空量化、规则化判罚和可解释动作质量快速发展
2026研究重点转向预算内证据定位、拒答和跨场景可靠性

Diagram evidenceVideoMAE、MVBench、SoccerNet-GSR、LVBench、RefereeBench

方法家族与成熟阶段

完整规则状态、证据链、校准、拒答和人类复核。

不同研究路线如何从像素推进到可解释决策？

视频理解的五层能力地图

表示层支持事件与实体，记忆层连接长时序，结构化状态层支持专业任务，证据评测贯穿所有层。

时空表示学习外观、运动、姿态和轨迹特征
事件与实体定位动作、保持身份并识别人—人交互
长程记忆在有限帧预算下检索和聚合跨片段证据
结构化状态恢复轨迹、场地坐标、阶段和多主体关系
规则与解释把状态接到专业规则、决策和自然语言说明
可靠性层用证据定位、反事实、校准和人工复核验收

Diagram evidenceVideoMAE、FineGym、SportsMOT、SoccerNet-GSR、X-VARS

拥挤方向与研究机会

相对拥挤：均匀抽帧后直接接大语言模型、只在通用 VideoQA 平均分上比较、只扩大上下文而不定位证据。
仍值得做：事件感知采样、长视频记忆压缩、轨迹—事件一致性、专业规则 grounding 与不确定性传播。
高价值测试床：体育视频的球员身份、球路、场地几何和规则都可结构化验证，能迫使模型真正使用时间信息。
数据机会：比“再造一个大问答集”更有价值的是清晰证据片段、反事实对照、跨镜头/跨赛事划分和可复核标注协议。

反方证据、局限与可证伪条件

最强反方意见是：许多视频 benchmark 可被静态帧、字幕或语言先验部分解决；更长上下文模型的提升也可能只是看到了更多重复帧，而非时序推理。

可证伪条件包括：

与单帧、打乱帧、去字幕和文本-only 基线比较；
要求模型返回证据时间段、实体或轨迹，而不只给答案；
在输入帧预算相同的条件下比较采样与记忆方法；
按视频长度、事件时长、遮挡、镜头切换和域外赛事分层；
若方法只提高总体准确率却不提高证据命中或时间鲁棒性，应收窄为表征改进。

若真实规则/专家标注不可得，收窄到公开 benchmark 的证据定位。

证据基础

时空表示基础：双流网络、I3D、TimeSformer、VideoMAE、ST-GCN、TrackMAE、SportMamba。
通用视频理解与评测：MVBench、LVBench、SOK-Bench、ANetQA、STI-Bench、HallusionBench、GlitchBench。
视频编辑与语言接口：VEGGIE、语言驱动视频修补。
动作、阶段与质量：FineGym、MultiSports、FineDiving、LOGO、FineSports、时间解析 Transformer、FineCausal、VideoAuto-R1。
跟踪、交互与状态：SportsMOT、SportsHHI、TeamTrack、TranSPORTmer、SoccerNet-GSR、SoccerNet-v2、球场标定与定位、Event2Tracking。
动作与姿态工具/数据：AthletePose3D、AthleticsPose、SportsCap、OpenCap、WEAR、OpenPose、MMPose、MediaPipe Pose、DeepLabCut。
足球事件与评测生态：SoccerNet Action Spotting、主动学习 Action Spotting、SoccerNet 2022、SoccerNet 2023、MOT4MOT、通用足球视频理解、足球分析系统。
规则、战术与专业问答：TacticAI、自动越位、X-VARS、RefereeBench、Sports-QA、人机闭环检索。
羽毛球小目标与动作语义：TrackNet、TrackNetV2、TrackNetV3、TrackNetV4、MonoTrack、ShuttleSet、TemPose、BST、ProtoGCN、BlockGCN、SkateFormer。
复现、部署与治理背景：SportsMOT 数据页、FineDiving 代码、MMAction2、体育 AI 综述、NIST AI RMF、NFL Hawk-Eye、英超半自动越位、Second Spectrum、Catapult、KINEXON、HomeCourt。

开放问题

长视频模型应如何证明答案来自正确片段，而不是语言先验？
轨迹、事件与自然语言三种表示怎样互相校验而不放大上游误差？
专业规则和不确定性如何进入视频模型的决策与拒答？
训练反馈能否跨运动、相机和运动员水平泛化？
运动定义文字的人机感知差距能否在控制帧率、压缩和人类可读性后形成稳定 benchmark？

Referenced by102

SportsMOTEntity
视频编辑理解Entity
IndexEntry
羽毛球挥拍动作纠正 demo 应如何定义Question
Can Motion-Defined Text Become a Reliable Human–Machine Perception Benchmark?Question
ANetQA：未裁剪视频细粒度组合推理基准Source note
GlitchBench：大型多模态模型能否识别电子游戏故障Source note
HallusionBench：视觉语言幻觉与视觉错觉诊断基准Source note
通过多模态大模型实现语言驱动视频修补Source note
LVBench：极长视频理解基准Source note
MVBench：综合多模态视频理解基准Source note
SOK-Bench：结合开放世界知识的情境视频推理基准Source note
STI-Bench：精确时空世界理解基准Source note
VEGGIE：统一指令视频编辑、grounding 与 reasoning segmentationSource note
SportMamba：面向团队运动的非线性多目标跟踪Source note
SportsHHI：体育视频中的高层人—人交互检测基准Source note
SportsMOT：多运动场景的大规模球员多目标跟踪基准Source note
TeamTrack：全场视角的多运动多目标跟踪数据集Source note
TranSPORTmer：多智能体体育轨迹理解的统一 Transformer 框架Source note
NFL Hawk-Eye First Down：AP 报道 NFL 引入基于 Hawk-Eye 的首攻测量技术。Source note
AthletePose3D：高速竞技动作的 3D 姿态与运动学验证Source note
AthleticsPose：真实田径动作的 3D 姿态与部署边界Source note
Automated Offside Detection：基于双固定广角相机的时空越位检测原型Source note
Catapult Athlete Monitoring：Catapult athlete monitoring 页面展示运动员负荷、训练监测和多模态数据产品。Source note
DeepLabCut：DeepLabCut 是少量标注即可训练的无标记关键点追踪工具。Source note
FineDiving：程序感知的细粒度动作质量评估Source note
FineDiving Repository：FineDiving 仓库提供数据集与代码入口。Source note
FineGym：体操视频的层级细粒度动作理解Source note
FineSports：多人篮球的层级细粒度时空动作定位Source note
Second Spectrum / Genius Sports：Genius Sports 收购 Second Spectrum 的公告展示了光学追踪、联赛数据和媒体可视化的商业链路。Source note
HomeCourt：HomeCourt 代表手机相机驱动的消费级训练反馈应用。Source note
KINEXON Player Tracking：KINEXON player tracking 页面展示 UWB/GPS/LPS 球员追踪系统。Source note
LOGO：多人长视频的群体动作质量评估Source note
MediaPipe Pose：MediaPipe Pose / BlazePose 提供移动端友好的 3D landmarks 姿态估计。Source note
MMAction2：MMAction2 是 OpenMMLab 视频理解工具箱，支持动作识别、检测和骨架动作等任务。Source note
MMPose / RTMPose：MMPose 提供 2D/3D 姿态估计工具链，RTMPose 强调实时部署。Source note
MultiSports：多人时空动作定位的数据锚点Source note
NIST AI RMF：NIST AI RMF 提供 AI 风险管理框架。Source note
OpenCap：OpenCap 用智能手机视频估计人体运动学与动力学，降低实验室级运动捕捉门槛。Source note
OpenPose：OpenPose 是早期多人 2D 关键点检测工具。Source note
Premier League Semi-Automated Offside：Reuters 报道英超启用半自动越位技术。Source note
SoccerNet Action Spotting：SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。Source note
SoccerNet-GSR：足球比赛状态重建锚点Source note
体育姿态估计与跟踪综述：方法、数据、挑战与路线图Source note
SportsCap：单目体育 3D 运动捕捉与细粒度属性理解Source note
SportsMOT Dataset Page：SportsMOT 官方数据页记录数据下载、许可和基准说明。Source note
ST-GCN：骨架动作识别的时空图卷积基线Source note
TacticAI:An AI Assistant for Football TacticsSource note
Temporal Parsing Transformer：无步骤标签的有序部件 AQASource note
TimeSformer：用于视频理解的分解式时空注意力Source note
TrackNetV3：增强羽毛球 shuttle tracking 的数据增强与轨迹校正Source note
Towards Universal Soccer Video UnderstandingSource note
VideoMAE：数据高效的视频掩码自编码预训练Source note
WEAR：户外健身的第一视角视频与四肢 IMU 数据集Source note
Towards Active Learning for Action Spotting：足球事件定位的低标注路线Source note
AI Driven Soccer Analysis：单主场足球 2D 映射原型Source note
Event2Tracking：用长时多模态上下文重建多智能体足球轨迹Source note
FineCausal：可解释细粒度动作质量评估Source note
Human-in-the-loop Adaptation：团队运动示例检索的人机适配Source note
MonoTrack:Shuttle Trajectory Reconstruction from Monocular Badminton VideoSource note
RefereeBench：多运动项目规则化视频裁判评测Source note
SoccerNet 2022 Challenges Results：足球视频理解挑战早期基线Source note
SoccerNet 2023 Challenges Results：足球视频多任务挑战结果Source note
SoccerNet 2023 Tracking Challenge MOT4MOT：球员跟踪团队报告Source note
SoccerNet-v2 Camera Calibration：足球场标定与球员定位Source note
SoccerNet-v2：广播足球内容、剪辑与回放理解基准Source note
Sports-QA：复杂专业体育视频问答基准Source note
TrackNet：体育高速小目标追踪网络Source note
TrackNetV2:Efficient Shuttlecock Tracking NetworkSource note
TrackNetV4：用运动注意力图增强快速体育小目标追踪Source note
X-VARS：可解释足球视频助理裁判系统Source note
TrackMAE：用轨迹遮挡与预测学习运动敏感的视频表征Source note
VideoAuto-R1（arXiv；CVPR 2026 accepted claim pending proceedings）：按需推理的视频理解框架Source note
BlockGCN：保留骨架拓扑并轻量建模多种关节关系Source note
BST：面向羽毛球击球类型识别的骨架动作 TransformerSource note
ProtoGCN：用运动原型重构放大相似骨架动作的局部差异Source note
ShuttleSet：人工标注的羽毛球单打 stroke-level 数据集Source note
SkateFormer：用四类骨架—时间分区实现高效联合注意力Source note
TemPose：面向羽毛球细粒度动作识别的骨架 TransformerSource note
BadmintonDB：面向球员级比赛分析与预测的羽毛球数据集Source note
MultiSenseBadminton：面向羽毛球表现评估的多传感器生物力学数据集Source note
Towards Structured Analysis：广播羽毛球视频的结构化分析早期系统Source note
Broadcast2Pitch：从非受控足球转播视频重建比赛状态Source note
PathCRF：从球员轨迹推断结构化控球路径与足球事件Source note
SoccerNet-Tracking：足球多目标跟踪数据集与基准Source note
VARS：SoccerNet-MVFoul 多视角犯规分类与裁判辅助Source note
DETR：把目标检测改写成 Transformer set predictionSource note
Segment Anything：把分割做成可提示的视觉基础模型Source note
Vision Transformer：把图像切成 token 的通用视觉主干Source note
Quo Vadis, Action Recognition?：I3D、Kinetics 与 3D 视频预训练Source note
Two-Stream Convolutional Networks for Action Recognition：RGB 与光流双流视频表示Source note
Computer Vision OverviewTopic
Datasets, Metrics, and Benchmark ReliabilityTopic
Generative Model EvaluationTopic
Sports AI Research RoadmapTopic
Sports AI Video UnderstandingTopic
Video EditingTopic
Video GenerationTopic
Video Representation and Temporal ModelingTopic
Visual Representations and BackbonesTopic
Vision-LanguageTopic
Foundations of Core Vision TasksTopic

Metadata

{
  "id": "topic-video-understanding",
  "type": "topic",
  "topic_kind": "research",
  "title": "视频理解",
  "title_en": "Video Understanding",
  "nav_title": "视频理解",
  "nav_title_en": "Video Understanding",
  "status": "active",
  "created": "2026-04-12",
  "updated": "2026-07-16",
  "research_stage": "evidence_map",
  "evidence_window": "2022-2026 + seminal",
  "last_evidence_review": "2026-07-14",
  "tags": [
    "near-cvpr-2025",
    "video-understanding",
    "reasoning"
  ],
  "summary": "研究模型如何从视频中定位事件、维持长时记忆、理解多主体运动与规则，并用可追踪证据支撑答案。",
  "summary_en": "A synthesis of temporal localization, long-context memory, multi-agent state understanding, rule-grounded reasoning, and evidence-based evaluation.",
  "foundational_sources": [
    "sources/2026-07-14-two-stream-convnet",
    "sources/2026-07-14-i3d",
    "sources/2026-04-25-timesformer",
    "sources/2026-04-25-videomae",
    "sources/2026-04-25-st-gcn"
  ],
  "visuals": [
    "video-understanding-system-flow",
    "video-understanding-evolution",
    "video-understanding-method-map"
  ],
  "source_notes": [
    "sources/2026-07-14-two-stream-convnet",
    "sources/2026-07-14-i3d",
    "sources/2026-04-14-veggie",
    "sources/2026-04-14-hallusionbench",
    "sources/2026-04-14-glitchbench",
    "sources/2026-04-14-language-driven-video-inpainting",
    "sources/2026-04-14-mvbench",
    "sources/2026-04-14-lvbench",
    "sources/2026-04-14-sok-bench",
    "sources/2026-04-14-anetqa",
    "sources/2026-04-14-sti-bench",
    "sources/2026-04-23-sportmamba",
    "sources/2026-04-24-sportsmot",
    "sources/2026-04-24-sportshhi",
    "sources/2026-04-24-teamtrack",
    "sources/2026-04-24-transportmer",
    "sources/2026-04-25-finegym",
    "sources/2026-04-25-multisports",
    "sources/2026-04-25-finediving",
    "sources/2026-04-25-logo-group-action-quality",
    "sources/2026-04-25-tacticai",
    "sources/2026-04-25-soccernet-game-state-reconstruction",
    "sources/2026-04-25-finesports",
    "sources/2026-04-25-athletepose3d",
    "sources/2026-04-25-universal-soccer-video-understanding",
    "sources/2026-04-25-tracknetv3",
    "sources/2026-04-25-wear-outdoor-sports-dataset",
    "sources/2026-04-25-soccernet-action-spotting",
    "sources/2026-04-25-sportscap",
    "sources/2026-04-25-automated-offside-detection",
    "sources/2026-04-25-opencap",
    "sources/2026-04-25-temporal-parsing-transformer-aqa",
    "sources/2026-04-25-timesformer",
    "sources/2026-04-25-st-gcn",
    "sources/2026-04-25-videomae",
    "sources/2026-04-25-sportsmot-dataset-page",
    "sources/2026-04-25-finediving-repository",
    "sources/2026-04-25-athleticspose",
    "sources/2026-04-25-sports-ai-review-2025",
    "sources/2026-04-25-ap-nfl-hawkeye-first-down",
    "sources/2026-04-25-mmaction2",
    "sources/2026-04-25-reuters-premier-league-semi-automated-offside",
    "sources/2026-04-25-genius-sports-second-spectrum",
    "sources/2026-04-25-catapult-athlete-monitoring",
    "sources/2026-04-25-kinexon-player-tracking",
    "sources/2026-04-25-homecourt",
    "sources/2026-04-25-openpose",
    "sources/2026-04-25-mmpose",
    "sources/2026-04-25-mediapipe-pose",
    "sources/2026-04-25-deeplabcut",
    "sources/2026-04-25-nist-ai-risk-management-framework",
    "sources/2026-05-05-human-in-loop-team-sports-retrieval",
    "sources/2026-05-05-finecausal-action-quality-assessment",
    "sources/2026-05-05-ai-driven-soccer-analysis",
    "sources/2026-05-05-soccernet-v2-holistic-understanding",
    "sources/2026-05-05-soccernet-v2-camera-calibration-player-localization",
    "sources/2026-05-05-active-learning-action-spotting-football",
    "sources/2026-05-05-soccernet-2023-challenges-results",
    "sources/2026-05-05-soccernet-2022-challenges-results",
    "sources/2026-05-05-soccernet-2023-tracking-mot4mot",
    "sources/2026-05-05-event2tracking",
    "sources/2026-05-05-x-vars-explainable-football-refereeing",
    "sources/2026-05-05-refereebench-multi-sport-referees",
    "sources/2026-05-05-sports-qa-video-question-answering",
    "sources/2026-05-05-tracknet-high-speed-tiny-objects",
    "sources/2026-05-05-tracknetv2-efficient-shuttlecock-tracking",
    "sources/2026-05-05-monotrack-shuttle-trajectory-reconstruction",
    "sources/2026-05-05-tracknetv4-motion-attention-maps",
    "sources/2026-05-12-trackmae",
    "sources/2026-05-12-videoauto-r1",
    "sources/2026-05-16-bst-badminton-stroke-type-transformer",
    "sources/2026-05-16-tempose-badminton-fine-grained-motion",
    "sources/2026-05-16-shuttleset-stroke-level-badminton-dataset",
    "sources/2026-05-16-protogcn-skeleton-action-recognition",
    "sources/2026-05-16-blockgcn-topology-aware-skeleton-action-recognition",
    "sources/2026-05-16-skateformer-skeletal-temporal-transformer"
  ],
  "related_topics": [
    "topics/video-representation-and-temporal-modeling",
    "topics/vision-language",
    "topics/generative-model-evaluation",
    "topics/vision-backbones",
    "topics/sports-ai-video-understanding",
    "topics/sports-ai-roadmap"
  ],
  "related_entities": [
    "entities/sportsmot"
  ],
  "open_questions": [
    "questions/question-badminton-stroke-correction-demo",
    "questions/question-motion-defined-text-human-machine-gap"
  ]
}

Video Understanding

Video Understanding

From problem definition to verifiable system capability

三分钟摘要

任务或系统流程

当前综合判断

1. 时空主干已经成熟，输入选择仍决定上限

2. 长视频理解需要“检索—记忆—验证”，不只是更长上下文

3. 结构化状态比自由文本答案更可验证

4. 动作理解正从分类走向质量、阶段和因果反馈

5. 视频语言模型需要专业规则与失败诊断

近五年演化（2022—2026）

方法家族与成熟阶段

方法家族的成熟度

时空表征与预训练

动作定位与质量评估

长视频记忆与视频语言推理

多主体轨迹与状态建模

规则化决策与解释

拥挤方向与研究机会

反方证据、局限与可证伪条件

研究生可行的研究入口

候选课题 A：长视频的证据感知采样与记忆最推荐

候选课题 B：轨迹—事件双向一致性推荐

候选课题 C：规则化视频决策的证据与拒答条件推荐

推荐排序与止损条件

证据基础

开放问题

相关页面

Referenced by102

Video Understanding

From problem definition to verifiable system capability

三分钟摘要

任务或系统流程

当前综合判断

1. 时空主干已经成熟，输入选择仍决定上限

2. 长视频理解需要“检索—记忆—验证”，不只是更长上下文

3. 结构化状态比自由文本答案更可验证

4. 动作理解正从分类走向质量、阶段和因果反馈

5. 视频语言模型需要专业规则与失败诊断

近五年演化（2022—2026）

方法家族与成熟阶段

方法家族的成熟度

时空表征与预训练

动作定位与质量评估

长视频记忆与视频语言推理

多主体轨迹与状态建模

规则化决策与解释

拥挤方向与研究机会

反方证据、局限与可证伪条件

研究生可行的研究入口

候选课题 A：长视频的证据感知采样与记忆最推荐

候选课题 B：轨迹—事件双向一致性推荐

候选课题 C：规则化视频决策的证据与拒答条件推荐

推荐排序与止损条件

证据基础

开放问题

相关页面

Related pages

Related topics6

Related entities1

Open questions2

Source notes76

Referenced by102