ArticleMetadataMain page

source · 2026-04-23

SportMamba(arXiv 2025):用状态空间模型处理团队运动中的非线性多目标跟踪

SportMamba(arXiv 2025):用状态空间模型处理团队运动中的非线性多目标跟踪

会议:arXiv
发表日期:2025/06/03
资料加入日期:2026-04-23

一句话结论

这篇论文把团队运动场景下的多目标跟踪问题重新表述为“非线性时序建模 + 遮挡下稳健关联”的联合设计问题,并用 Mamba-attention 运动预测器加上高度自适应关联度量拿到 SportsMOT 上的强结果。

问题定义

团队运动中的多目标跟踪同时面临高速运动、频繁遮挡、运动模糊和外观相似这几类难点。传统 Kalman-filter 系方法更适合近线性运动,单纯依赖外观 ReID 的方案又容易在球衣相似、球员交叉掩挡时发生 identity switch。这使这篇工作更像是在解决一个“复杂时序动力学 + 稳健匹配”问题,而不是单独优化 detector 或 re-identification 模块。

方法概述

SportMamba 采用一个四阶段的 tracking-by-detection 管线。第一步用 sports-specific detector 产生球员检测框。第二步用 Mamba 与 self-attention 结合的运动预测器,根据过往 tracklet 预测下一个时刻的位置。第三步把外观特征与作者提出的 height-adaptive IoU + extended buffers 组合成混合匹配代价,用于把预测框与新检测做稳健关联。第四步再做 tracklet management,包括 update / create / delete,并通过动态 EMA 维护轨迹状态。作者报告推理速度约为 30 FPS。

关键发现

  • 在 SportsMOT 测试集上,SportMamba 达到 77.3 HOTA、77.7 IDF1、66.8 AssA、96.9 MOTA、89.5 DetA,是文中列出的 learning-based 方法里最强结果。
  • 与 DiffMOT 相比,它在 SportsMOT 上提升 1.06 HOTA、1.6 IDF1、1.7 AssA,说明非线性运动建模和遮挡下的空间关联设计确实带来增益。
  • 在 VIP-HTD 冰球数据集零样本迁移上,SportMamba 取得 65.1 HOTA、80.1 IDF1、64.6 AssA、76.2 MOTA、65.9 DetA,显示它对更极端运动场景有一定泛化能力。
  • 消融结果表明,height-adaptive extended IoU 比普通 IoU 和普通 EIoU 更有效;作者报告该设计相对 EIoU 还能再带来约 0.9 HOTA 和约 1.1 IDF1 的提升。

局限或疑问

  • 虽然它在 SportsMOT 上拿到最佳 HOTA,但在 IDF1 和 AssA 上仍落后于 Deep-EIoU,说明身份关联质量还有继续打磨空间。
  • 方法仍建立在 detector + appearance features + association pipeline 上,严重 motion blur 或 missed detection 发生时,轨迹仍可能断裂。
  • 这篇论文把 state space temporal modeling 带进了 sports MOT,但当前 vault 里相关证据还少,后续还需要更多体育视频分析、tracking benchmark 与 state-space 视觉论文共同支撑这条支线。

原始链接

  • https://arxiv.org/abs/2506.03335
  • https://arxiv.org/pdf/2506.03335

相关页面

备注

这篇论文的价值有两层。第一层是给当前库补入了一个更接近体育视频分析的强样本,让 video-understanding 不只围绕 benchmark、视频语言推理和编辑理解展开。第二层是它和 sources/2026-04-15-diffusion-models-without-attention 一样,都提醒我们 state space 路线在视觉时序建模里仍有继续扩展的空间,只是这里的落点从生成 backbone 换成了 team sports MOT。