Research map Reading portal

Portal

Tags

Tags

#autoregressive2

#benchmark1

视频编辑理解Entity

#benchmarking72

#classification1

Foundations of Core Vision TasksTopic

#conditioning30

#control24

A-STAR：测试时分离并保留 cross-attentionSource note
Adding Conditional Control to Text-to-Image Diffusion Models：冻结 U-Net 主干的空间条件侧支Source note
AnyDoor：训练一次的零样本对象级图像定制Source note
Attend-and-Excite：用 attention guidance 修复主体遗漏Source note
BoxDiff：无训练的框约束扩散生成Source note
CAMEL：面向文本驱动视频编辑的因果运动增强Source note
Check, Locate, Rectify：训练免费文本到图像布局校准Source note
DC-ControlNet：SDXL U-Net 上的元素内/元素间层次化多条件控制Source note
DenseDiffusion：Stable Diffusion 的 training-free 区域文本 attention modulationSource note
DynVideo-E：用动态 NeRF 编辑大运动与大视角人体视频Source note
Image EditingTopic
Image GenerationTopic
LayoutDiffusion：以对象框控制像素 U-Net 的 layout-to-image 生成Source note
MotionFollower：通过 score-guided diffusion 编辑视频运动Source note
MultiDiffusion：用最小二乘融合多条去噪路径的 training-free 组合控制Source note
Prompt-to-Prompt：用 cross-attention 控制文本驱动图像编辑Source note
QK-Edit：在 MM-DiT 中重构图像与视频编辑的 attention 注入Source note
ReCo：以坐标 token 和开放区域文本控制图像生成Source note
Reangle-A-Video：把单目视频重演为多视角同步视频Source note
SLD：LLM 驱动的闭环扩散生成纠错Source note
Shape-aware Text-driven Layered Video Editing：用 UV 变形突破 atlas 的固定形状Source note
Towards Practical Plug-and-Play Diffusion Models：噪声分段外部 guidance 工程Source note
Video EditingTopic
Video GenerationTopic

#dataset1

SportsMOTEntity

#diffusion94

A Video is Worth 256 Bases：以时空 EM 低秩基改进零样本视频反演Source note
A-STAR：测试时分离并保留 cross-attentionSource note
ACT-Diffusion：面向一步扩散模型的高效对抗一致性训练Source note
AIDI：以加速定点迭代改进真实图像扩散反演Source note
AVID：用 Temporal MultiDiffusion 做任意长度视频修补Source note
Accelerating Diffusion Sampling with Optimized Time Steps：用优化时间步改善少步扩散采样Source note
Accelerating Diffusion Transformer via Gradient-Optimized Cache：修正 DiT 缓存误差Source note
Adding Conditional Control to Text-to-Image Diffusion Models：冻结 U-Net 主干的空间条件侧支Source note
Align-A-Video：面向一致视频编辑的确定性奖励调优Source note
All Are Worth Words：把 ViT 直接变成扩散模型主干Source note
Analyzing and Improving the Training Dynamics of Diffusion Models：EDM2 的幅值保持训练与 Post-hoc EMASource note
Attend-and-Excite：用 attention guidance 修复主体遗漏Source note
Attention Calibration for Disentangled Text-to-Image Personalization：解耦式个性化注意力校准Source note
BBDM：以 Brownian Bridge 端点过程建模成对图像翻译Source note
Blended Diffusion：在像素扩散过程中逐步混合文本编辑前景与原图背景Source note
BoxDiff：无训练的框约束扩散生成Source note
C3Net：CoDi U-Net 上的图像、文本与音频复合条件协调Source note
CAMEL：面向文本驱动视频编辑的因果运动增强Source note
CCEdit：以结构—外观解耦实现创意可控视频编辑Source note
CONFORM：以对比式注意力优化提升文本生成忠实度Source note
Check, Locate, Rectify：训练免费文本到图像布局校准Source note
CoDi：条件扩散蒸馏实现 1–4 步图像条件生成Source note
Come-Closer-Diffuse-Faster：用好初始化缩短条件扩散逆问题路径Source note
CommonCanvas：Creative Commons 数据上的开放 T2I 扩散训练Source note
Concept Weaver：模板引导的多概念个性化融合Source note
Condition-Aware Neural Network：以动态权重控制扩散 TransformerSource note
Contrastive Denoising Score：用自注意力对比正则保持编辑结构Source note
CosmicMan：面向人物的文本到图像基础模型Source note
Custom Diffusion：高效单概念学习与多概念组合Source note
Customization Assistant：可对话的单图免微调个性化生成Source note
DC-ControlNet：SDXL U-Net 上的元素内/元素间层次化多条件控制Source note
DLT：以联合离散—连续 Transformer diffusion 做属性级布局生成Source note
DeepCache：用高层特征缓存免费加速 U-Net 扩散模型Source note
Denoising Diffusion Probabilistic Models：现代去噪扩散模型的关键基线Source note
DenseDiffusion：Stable Diffusion 的 training-free 区域文本 attention modulationSource note
DiT and Transformer-Style Denoisers Are Now Major Scalable Generative BackbonesClaim
DiffEditor：以区域采样与图像提示提升细粒度扩散编辑Source note
Diffusion Autoencoders：用语义向量与随机细节码构造可解码扩散表示Source note
Diffusion Efficiency EngineeringTopic
Diffusion ModelsTopic
Diffusion Models Without Attention：不用注意力也能做高分辨率扩散Source note
DiffusionCLIP：CLIP 引导的 diffusion U-Net 文本图像操控Source note
Distilling ODE Solvers of Diffusion Models into Smaller Steps：冻结去噪器的轻量求解器蒸馏Source note
Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models：并行方向蒸馏扩散 ODE 求解器Source note
DreamBooth：以少样本全模型微调实现主体驱动生成Source note
EDICT：用双轨耦合变换实现可逆 diffusion sampler 与真实图像编辑Source note
FADE：面向视频编辑的频率感知扩散模型分解Source note
Fairy：用 anchor cross-frame attention 并行加速指令视频编辑Source note
FateZero：融合注意力做零样本文本视频编辑Source note
FlowVid：把不完美光流作为软条件的视频编辑Source note
FramePainter：用视频扩散先验增强交互式图像编辑Source note
FreeU：不重训的扩散 U-Net 特征重加权Source note
High-Fidelity Guided Image Synthesis：笔触约束下的 latent diffusion 测试时优化Source note
Image EditingTopic
Image GenerationTopic
Imagic：以文本嵌入优化、模型微调和插值完成真实图像编辑Source note
InstructPix2Pix：用合成监督建立自然语言图像编辑接口Source note
Latent Diffusion Models：高分辨率图像合成的潜空间扩散框架Source note
LayoutDiffusion：以对象框控制像素 U-Net 的 layout-to-image 生成Source note
LayoutDiffusion：面向离散 graphic layout 的专用腐化与免重训条件生成Source note
MotionEditor：参考姿态驱动的人体视频运动编辑Source note
MotionFollower：通过 score-guided diffusion 编辑视频运动Source note
MotionStone：用 DiT 解耦运动强度调制的图像到视频生成Source note
MultiDiffusion：用最小二乘融合多条去噪路径的 training-free 组合控制Source note
NULL-Text Inversion：用 guided diffusion 编辑真实图像Source note
OSV：高质量图像到视频生成一步就够Source note
On Distillation of Guided Diffusion Models：把 CFG 与采样轨迹联合蒸馏到极少步Source note
Paint by Example：以单张参考图控制局部语义编辑Source note
Plug-and-Play Diffusion Features：用 U-Net 内部特征控制文本图像翻译Source note
Post-Training Quantization on Diffusion Models：面向多 timestep 的 INT8 校准Source note
Prompt Tuning Inversion：优化条件嵌入轨迹的真实图像编辑Source note
Prompt-to-Prompt：用 cross-attention 控制文本驱动图像编辑Source note
QK-Edit：在 MM-DiT 中重构图像与视频编辑的 attention 注入Source note
RAVE：随机噪声重排的快速一致视频编辑Source note
Reangle-A-Video：把单目视频重演为多视角同步视频Source note
Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance：语义区域自适应 CFGSource note
SANA-Sprint：连续时间一致性与对抗蒸馏的一步线性 DiTSource note
SLD：LLM 驱动的闭环扩散生成纠错Source note
Scalable Diffusion Models with Transformers：DiT 把 Transformer 真正坐实为可扩展扩散主干Source note
Score-Based Generative Modeling through Stochastic Differential Equations：分数模型的连续时间统一框架Source note
Self-Guided Diffusion Models：用自监督伪标注替代人工 guidanceSource note
Specialist Diffusion：少样本艺术风格扩散微调工具箱Source note
StableVideo：用 layered atlas 稳定扩散视频外观编辑Source note
StreamingT2V：一致、动态、可扩展的长视频文本生成Source note
Text Embedding Knows How to Quantize：用文本条件动态分配扩散激活位宽Source note
Towards Practical Plug-and-Play Diffusion Models：噪声分段外部 guidance 工程Source note
VidToMe：用跨帧 token merging 做零样本视频编辑Source note
Video EditingTopic
Video GenerationTopic
Video-P2P：用 shared-null inversion 与解耦 guidance 做 attention-control 视频编辑Source note
VideoCrafter2：低质量视频与高质量图像协同训练的视频扩散模型Source note
VideoDirector：借助文本到视频模型实现精确视频编辑Source note
Wavelet Diffusion Models：在小波空间压缩少步扩散 GANSource note
扩散 TransformerEntity

#editing8

#efficiency33

#evaluation49

AIGV-Assessor：用大模型评测文本到视频生成感知质量Source note
ANetQA：未裁剪视频细粒度组合推理基准Source note
ARO：视觉语言模型何时像词袋，以及如何改进（When and why vision-language models behave like bags-of-words）Source note
CLIPScore：基于 CLIP 的无参考图文评测Source note
COLA：组合式文本到图像检索基准（A Benchmark for Compositional Text-to-image Retrieval）Source note
ConCon-Chi：个性化视觉语言的新含义与组合性基准Source note
Datasets, Metrics, and Benchmark ReliabilityTopic
EvalCrafter：大视频生成模型的多维评测与人工偏好校准Source note
FiVE-Bench：细粒度视频编辑评测基准Source note
FineCausal：可解释细粒度动作质量评估Source note
FineDiving：程序感知的细粒度动作质量评估Source note
FlashEval：用代表性 prompt 子集加速文本到图像模型评测Source note
GANs Trained by a Two Time-Scale Update Rule：FID 的来源与边界Source note
Generative Model EvaluationTopic
GlitchBench：大型多模态模型能否识别电子游戏故障Source note
HallusionBench：视觉语言幻觉与视觉错觉诊断基准Source note
Image GenerationTopic
Image-Text RetrievalTopic
Imagen Editor 与 EditBench：推进并评测文本引导图像修补Source note
Improved Techniques for Training GANs：Inception Score 的来源与边界Source note
LOGO：多人长视频的群体动作质量评估Source note
LVBench：极长视频理解基准Source note
M-BEIR 多模态检索评测（M-BEIR）Entity
MAPLM：地图与交通场景的真实世界多模态问答基准Source note
MIEB：大规模图像 embedding 评测基准（Massive Image Embedding Benchmark）Source note
MIRACL-VISION：大规模多语言视觉文档检索基准Source note
MMMU：跨学科专家级多模态理解与推理基准Source note
MVBench：综合多模态视频理解基准Source note
NIST AI RMF：NIST AI RMF 提供 AI 风险管理框架。Source note
No Zero-Shot Without Exponential Data：预训练概念频率决定多模态模型性能Source note
PinPoint：带显式负例、多图查询与改写测试的组合式图像检索评测Source note
RefereeBench：多运动项目规则化视频裁判评测Source note
SOK-Bench：结合开放世界知识的情境视频推理基准Source note
SportsCap：单目体育 3D 运动捕捉与细粒度属性理解Source note
SugarCrepe：修复可被捷径攻破的视觉语言组合性基准（Fixing Hackable Benchmarks）Source note
Temporal Parsing Transformer：无步骤标签的有序部件 AQASource note
Towards Active Learning for Action Spotting：足球事件定位的低标注路线Source note
VBench：视频生成模型综合评测套件Source note
Video-Bench：人类偏好对齐的视频生成评测Source note
Winoground：探测视觉语言组合性（Probing Vision and Language Models for Visio-Linguistic Compositionality）Source note
一张图胜过 77 个文本 token：在密集描述上评估 CLIP 类模型（A Picture is Worth More Than 77 Text Tokens）Source note
图文检索与组合性评测集（Image-Text Retrieval Benchmarks）Entity
如何审计图文检索中的预训练重叠、概念频率与 benchmark 污染？Question
怎样构造既难又不错误的图文检索负例？Question
文本—图像组合式检索的鲁棒性基准（Benchmarking Robustness of Text-Image Composed Retrieval）Source note
文本到图像生成的可验证与可复现人工评测Source note
标准图文检索分数不足以证明组合性理解Claim
视频编辑理解Entity
通过形式化验证评测文本到视频模型的神经符号方法Source note

#image-editing33

AIDI：以加速定点迭代改进真实图像扩散反演Source note
AnyDoor：训练一次的零样本对象级图像定制Source note
AnyEdit：面向任意创意的统一高质量图像编辑Source note
BBDM：以 Brownian Bridge 端点过程建模成对图像翻译Source note
Blended Diffusion：在像素扩散过程中逐步混合文本编辑前景与原图背景Source note
Contrastive Denoising Score：用自注意力对比正则保持编辑结构Source note
DIVE：用 DINO 做主体驱动视频编辑Source note
DiffEditor：以区域采样与图像提示提升细粒度扩散编辑Source note
DiffusionCLIP：CLIP 引导的 diffusion U-Net 文本图像操控Source note
DreamOmni：统一图像生成与编辑Source note
EDICT：用双轨耦合变换实现可逆 diffusion sampler 与真实图像编辑Source note
FireEdit：基于区域感知视觉语言模型的细粒度指令图像编辑Source note
FramePainter：用视频扩散先验增强交互式图像编辑Source note
Image EditingTopic
Imagen Editor 与 EditBench：推进并评测文本引导图像修补Source note
Imagic：以文本嵌入优化、模型微调和插值完成真实图像编辑Source note
InsightEdit：迈向更强指令跟随的图像编辑Source note
InstructPix2Pix：用合成监督建立自然语言图像编辑接口Source note
NULL-Text Inversion：用 guided diffusion 编辑真实图像Source note
Paint by Example：以单张参考图控制局部语义编辑Source note
Pathways on the Image Manifold：通过视频生成做图像编辑Source note
Pix2Video：利用图像扩散进行视频编辑Source note
Plug-and-Play Diffusion Features：用 U-Net 内部特征控制文本图像翻译Source note
Prompt Tuning Inversion：优化条件嵌入轨迹的真实图像编辑Source note
Prompt-to-Prompt：用 cross-attention 控制文本驱动图像编辑Source note
QK-Edit：在 MM-DiT 中重构图像与视频编辑的 attention 注入Source note
SLD：LLM 驱动的闭环扩散生成纠错Source note
SwiftEdit：基于一步扩散的极速文本引导图像编辑Source note
UniReal：通过学习真实世界动态实现通用图像生成与编辑Source note
Unified Image Models Show Multi-Task and Workflow Benefits; Overall Performance Leadership Remains UnverifiedClaim
图像生成与编辑统一建模Entity
图像编辑的进步主要来自数据扩展还是架构升级Question
统一图像模型与专用或模块化流水线如何分工Question

#image-generation78

A-STAR：测试时分离并保留 cross-attentionSource note
ACT-Diffusion：面向一步扩散模型的高效对抗一致性训练Source note
Accelerating Diffusion Sampling with Optimized Time Steps：用优化时间步改善少步扩散采样Source note
Accelerating Diffusion Transformer via Gradient-Optimized Cache：修正 DiT 缓存误差Source note
Adding Conditional Control to Text-to-Image Diffusion Models：冻结 U-Net 主干的空间条件侧支Source note
All Are Worth Words：把 ViT 直接变成扩散模型主干Source note
Analyzing and Improving the Training Dynamics of Diffusion Models：EDM2 的幅值保持训练与 Post-hoc EMASource note
AnyDoor：训练一次的零样本对象级图像定制Source note
AnyEdit：面向任意创意的统一高质量图像编辑Source note
Attend-and-Excite：用 attention guidance 修复主体遗漏Source note
Attention Calibration for Disentangled Text-to-Image Personalization：解耦式个性化注意力校准Source note
Auto-Encoding Variational Bayes：变分自编码器与重参数化Source note
BoxDiff：无训练的框约束扩散生成Source note
C3Net：CoDi U-Net 上的图像、文本与音频复合条件协调Source note
CONFORM：以对比式注意力优化提升文本生成忠实度Source note
Check, Locate, Rectify：训练免费文本到图像布局校准Source note
CoDi：条件扩散蒸馏实现 1–4 步图像条件生成Source note
Come-Closer-Diffuse-Faster：用好初始化缩短条件扩散逆问题路径Source note
CommonCanvas：Creative Commons 数据上的开放 T2I 扩散训练Source note
Concept Weaver：模板引导的多概念个性化融合Source note
Condition-Aware Neural Network：以动态权重控制扩散 TransformerSource note
CosmicMan：面向人物的文本到图像基础模型Source note
Custom Diffusion：高效单概念学习与多概念组合Source note
Customization Assistant：可对话的单图免微调个性化生成Source note
DC-ControlNet：SDXL U-Net 上的元素内/元素间层次化多条件控制Source note
DLT：以联合离散—连续 Transformer diffusion 做属性级布局生成Source note
DeepCache：用高层特征缓存免费加速 U-Net 扩散模型Source note
Denoising Diffusion Probabilistic Models：现代去噪扩散模型的关键基线Source note
DenseDiffusion：Stable Diffusion 的 training-free 区域文本 attention modulationSource note
Diffusion Autoencoders：用语义向量与随机细节码构造可解码扩散表示Source note
Diffusion Efficiency EngineeringTopic
Diffusion ModelsTopic
Diffusion Models Without Attention：不用注意力也能做高分辨率扩散Source note
Distilling ODE Solvers of Diffusion Models into Smaller Steps：冻结去噪器的轻量求解器蒸馏Source note
Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models：并行方向蒸馏扩散 ODE 求解器Source note
Domain Expansion of Image Generators：图像生成器的领域扩展Source note
DreamBooth：以少样本全模型微调实现主体驱动生成Source note
DreamOmni：统一图像生成与编辑Source note
D²iT：用于高精度图像生成的动态扩散 TransformerSource note
Encapsulated Composition：组合式文本到图像/视频模型高质量视频合成Source note
FireEdit：基于区域感知视觉语言模型的细粒度指令图像编辑Source note
FlashEval：用代表性 prompt 子集加速文本到图像模型评测Source note
Foundations of Visual Generative ModelsTopic
FreeU：不重训的扩散 U-Net 特征重加权Source note
GLIGEN：以冻结基础模型和门控适配器实现开放集合 grounded 生成Source note
Generative Adversarial Nets：生成对抗网络Source note
Glow：可逆 1×1 卷积的生成流模型Source note
High-Fidelity Guided Image Synthesis：笔触约束下的 latent diffusion 测试时优化Source note
Image GenerationTopic
Image-specific Prompt Learning：零目标图像的生成器域适配Source note
InsightEdit：迈向更强指令跟随的图像编辑Source note
Latent Diffusion Models：高分辨率图像合成的潜空间扩散框架Source note
LayoutDiffusion：以对象框控制像素 U-Net 的 layout-to-image 生成Source note
LayoutDiffusion：面向离散 graphic layout 的专用腐化与免重训条件生成Source note
MultiDiffusion：用最小二乘融合多条去噪路径的 training-free 组合控制Source note
OmniGen：统一图像生成Source note
On Distillation of Guided Diffusion Models：把 CFG 与采样轨迹联合蒸馏到极少步Source note
Pathways on the Image Manifold：通过视频生成做图像编辑Source note
Pixel Recurrent Neural Networks：像素级自回归图像建模Source note
Post-Training Quantization on Diffusion Models：面向多 timestep 的 INT8 校准Source note
ReCo：以坐标 token 和开放区域文本控制图像生成Source note
Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance：语义区域自适应 CFGSource note
SANA-Sprint：连续时间一致性与对抗蒸馏的一步线性 DiTSource note
SLD：LLM 驱动的闭环扩散生成纠错Source note
Scalable Diffusion Models with Transformers：DiT 把 Transformer 真正坐实为可扩展扩散主干Source note
Score-Based Generative Modeling through Stochastic Differential Equations：分数模型的连续时间统一框架Source note
Self-Guided Diffusion Models：用自监督伪标注替代人工 guidanceSource note
Specialist Diffusion：少样本艺术风格扩散微调工具箱Source note
SwiftEdit：基于一步扩散的极速文本引导图像编辑Source note
Text Embedding Knows How to Quantize：用文本条件动态分配扩散激活位宽Source note
Towards Practical Plug-and-Play Diffusion Models：噪声分段外部 guidance 工程Source note
UniReal：通过学习真实世界动态实现通用图像生成与编辑Source note
Unified Image Models Show Multi-Task and Workflow Benefits; Overall Performance Leadership Remains UnverifiedClaim
Wavelet Diffusion Models：在小波空间压缩少步扩散 GANSource note
图像生成与编辑统一建模Entity
图像编辑的进步主要来自数据扩展还是架构升级Question
文本到图像生成的可验证与可复现人工评测Source note
统一图像模型与专用或模块化流水线如何分工Question

#method2

图像生成与编辑统一建模Entity
扩散 TransformerEntity

#model1

CLIP 系列模型（CLIP Family）Entity

#multimodal40

#near-cvpr-2025313

#needs-verification3

#object-detection3

#open-claim8

#primary-source250

#reasoning23

ANetQA：未裁剪视频细粒度组合推理基准Source note
Automated Offside Detection：基于双固定广角相机的时空越位检测原型Source note
COLA：组合式文本到图像检索基准（A Benchmark for Compositional Text-to-image Retrieval）Source note
CoLLM：用于组合式图像检索的大语言模型Source note
FineCausal：可解释细粒度动作质量评估Source note
MMMU：跨学科专家级多模态理解与推理基准Source note
PathCRF：从球员轨迹推断结构化控球路径与足球事件Source note
PinPoint：带显式负例、多图查询与改写测试的组合式图像检索评测Source note
SOK-Bench：结合开放世界知识的情境视频推理基准Source note
ST-GCN：骨架动作识别的时空图卷积基线Source note
Sports AI Research RoadmapTopic
Sports AI Video UnderstandingTopic
TacticAI:An AI Assistant for Football TacticsSource note
Temporal Parsing Transformer：无步骤标签的有序部件 AQASource note
TimeSformer：用于视频理解的分解式时空注意力Source note
Towards Universal Soccer Video UnderstandingSource note
TranSPORTmer：多智能体体育轨迹理解的统一 Transformer 框架Source note
VARS：SoccerNet-MVFoul 多视角犯规分类与裁判辅助Source note
VEGGIE：统一指令视频编辑、grounding 与 reasoning segmentationSource note
ViLEM：图文检索的视觉—语言错误建模（Visual-Language Error Modeling for Image-Text Retrieval）Source note
Video UnderstandingTopic
VideoAuto-R1（arXiv；CVPR 2026 accepted claim pending proceedings）：按需推理的视频理解框架Source note
X-VARS：可解释足球视频助理裁判系统Source note

#representation-learning64

#secondary-source16

#segmentation3

Fully Convolutional Networks for Semantic Segmentation：全卷积语义分割Source note
Mask R-CNN：实例分割与 RoIAlignSource note
U-Net：编码器—解码器与跳跃连接的医学图像分割Source note

#survey-needed10

#tracking27

AI Driven Soccer Analysis：单主场足球 2D 映射原型Source note
BST：面向羽毛球击球类型识别的骨架动作 TransformerSource note
Broadcast2Pitch：从非受控足球转播视频重建比赛状态Source note
Event2Tracking：用长时多模态上下文重建多智能体足球轨迹Source note
KINEXON Player Tracking：KINEXON player tracking 页面展示 UWB/GPS/LPS 球员追踪系统。Source note
MonoTrack:Shuttle Trajectory Reconstruction from Monocular Badminton VideoSource note
PathCRF：从球员轨迹推断结构化控球路径与足球事件Source note
Second Spectrum / Genius Sports：Genius Sports 收购 Second Spectrum 的公告展示了光学追踪、联赛数据和媒体可视化的商业链路。Source note
SoccerNet 2023 Tracking Challenge MOT4MOT：球员跟踪团队报告Source note
SoccerNet-GSR：足球比赛状态重建锚点Source note
SoccerNet-Tracking：足球多目标跟踪数据集与基准Source note
SoccerNet-v2 Camera Calibration：足球场标定与球员定位Source note
SportMamba：面向团队运动的非线性多目标跟踪Source note
Sports AI Research RoadmapTopic
Sports AI Video UnderstandingTopic
SportsMOTEntity
SportsMOT Dataset Page：SportsMOT 官方数据页记录数据下载、许可和基准说明。Source note
SportsMOT：多运动场景的大规模球员多目标跟踪基准Source note
TeamTrack：全场视角的多运动多目标跟踪数据集Source note
Towards Structured Analysis：广播羽毛球视频的结构化分析早期系统Source note
TrackMAE：用轨迹遮挡与预测学习运动敏感的视频表征Source note
TrackNetV2:Efficient Shuttlecock Tracking NetworkSource note
TrackNetV3：增强羽毛球 shuttle tracking 的数据增强与轨迹校正Source note
TrackNetV4：用运动注意力图增强快速体育小目标追踪Source note
TrackNet：体育高速小目标追踪网络Source note
TranSPORTmer：多智能体体育轨迹理解的统一 Transformer 框架Source note
体育姿态估计与跟踪综述：方法、数据、挑战与路线图Source note

#video-editing33

A Video is Worth 256 Bases：以时空 EM 低秩基改进零样本视频反演Source note
AVID：用 Temporal MultiDiffusion 做任意长度视频修补Source note
Align-A-Video：面向一致视频编辑的确定性奖励调优Source note
CAMEL：面向文本驱动视频编辑的因果运动增强Source note
CCEdit：以结构—外观解耦实现创意可控视频编辑Source note
DIVE：用 DINO 做主体驱动视频编辑Source note
DynVideo-E：用动态 NeRF 编辑大运动与大视角人体视频Source note
FADE：面向视频编辑的频率感知扩散模型分解Source note
Fairy：用 anchor cross-frame attention 并行加速指令视频编辑Source note
FateZero：融合注意力做零样本文本视频编辑Source note
FiVE-Bench：细粒度视频编辑评测基准Source note
FlowVid：把不完美光流作为软条件的视频编辑Source note
General Vid-LLMs Still Struggle With Editing-Element Recognition, Reasoning, and Functional JudgmentClaim
InsViE-1M：通过精细数据构造实现 instruction-based 视频编辑Source note
MaskINT：关键帧扩散编辑与非自回归结构插帧的视频编辑Source note
MotionEditor：参考姿态驱动的人体视频运动编辑Source note
MotionFollower：通过 score-guided diffusion 编辑视频运动Source note
Pix2Video：利用图像扩散进行视频编辑Source note
QK-Edit：在 MM-DiT 中重构图像与视频编辑的 attention 注入Source note
RAVE：随机噪声重排的快速一致视频编辑Source note
Shape-aware Text-driven Layered Video Editing：用 UV 变形突破 atlas 的固定形状Source note
SketchVideo：基于草图的视频生成与编辑Source note
StableVideo：用 layered atlas 稳定扩散视频外观编辑Source note
VEGGIE：统一指令视频编辑、grounding 与 reasoning segmentationSource note
VEU-Bench:Benchmarking Video Editing Element Understanding in General Vid-LLMsSource note
VIVE3D：多帧个性化 EG3D 的视角无关人脸视频编辑Source note
VidToMe：用跨帧 token merging 做零样本视频编辑Source note
Video EditingTopic
Video-P2P：用 shared-null inversion 与解耦 guidance 做 attention-control 视频编辑Source note
VideoDirector：借助文本到视频模型实现精确视频编辑Source note
现有评测是否真的刻画了视频编辑理解能力Question
视频编辑理解Entity
通过多模态大模型实现语言驱动视频修补Source note

#video-generation22

AIGV-Assessor：用大模型评测文本到视频生成感知质量Source note
CAMEL：面向文本驱动视频编辑的因果运动增强Source note
Encapsulated Composition：组合式文本到图像/视频模型高质量视频合成Source note
EvalCrafter：大视频生成模型的多维评测与人工偏好校准Source note
FramePainter：用视频扩散先验增强交互式图像编辑Source note
InsViE-1M：通过精细数据构造实现 instruction-based 视频编辑Source note
LinGen：面向高分辨率分钟级文本到视频生成的线性复杂度框架Source note
MaskINT：关键帧扩散编辑与非自回归结构插帧的视频编辑Source note
MotionFollower：通过 score-guided diffusion 编辑视频运动Source note
MotionStone：用 DiT 解耦运动强度调制的图像到视频生成Source note
OSV：高质量图像到视频生成一步就够Source note
Pix2Video：利用图像扩散进行视频编辑Source note
Reangle-A-Video：把单目视频重演为多视角同步视频Source note
SketchVideo：基于草图的视频生成与编辑Source note
StreamingT2V：一致、动态、可扩展的长视频文本生成Source note
Tora：面向视频生成的轨迹导向扩散 TransformerSource note
Tune-A-Video：单样本调优图像扩散模型做文本到视频生成Source note
VBench：视频生成模型综合评测套件Source note
Video GenerationTopic
Video-Bench：人类偏好对齐的视频生成评测Source note
VideoCrafter2：低质量视频与高质量图像协同训练的视频扩散模型Source note
通过形式化验证评测文本到视频模型的神经符号方法Source note

#video-representation3

#video-understanding80

AI Driven Soccer Analysis：单主场足球 2D 映射原型Source note
ANetQA：未裁剪视频细粒度组合推理基准Source note
AthletePose3D：高速竞技动作的 3D 姿态与运动学验证Source note
AthleticsPose：真实田径动作的 3D 姿态与部署边界Source note
Automated Offside Detection：基于双固定广角相机的时空越位检测原型Source note
BST：面向羽毛球击球类型识别的骨架动作 TransformerSource note
BadmintonDB：面向球员级比赛分析与预测的羽毛球数据集Source note
BlockGCN：保留骨架拓扑并轻量建模多种关节关系Source note
Broadcast2Pitch：从非受控足球转播视频重建比赛状态Source note
Can Motion-Defined Text Become a Reliable Human–Machine Perception Benchmark?Question
Catapult Athlete Monitoring：Catapult athlete monitoring 页面展示运动员负荷、训练监测和多模态数据产品。Source note
DeepLabCut：DeepLabCut 是少量标注即可训练的无标记关键点追踪工具。Source note
Event2Tracking：用长时多模态上下文重建多智能体足球轨迹Source note
FineCausal：可解释细粒度动作质量评估Source note
FineDiving Repository：FineDiving 仓库提供数据集与代码入口。Source note
FineDiving：程序感知的细粒度动作质量评估Source note
FineGym：体操视频的层级细粒度动作理解Source note
FineSports：多人篮球的层级细粒度时空动作定位Source note
GlitchBench：大型多模态模型能否识别电子游戏故障Source note
HomeCourt：HomeCourt 代表手机相机驱动的消费级训练反馈应用。Source note
Human-in-the-loop Adaptation：团队运动示例检索的人机适配Source note
LOGO：多人长视频的群体动作质量评估Source note
LVBench：极长视频理解基准Source note
MMAction2：MMAction2 是 OpenMMLab 视频理解工具箱，支持动作识别、检测和骨架动作等任务。Source note
MMPose / RTMPose：MMPose 提供 2D/3D 姿态估计工具链，RTMPose 强调实时部署。Source note
MVBench：综合多模态视频理解基准Source note
MediaPipe Pose：MediaPipe Pose / BlazePose 提供移动端友好的 3D landmarks 姿态估计。Source note
MonoTrack:Shuttle Trajectory Reconstruction from Monocular Badminton VideoSource note
MultiSenseBadminton：面向羽毛球表现评估的多传感器生物力学数据集Source note
MultiSports：多人时空动作定位的数据锚点Source note
NFL Hawk-Eye First Down：AP 报道 NFL 引入基于 Hawk-Eye 的首攻测量技术。Source note
OpenCap：OpenCap 用智能手机视频估计人体运动学与动力学，降低实验室级运动捕捉门槛。Source note
OpenPose：OpenPose 是早期多人 2D 关键点检测工具。Source note
PathCRF：从球员轨迹推断结构化控球路径与足球事件Source note
Premier League Semi-Automated Offside：Reuters 报道英超启用半自动越位技术。Source note
ProtoGCN：用运动原型重构放大相似骨架动作的局部差异Source note
Quo Vadis, Action Recognition?：I3D、Kinetics 与 3D 视频预训练Source note
RefereeBench：多运动项目规则化视频裁判评测Source note
SOK-Bench：结合开放世界知识的情境视频推理基准Source note
ST-GCN：骨架动作识别的时空图卷积基线Source note
STI-Bench：精确时空世界理解基准Source note
ShuttleSet：人工标注的羽毛球单打 stroke-level 数据集Source note
SkateFormer：用四类骨架—时间分区实现高效联合注意力Source note
SoccerNet 2022 Challenges Results：足球视频理解挑战早期基线Source note
SoccerNet 2023 Challenges Results：足球视频多任务挑战结果Source note
SoccerNet 2023 Tracking Challenge MOT4MOT：球员跟踪团队报告Source note
SoccerNet Action Spotting：SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。Source note
SoccerNet-GSR：足球比赛状态重建锚点Source note
SoccerNet-Tracking：足球多目标跟踪数据集与基准Source note
SoccerNet-v2 Camera Calibration：足球场标定与球员定位Source note
SoccerNet-v2：广播足球内容、剪辑与回放理解基准Source note
Sports AI Research RoadmapTopic
Sports AI Video UnderstandingTopic
Sports-QA：复杂专业体育视频问答基准Source note
SportsCap：单目体育 3D 运动捕捉与细粒度属性理解Source note
SportsHHI：体育视频中的高层人—人交互检测基准Source note
TacticAI:An AI Assistant for Football TacticsSource note
TemPose：面向羽毛球细粒度动作识别的骨架 TransformerSource note
Temporal Parsing Transformer：无步骤标签的有序部件 AQASource note
TimeSformer：用于视频理解的分解式时空注意力Source note
Towards Active Learning for Action Spotting：足球事件定位的低标注路线Source note
Towards Structured Analysis：广播羽毛球视频的结构化分析早期系统Source note
Towards Universal Soccer Video UnderstandingSource note
TrackMAE：用轨迹遮挡与预测学习运动敏感的视频表征Source note
TrackNetV2:Efficient Shuttlecock Tracking NetworkSource note
TrackNetV3：增强羽毛球 shuttle tracking 的数据增强与轨迹校正Source note
TrackNetV4：用运动注意力图增强快速体育小目标追踪Source note
TrackNet：体育高速小目标追踪网络Source note
Two-Stream Convolutional Networks for Action Recognition：RGB 与光流双流视频表示Source note
VARS：SoccerNet-MVFoul 多视角犯规分类与裁判辅助Source note
VEGGIE：统一指令视频编辑、grounding 与 reasoning segmentationSource note
Video Representation and Temporal ModelingTopic
Video UnderstandingTopic
VideoAuto-R1（arXiv；CVPR 2026 accepted claim pending proceedings）：按需推理的视频理解框架Source note
VideoMAE：数据高效的视频掩码自编码预训练Source note
WEAR：户外健身的第一视角视频与四肢 IMU 数据集Source note
X-VARS：可解释足球视频助理裁判系统Source note
体育姿态估计与跟踪综述：方法、数据、挑战与路线图Source note
羽毛球挥拍动作纠正 demo 应如何定义Question
通过多模态大模型实现语言驱动视频修补Source note

#vision4

Can Motion-Defined Text Become a Reliable Human–Machine Perception Benchmark?Question
DETR：把目标检测改写成 Transformer set predictionSource note
Segment Anything：把分割做成可提示的视觉基础模型Source note
Vision Transformer：把图像切成 token 的通用视觉主干Source note

#vision-foundations6

A ConvNet for the 2020s：ConvNeXt 与现代卷积主干Source note
Computer Vision OverviewTopic
Deep Residual Learning for Image Recognition：ResNet 与残差学习Source note
ImageNet Classification with Deep Convolutional Neural Networks：AlexNet 与深度视觉转折Source note
Swin Transformer：移位窗口与层级视觉 TransformerSource note
Visual Representations and BackbonesTopic

#vision-language66