ArticleMetadataMain page

topic · 2026-05-23

Mainstream Vision Backbones

A beginner-friendly map of CNN, U-Net, Transformer, DiT, GCN, and Mamba/SSM vision backbones for generation, video understanding, and sports AI.

这页解决什么

Backbone 是模型的“骨架”:它把图像、视频帧、轨迹、骨架点或 latent token 编码成可复用表示。检测头、分割头、生成解码器、tracking association、动作分类器、VLM / LLM 推理模块,通常都接在 backbone 后面。

读体育 AI、视频理解和生成论文时,先看 backbone,基本能快速判断论文在解决哪一类问题:感知、时序、结构化运动、生成质量、控制接口,还是部署效率。

一张总图

Backbone 家族小白直觉常见代表擅长什么主要代价本 wiki 证据
CNN / ResNet / EfficientNet / ConvNeXt像滑动窗口一样从局部纹理逐层组合成物体和场景ResNet、EfficientNet、ConvNeXt、YOLO 系列检测底座实时感知、局部纹理、边缘部署、检测/姿态/跟踪前端全局关系和长时序通常要接额外模块OpenPoseMMPoseTrackNet
U-Net / Latent Diffusion U-Net编码器压缩语义,解码器恢复细节,跳连保留空间信息Stable Diffusion U-Net、ControlNet 风格 side branch图像生成、图像编辑、局部控制、dense 输出大分辨率和长视频会放大单步网络成本Latent Diffusion扩散模型
ViT / Transformer把图像或视频切成 token,让 token 之间互相看见ViT、Swin、TimeSformer、VideoMAE全局关系、多模态接口、大数据预训练、长距离依赖token 数增长会推高 attention 计算与显存TimeSformerVideoMAE
DiT / MM-DiT把 Transformer 放进扩散生成流程,让生成模型吃到 scaling 红利U-ViT、DiT、MM-DiT大规模图像/视频生成、统一生成编辑、条件控制训练和推理预算高,工程优化空间大U-ViTDiT扩散 Transformer
GCN / Skeleton Transformer把人体关键点当成图,显式建模关节和时间关系ST-GCN、BlockGCN、ProtoGCN、SkateFormer、TemPose姿态动作识别、体育动作质量、stroke classification依赖关键点质量,球和场地信息需要融合ST-GCNBlockGCNProtoGCNSkateFormer
Mamba / SSM用状态空间扫描序列,用更轻的序列建模覆盖长上下文Mamba、SportMamba、DiffuSSM长序列、高分辨率、轨迹建模、低延迟时序任务预训练生态和多模态接口仍在快速形成SportMambaDiffuSSM

怎么快速判断一篇论文用了哪类 backbone

论文里出现的信号大概率对应的 backbone 家族该怎么读
convolution、feature pyramid、YOLO、heatmap、pose estimatorCNN / ConvNeXt / detection backbone先看局部感知能力、速度、输入分辨率和部署约束。
patch、token、attention、window attention、masked autoencodingViT / Swin / video Transformer先看 token 长度、预训练数据、时空 attention 设计和显存成本。
diffusion transformer、DiT、MM-DiT、AdaLN、latent tokenDiT / 生成式 Transformer先看 scaling、条件注入、推理步数、控制接口和部署优化。
skeleton、joints、graph convolution、spatial-temporal partitionGCN / Skeleton Transformer先看关键点来源、关节拓扑、动作阶段和细粒度类别。
selective scan、state space、linear-time sequence modelMamba / SSM先看序列长度、延迟、长程依赖和替代 attention 的实验边界。

各主干的入门解释

1. CNN 系列:视觉感知的工程底座

CNN 的核心直觉是“局部模式逐层组合”。前几层学边缘和纹理,中间层学部件,后面学对象和场景。它适合实时检测、姿态估计、小目标 heatmap、运动员定位和移动端部署。

体育 AI 里,很多系统先用 CNN / ConvNeXt / YOLO 类前端把人、球、场线、关键点找出来,再把这些结构化结果交给 tracking、trajectory 或 action recognition 模块。TrackNetOpenPoseMMPose 都属于这类感知前端的可读入口。

2. U-Net 系列:生成和 dense prediction 的细节机器

U-Net 的核心直觉是“先压缩理解,再逐步还原”。编码器负责抽象语义,解码器负责恢复空间细节,skip connection 让局部纹理和边界更容易保留下来。潜空间扩散把这套结构推进到图像生成和图像编辑主流系统里,Latent Diffusion 是本 wiki 的关键入口。

在生成式视觉里,U-Net 适合 stable diffusion 生态、ControlNet 类 adapter、inpainting、局部编辑和低门槛产品化。它的核心阅读点是:条件信号插在哪里,skip / feature 层怎样被重加权,推理步数和单步网络成本怎样被压缩。

3. Transformer 系列:把视觉变成 token 序列

Transformer 的核心直觉是“把图像或视频切成 token,再让 token 之间建立全局关系”。这条路线把视觉模型和语言模型的接口拉近,也让大规模预训练、masked modeling、多模态对齐更容易统一。

在视频理解里,TimeSformer 用纯 attention 建模时空关系,VideoMAE 用 masked autoencoding 做视频自监督预训练。读这类论文时,重点看三件事:token 怎样切、时间和空间 attention 怎样分配、预训练数据怎样支撑下游任务。

4. DiT 系列:生成模型的可扩展平台

DiT 可以理解成“把 Transformer 变成扩散模型的主干”。它让生成模型获得更清晰的 scaling 叙事:模型更大、token 更多、训练更充分时,质量和泛化能力可以继续增长。U-ViT 提供前史,DiT 把这条路线变成可跟踪的主线。

本 wiki 已经有专门判断页 扩散 Transformer 正在成为默认的可扩展生成主干 和实体页 扩散 Transformer。读图像生成、视频生成和统一生成/编辑论文时,可以先问:这篇是在换掉 backbone,还是在 DiT 平台上加控制、加速、压缩或扩展上下文。

5. GCN / Skeleton Transformer:把人体动作变成结构化图

骨架动作识别的输入通常是人体关键点。GCN 把关节和骨骼连接建成图,Transformer 则把关节、帧和动作阶段切成 token。它们适合体育动作识别、动作质量评估、stroke type classification 和训练反馈。

体育 AI 里,这条线对羽毛球、体操、跳水、篮球动作都很重要。ST-GCN 是经典图卷积锚点,BlockGCNProtoGCNSkateFormer 展示了近年的结构升级,TemPose 把这条线接到羽毛球细粒度动作。

6. Mamba / SSM:长序列和高分辨率效率路线

Mamba / SSM 的核心直觉是“用状态更新来扫描序列”。它把长序列建模从全局 attention 的高成本关系建模,改成更轻的状态递推和选择性记忆,适合长视频、轨迹、运动员跟踪和高分辨率生成中的效率压力。

SportMamba 把 Mamba-attention 用到团队运动多目标跟踪,DiffuSSM 则把 state space backbone 带进高分辨率扩散生成。读这类论文时,重点看它把哪一段序列压低成本:像素 token、视频帧、轨迹点,还是 diffusion latent。

体育 AI 里的选型速查

任务更常见的 backbone 选择选型理由
球员 / 球 / 场线检测CNN / ConvNeXt / ViT detector + task head需要稳定局部感知、实时速度和高分辨率输入。
多目标跟踪与 ReIDCNN / ViT appearance encoder + Transformer / Mamba sequence model外观相似、遮挡和非线性运动需要同时处理。
全场状态重建与轨迹补全Transformer / Mamba / trajectory model输入已经变成坐标、轨迹和事件 token,长时序关系最重要。
骨架动作识别 / stroke typeGCN / Skeleton Transformer人体关节拓扑和动作阶段是核心信号。
训练反馈 / 动作纠正Skeleton backbone + trajectory backbone + explanation module需要同时输出动作类别、错误阶段、关键证据和教练式反馈。
VAR / rule-grounded officiating感知 backbone + 轨迹/事件模型 + 规则推理模块视觉证据、比赛规则、可解释复核需要串成 workflow。

生成式视觉里的选型速查

任务更常见的 backbone 选择选型理由
Stable Diffusion 生态、局部编辑、ControlNet 类控制U-Net / Latent Diffusion U-Net生态成熟,adapter 多,空间细节和局部控制友好。
大规模图像 / 视频生成DiT / MM-DiTscaling 叙事清楚,适合统一生成、编辑、条件控制和多模态接口。
高分辨率低成本生成SSM / 高效 Transformer / 混合主干重点在降低 token、attention 或单步网络成本。
视频生成和视频编辑DiT / video Transformer / U-Net 混合结构需要同时处理空间保真、时间一致性和条件控制。

当前 wiki 已覆盖和待补

已覆盖的主干证据主要集中在五条线上:

下一批值得补成 source notes 的 canonical backbone 锚点:ResNet、EfficientNet、ConvNeXt、ViT、Swin Transformer、CLIP、DETR / RT-DETR、SAM。补完这批之后,wiki 的 backbone 板块就能同时服务体育 AI、视频理解、生成模型和多模态系统读者。

相关页面