浅谈动作识别TSN, TRN, ECO


什么是动作识别?给定一个视频,通过机器来识别出视频里的主要动作类型。


动作识别表面是简单的分类问题,但从本质上来说,是视频理解问题,很多因素都会影响其中,比如不同类型视频中空间时间信息权重不同?视频长短不一致?视频中动作持续的起始终止时间差异很大?视频对应的语义标签是否模糊?


本文主要对比 video-level 动作识别的经典方法TSN,及其拓展变形版本的TRN和ECO。


Temporal Segment Network[1], ECCV2016

TSN提出的背景是当时业界做动作识别都是用 Two-stream CNN 和 C3D 比较多,它们都有个通病,就是需要密集采样视频帧,比如 C3D 中使用的是连续采样间隔的16 frames,这样当输入是个Long视频,计算量很庞大~


故文中就提出了 稀疏时间采样策略 ,就是不管输入视频的长短,直接分成K个Segment,然后在每个Segment再随机找出一个时间小片,分别用 shared CNN 来提取空间上的特征,再进行 feature-level 的融合,最后再 Softmax 分类:


\(TSN(T_{1},T_{2},...,T_{K})=H(G(F(T_{1};W),F(T_{2};W),...,F(T_{K};W)))\)


公式中 \(T_{K}\)表示第K个Segment;函数F表示CNN网络出来的特征;G表示特征融合函数;H表示分类层Softmax。


整个网络框架图如下,很简洁:


v2-f8b6c4673612009513ac648e4675060e_b.jpg

TSN[1]


由于其中没有使用 3D conv,故为了更好进行 temporal 特征提取,文中也使用了类似双流的多模态输入:即上图的 Spatial ConvNet 的输入可以是 RGB图 或者 RGB差异图;Temporal ConvNet 的输入可以是 光流图 或者 wrapped光流:


v2-199dac73496df939ca95c36931d1c4fe_b.jpg

不同模态输入[1]


从实验结果来看,使用Average fusion去融合特征效果最好;而当使用三模态输入(Optical Flow + Warped Flow + RGB)时,在HMDB51和UCF101超state-of-the-art;不过若只是RGB作为输入的话,性能不如 C3D~


总结:

Pros:

通过 Sparse temporal sampling 可以扔掉很多冗余帧,初步满足实际应用的real-time要求


Cons: 

对于Temporal特征欠考虑,更多地是 focus 在 apperance feature

文中无对比超参K值(Default K=3)的选取对结果的影响 及 Segment内部采样小片策略


Temporal Relation Network[2], ECCV2018

TRN是 @周博磊 大哥的力作,致力于探索时间维度上的关系推理,那问题来了,怎么样才能找到特征间在时间上的传播关系呢?其实像传统的3D conv架构(C3D,P3D,R(2+1)D, I3D),也是有 Temporal conv 在里头,也能从不同感受野即multi-temporal-scale来得到联系。本文是在TSN框架上,提出用于video-level的实时时间关系推理框架。


TRN的 main contribution 有两个:

设计了新型的fusion函数来表征不同 temporal segment 的  relation,文中是通过MLP( concat feature -- ReLU -- FC -- ReLU -- FC)的结构来实现,而TSN中的fusion函数只是通过简单的 average pooling

通过时间维度上 Multi-scale 特征融合,来提高video-level鲁棒性,起码能抗快速动作和慢速动作干扰


下图的框架图一目了然,算法实现流程就是先均匀地采样出不同scale的Segment 来对应 2-frame, 3-frame, ..., N-frame relation;然后对每个Segment里小片提取 Spatial feature,进行 MLP 的 temporal fusion,送进分类器;最后将不同scale的分类score叠加来作最后预测值。

v2-4053f58da729767e16bf20d158828b2a_b.jpg

TRN[2]


 两个实现的细节点需要注意:

对采样下来的N-frame,必须保持时序性,即从先到后;这样后面的temporal fusion环节MLP才能学会推理动作的时间关系。

2. 不同scale的采样帧对应的 MLP 都是独立的,不share参数,因为含的帧数信息量也不同,输入给MLP的大小自然也不同。


文中给出了几个非常有趣的实验结果:


1. 如下图所示,在不同的数据集, TRN和TSN的性能差异很大。这说明什么问题呢?在UCF, Kinectics, Moments里两者的性能相近,说明这三个数据集的动作与空间上下文具有强相关性,而对于时间上下文相关性较弱;而 Something-something, Jester, Charades 里动作较为复杂,时间上下文联系较强,TRN的性能明显高于TSN。

不同的fusion方式在6个数据集上的性能[2]


v2-7847cc95d2a74318fafba0f6a51bf9d1_b.jpg


2. 保持帧间时序对于TRN的重要性,如下图所示,可见乱序输入的TRN在动作复杂的something-something数据集下性能严重下降;而在UCF101里并不严重,因为该数据集需要更多的是空间上下文信息。



v2-3087b480ff6f5ae3e10768927b062346_b.jpg

正序和乱序的性能[2]


总结:


Pros: 

更鲁棒的 action/activity 时空特征表达方式,即 MLP fusion + Multi-scale。


Cons: 

Spatial 和 temporal 的联系还是太少,只在最后 embedding feature时用MLP融合了一下~~另应对比不同的fusion方式,如LSTM/GRU与MLP的性能差异~


ECO[3], ECCV2018

本文通过 trade-off  TSN系列 和 3Dconv系列,来实现实时的 online video understanding(文中夸张地描述到 ECO runs at 675 fps (at 970 fps with ECO Lite) on a Tesla P100 GPU)。


ECO的主要贡献:

1.使用 TSN 稀疏采样来减少不必要的冗余帧的前提下,对采样帧的 mid/high-level 进行 spatio-temporal 特征fusion,故比 TRN 只在最后特征层来做 temporal fusion的时空表达能力更强~ 

2. 提出了一整套工程化的 Online video understanding 框架。


来看看轻量级的ECO-Lite的网络框架图,对N个中的每个Segment中的帧来提取特征到某一层 K*28*28,然后通过 3D-ResNet(当然拉,这里你也可以使用 convLSTM + SPP 等方式来对比下效果) 提取N个Segment的时空特征,最后再分类。



v2-c8d1d3d51b071ff66aa32c75d1d46e91_b (1).jpg

ECO Lite[3]


完整的ECO框架就是在 ECO-Lite 的基础上,再接一个类似 TSN 的average pooling 的 2D 分支,最后再将两个分支特征进行融合及分类:


v2-035b92c8526ac778d44e1a6ccdf45f9d_b.jpg

Full ECO[3]

在Something-something数据集下,集成 {16, 20, 24, 32} 下采样帧数的四个ECO-Lite子网络的average score的方法,性能远超 Multi-scale TRN:

v2-ab16dd21fc2a67c653f8c7e94608fc27_b.jpg

something-something性能[3]


总结与展望:

当硬件的计算能力在上升,且成本下降后,无疑以后通过Sparse sampling后,直接从头到尾进行 3Dconv 出来的时空表征会更优 。而这个Sparse sampling,是否可以通过 temporal attention去自动选择最优的帧来计算也很重要。

最后请教大家两个问题:

对于微动作或者动作幅度较小完成速度较慢时,怎么才能更好地识别?会不会都学成了 appearance特征?

2. 能否通过理解动作(即rigid & non-rigid),来反向进行 motion compensation,让对应帧都时空上aligned好?比如对齐各种运动变形的人脸?


Reference:

[1] Limin Wang, Temporal Segment Networks: Towards Good Practices for Deep Action Recognition, ECCV2016

[2]Bolei Zhou, Temporal Relational Reasoning in Videos,ECCV2018

[3]Mohammadreza Zolfaghari, ECO: Efficient Convolutional Network for Online Video Understanding,ECCV2018


浅谈动作识别TSN, TRN, ECO.pdf


微信扫一扫
关注公众号