Paper:http://openaccess.thecvf/content_cvpr_2018/papers/Zhao_Recognize_Actions_by_CVPR_2018_paper.pdf
Anthor: Yue Zhao, Yuanjun Xiong, and Dahua Lin (SenseTime, CUHK, Amazon Rekognition)
这是商汤在2018 CVPR上第二篇关于从RGB生成光流相关的工作了。第一篇出门左转看我的另一篇博客:【论文笔记】视频分类系列 Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video (OFF)
0. 简述
action recognition的现有方法常常将appearance和motion的建模分开进行,这时候受到光流计算的影响速度会很慢。
在本文中我们将直接从视频帧中获取dynamics的信息,而不需要计算光流。具体来说,学到的representation包括3个部分,分别表示 static appearance, apparent motion,appearance changes。我们引入了3D pooling, cost volume processing和warped feature differences分别用于提取上述3部分的特征。这3个模块在整个网络中构成了3个分支,他们共享底层特征并且可以end-to-end地进行学习。
1. 方法
1.1 static appearance branch
这个branch主要是用来提取整个场景的静态表观特征的。它的结构主要包括2D conv,2D pooling和temporal pooling。
temporal pooling layer用在这里是为了使特征更加鲁邦,因为一帧的特征可能受到运动模糊,相机抖动等的影响,通过temporal pooling把多帧的特征pool到一起则可以比较好地解决这一问题。
这边没有使用3D conv,因为这里主要是为了捕获在时间上stable的特征,所以只在spatial的维度做特征提取,另外3D conv的参数量也更大,学起来更难。
1.2 appearance motion branch
这个branch表示的是视频帧上特征点的空间位移。在别的工作中,appearance motion通常是通过密集光流场来表示的,但是光流的计算通常耗时很大。因此我们想出了一种替代的方案,即直接将motion representation表示成cost volume。
cost volume的计算如下图,在相邻帧的low-level feature map上计算cost volume。给定一对feature map
Ft
F
t
和
Ft+1
F
t
+
1
,我们可以构建一个4维的cost volume
Ct∈ℝH∗W∗(2ΔH+1)∗(2ΔW+1)
C
t
∈
R
H
∗
W
∗
(
2
Δ
H
+
1
)
∗
(
2
Δ
W
+
1
)
,也就是说feature map上的每一个点都和其领域
(2ΔH+1)∗(2ΔW+1)
(
2
Δ
H
+
1
)
∗
(
2
Δ
W
+
1
)
范围的所有点计算一个相似度。具体地,cost volume上的每个点
Ct(i,j,δi,δj)
C
t
(
i
,
j
,
δ
i
,
δ
j
)
是
ft(i,j)
f
t
(
i
,
j
)
和
ft+1(i+δi,j+δj)
f
t
+
1
(
i
+
δ
i
,
j
+
δ
j
)
的cosine similarity。cosine相似度在我的理解表示的是方向的相似度,cosine的值在0-1之间,1表示两个向量的方向完全一致,其他方向<1。
在得到cost volume后,再计算一个位移映射矩阵(displacement map)
Vt∈ℝH∗W∗2
V
t
∈
R
H
∗
W
∗
2
来捕获t到t+1时刻的运动,在这个矩阵上的每个位置(i,j)都会得到一个2维的向量
vi,j=(vyi,j,vxi,j)
v
i
,
j
=
(
v
i
,
j
y
,
v
i
,
j
x
)
表示当前位置的位移,计算方式如下:
其中系数
ρ
ρ
从cost volume计算得到:
其中
ci,j(δi,δj)=Ct(i,j,δi,δj)
c
i
,
j
(
δ
i
,
δ
j
)
=
C
t
(
i
,
j
,
δ
i
,
δ
j
)
。系数
ρ
ρ
的计算可以通过在x和y方向上计算softmax得到。那么这样的话位移映射矩阵
Vt
V
t
就可以通过2D conv进行计算了。
当我们得到
Vt
V
t
后,将其作为输入,输入到后续的conv layers中得到higher-level representation。最终一个1024维的特征向量用于表示apparent motion information。
1.3 appearance change approach
不是视频中所有的运动都可以由apparent motion解释的。比如光照的变化,物体本身形状的变化等。这种变化在以往的工作中通常通过RGB-Diff来捕获,但是这样的话就分不开apparent motion和appearance change了,和我们的初衷相违背。因此我们采用别的思路。Warped difference。
给定相邻帧的feature map Ft F t 和 Ft+1 F t + 1 ,我们首先根据 Vt V t 对 Ft F t 进行warp,即根据之前计算的apparent motion得到估计的后一时刻的feature map F′t+1=W(Ft,Vt) F t + 1 ′ = W ( F t , V t ) ,warp是通过双线性差值进行的。然后计算warped feature map F′t+1 F t + 1 ′ 和 Ft+1 F t + 1 之间的差,即得到了warped difference。然后再将warped difference输入到后续的网络中得到1024维的特征向量。
2. 实验
实验部分见原文。
更多推荐
【论文笔记】视频分类系列 Recognize Actions by Disentangling Components of Dynamics
发布评论