Introduction

之前的时空图网络(ST graph)有着以下两点局限性：第一，人体骨架确实有时空联系性，但是这种联系在不同的人体动作下是不一样的。因此怎么有效地提取这种联系是困难的。传统的GCN卷积方法是静态的，无法描述动态时空结构。第二，骨架的空间层级结构和动作的时间序列结构都包含了顺序信息，然而大多数ST graph都是用了无向图结构，即无视了顺序信息。

DDGCN提出用于自适应学习时空关系和动作的时空顺序信息。

Dynamic Convolutional Sampling (DCS)
Dynamic Convolutional Weights (DCW)
Directed Spatial-Temporal Graph (DSTG) Features

Action recognition algorithms can be classied based on data modalities they run on. The majority of action recognition methods model actions on image sequence directly. Accordingly, they have developed various strategies based on handcrafted features [31, 26, 15], Convolutional Neural Network (CNN) [2, 9, 27], or Generative Adversarial Network (GAN) [14, 25, 29] to perform action recog- nition. However, using only appearance modality such as RGB images has its limitations including high inference of background, high dimensional inputs, sen- sitivity to image transformations, and low expressive capability.

Overview

对于输入的动作序列X，先构造出时空图\(G_{ST}\)来构建时间关系。然后通过多个Dynamic Directed Convolutional (DDC)来抽取特征。

Dynamic Convolutional Sampling (DCS)

首先对于帧\(G_0\)，DCS会尝试对每个点找出其邻居\(p_i(B(v_i))\)(包含邻接点和非邻接相关点)：

先用\(G_0\)中的邻接点对邻居列表进行初始化，然后通过DCS来逐渐包含那些非邻接的相关点
初始化邻域：创建一个有序的邻域点集\(O_i\)：将所有节点按到\(v_i\)的图距离排序存放，然后从\(O_i\)中拿出前\(r\)个节点作为这个点的邻域\(p_i(B(v_i))\)。
更新邻域\(p_i\)：通过学习一个index shift \(\Delta p_i\) ，相当于对邻域进行一个动态的排序，重新找前几个相关节点。

最终在邻域上通过图卷积聚合生成特征：

\[ f_{S T}\left(v_{i}\right)=\sum_{v_{j} \in B\left(v_{i}\right)} w\left(v_{i}\right) \cdot\left(p_{i}\left(v_{j}\right)+\Delta p_{i}\left(v_{j}\right)\right), \]

Dynamic Convolutional Weights (DCW)

图像的卷积都是空间有序的，卷积核的权重学习也是按照同样的固定顺序。然而图像上卷积是无序的，且邻域数量不确定，因此DCW用于将图卷积自适应的有序化。

给定卷积权重\(W=\{w_i \in R^3,i=1,...,r\}\)，目标是将\(w_i\)动态分配给相应的节点\(v_i\)：计算一个 rx2 的矩阵\(P_v=DTW_{path}(W,B(v))\)，其最小化\(B(v)\)和排序后的\(W\)的DTW距离。

Dynamic Time Warping (DTW) [1] 动态时间规整算法: 衡量两个时间序列的相似度的方法。因为表达同一个意义的两个序列，时间长度可能不一致。

Directed Spatial-Temporal Graph (DSTG)

有向空间图：从root开始广度优先搜索，生成骨架的有向图。在运动时，父节点的动作往往会影响子节点的动作，即子节点是关联于父节点的。可以将节点之间的边定义为bone，那么bone features即\(f_i^B=\overrightarrow{v_{i-1}v_i}=f_{i-1}-f_i\),其中\(f_i\)表示节点\(v_i\)的特征向量。

有向时间图：即将节点与其在上一帧对应节点连接起来。temporal features \(f_i^T=f_{i}^t-f_{i-1}^{t-1}\)

参考文献

[1] Berndt, D.J., Cliord, J.: Using dynamic time warping to nd patterns in time series. In: KDD workshop. vol. 10, pp. 359{370. Seattle, WA (1994)