SequentialPointNet: A strong parallelized point cloud sequence network for 3D action recognition

Li X, Huang Q, Wang Z, et al. SequentialPointNet: A strong parallelized point cloud sequence network for 3D action recognition[J]. arXiv preprint arXiv:2111.08492, 2021.
河海大学 CS
源码仓库

针对人类动作在空间上复杂，在时间上简单的特性，不平等的对待空间信息和时间信息。提出了一个强并行能力的点云序列网络SequentialPointNet：一个帧内appearance编码模块，一个帧间动作编码模块。

为了对人体动作丰富的空间信息建模，每帧先在帧内的appearance encoding中并行处理，并且输出一个特征向量序列，描述静态的appearance在时间维度上的改变。
为了建模简单的时间维度上的变化，在帧间的动作编码模块中，在特征向量序列中应用了时间上的位置编码和分层的池化策略。
为了更好的挖掘时空内容，聚合人体动作的多级特征。

帧间编码

Temporal position embedding：和Transformer的positional encoding差不多。将时间上的位置进行encoding：

\[ \begin{gathered} P E_{t, 2 h}=\sin \left(t / 10000^{2 h / d_{\text {sout }}}\right) \\ P E_{t, 2 h+1}=\cos \left(t / 10000^{2 h / d_{\text {sout }}}\right)\\ \widehat{f}_{t, h}=f_{t, h}+P E_{t, h} \end{gathered} \]

共享MLP：在时间位置编码之后，再进行特征抽取，加强信息。

Hierarchical pyramid max pooling：类似于多卷积核操作。将时间序列化为不同的几个部分，并且使用max pooling分别抽取特征。

多级特征抽取：序列层级学习是帧间的分级策略，还有帧内的多级特征抽取：

\[ \begin{gathered} P=\underset{t=1, \ldots, T}{\operatorname{MAX}}\left\{\operatorname{MAX}_{j=1, \ldots, n_{2}}\left\{r_{j}^{t}\right\}\right\} \\ R=\operatorname{MAX}_{t=1, \ldots, T}\left\{f_{t}\right\} \end{gathered} \]