SequentialPointNet: A strong parallelized point cloud sequence network for 3D action recognition
- Li X, Huang Q, Wang Z, et al. SequentialPointNet: A strong parallelized point cloud sequence network for 3D action recognition[J]. arXiv preprint arXiv:2111.08492, 2021.
- 河海大学 CS
- 源码仓库
针对人类动作在空间上复杂,在时间上简单的特性,不平等的对待空间信息和时间信息。提出了一个强并行能力的点云序列网络SequentialPointNet:一个帧内appearance编码模块,一个帧间动作编码模块。
- 为了对人体动作丰富的空间信息建模,每帧先在帧内的appearance encoding中并行处理,并且输出一个特征向量序列,描述静态的appearance在时间维度上的改变。
- 为了建模简单的时间维度上的变化,在帧间的动作编码模块中,在特征向量序列中应用了 时间上的位置编码和分层的池化策略。
- 为了更好的挖掘时空内容,聚合人体动作的多级特征。
帧间编码
Temporal position embedding:和Transformer的positional encoding差不多。将时间上的位置进行encoding:
\[ \begin{gathered} P E_{t, 2 h}=\sin \left(t / 10000^{2 h / d_{\text {sout }}}\right) \\ P E_{t, 2 h+1}=\cos \left(t / 10000^{2 h / d_{\text {sout }}}\right)\\ \widehat{f}_{t, h}=f_{t, h}+P E_{t, h} \end{gathered} \]
共享MLP:在时间位置编码之后,再进行特征抽取,加强信息。
Hierarchical pyramid max pooling:类似于多卷积核操作。将时间序列化为不同的几个部分,并且使用max pooling分别抽取特征。
多级特征抽取:序列层级学习是帧间的分级策略,还有帧内的多级特征抽取:
\[ \begin{gathered} P=\underset{t=1, \ldots, T}{\operatorname{MAX}}\left\{\operatorname{MAX}_{j=1, \ldots, n_{2}}\left\{r_{j}^{t}\right\}\right\} \\ R=\operatorname{MAX}_{t=1, \ldots, T}\left\{f_{t}\right\} \end{gathered} \]