Wei Y, Liu H, Xie T, et al. Spatial-Temporal Transformer for 3D Point Cloud Sequences[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2022: 1171-1180.
中山大学
不在CCF h5指数62 排计算机视觉第12

提出了Spatio-Temporal Self-Attention(STSA)模块和Resolution Embedding(RE)模块。STSA用于时空联系，RE用于聚合邻域特征，增强特征图的分辨率。

现有的基于point的时空方法要么是使用注意力机制，要么是使用RNN模型。然而，这些方法依赖于长期联系，导致信息冗余。STSA使用了自注意力来提取帧间联系。这样会使冗余程度下降，鲁棒性提高(残差+layer normalization)，训练速度提升。

另外，在语义分割上面的编码器-解码器结构，在编码器降维时会造成信息丢失。RE模块使用了注意力权重来加强分辨率。

Resolution Embedding (RE)

先是时空邻域构造：即多帧的ball query，并且使用两个pointnet++的set abstraction layers进行特征抽取。

Feature Block：使用set abstraction层提取特征 \(n_i^t\)。
Resolution Block：将空间分为两部分，然后把特征再叠加在一起。最后通过一个MLP进行降维处理。通过这样的处理最终抽取出邻域间的信息 \(k_i^t\)。

最终使用两个scalar attention来进行两种特征的融合：

\[ \begin{aligned} a_{1},a_{2}&=Softmax(MLP(k_i^t,n_i^t)) \\ I_i^t&=a_1 \cdot k_i^t + a_2 \cdot n_i^t \end{aligned} \]

Spatio-Temporal Self-Attention(STSA)

在一组空间特征\(I\)输入到SA之前，先将每个空间特征\(I_i^t\)划分为多个patches，并且按时间维度上拼接不同时间的patches，最后得到\(F_{input} \in \mathbb{R}^{N \times d}\)。

由于自注意力会引入初始权重的随机性，导致输出特征可能和输入特征相去甚远。因此将自注意力的计算结果和输入特征构造一个残差连接，形成最后的输出特征。另外，Layer Normalization是常用的加速注意力模型收敛的工具：

\[ F_{output}=LayerNorm[FeedForward(F_{sa_out}+F_{input})] \]