0%

  • Guo M H, Liu Z N, Mu T J, et al. Beyond self-attention: External attention using two linear layers for visual tasks[J]. arXiv preprint arXiv:2105.02358, 2021.
  • 清华

自注意力机制在同一个样本内, 任意一个部位的特征都可以聚合所有位置的特征进行加权输出。但是自注意力拥有二次复杂度, 并且不能计算多个样本之间的潜在联系

External-Attention(EAT) 希望在学习某个数据集时, 能够找到多个样本之间的潜在联系。其通过保持一定的key memory, 以找到跨越所有样本的最具有辨识性的特征。这种思想类似于sparse coding 和 dictionary learning。并且由于key memory设计的很小, 因此EAT计算上具有O(n)的复杂度, 比起自注意力高效很多。

external attention
阅读全文 »

  • Rempe D, Birdal T, Zhao Y, et al. Caspr: Learning canonical spatiotemporal point cloud representations[J]. Advances in neural information processing systems, 2020, 33: 13688-13701.
  • Stanford

过去有一些工作做了动态点云的时间学习, 然而这些工作有一个致命限制: 它们缺少时间连续性、鲁棒性、同类泛化性。有一些工作考虑了其中某一个方面, 但没有对这三者整体进行统一的要求。

Canonical Spatiotemporal Point Cloud Representations (CaSPR)致力于对3D形状的时空变化进行编码。

  1. 将输入的点云序列规范化到一个共享的4D container空间: 其先构建了坐标空间Normalized Object Coordinate Space (NOCS) [63], 它能把同类中的一些外在属性引如位置、朝向和放缩程度给规范化。进一步的, CaSPR将NOCS扩展到4D Temporal-NOCS(T-NOCS), 额外将点云序列的持续时间归一化成一个单位时间。对于给定的点云序列, 最终规范化后会给出在时间和空间上都规范化的点云。
  2. 然后在规范化空间中学习连续的时空特征: 其使用了Neural Ordinary Differential Equations (Neural ODEs) [9]。
阅读全文 »

  • Liu J, Xu D. GeometryMotion-Net: A strong two-stream baseline for 3D action recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(12): 4711-4721.
  • 北航计算机
  • 中科院二区

Introduction

一个比较相似的工作是3DV,其使用了PoinNet++抽取几何信息,再通过体素化抽取运动信息。然而体素化之类的过程是计算消耗巨大的,导致3DV本身很慢。GeometryMotion-Net则是用于在点云序列中抽取几何和运动信息,并且不依赖于任何体素化操作。主要思想是利用一个几何流和运动流组成的two-stream框架来进行动作识别。

  1. 采样:帧采样之后,对帧内使用PointNet++类似的set abstraction(FPS, grouping, PointNet)进行下采样。
  2. 几何流:用整个点云序列构造成一个空间整体。其从所有的帧中将点全部合并在一起,然后在每个点的局部邻域中抽取出特征。
  3. 运动流:在相邻两帧之间生成两个虚拟的帧。对于帧内的一个点,首先生成其相对于前后相邻帧的offset特征,然后在offset特征的空间中抽取其局部邻域信息。
整体结构图
阅读全文 »

  • Fan H, Yang Y, Kankanhalli M. Point 4D transformer networks for spatio-temporal modeling in point cloud videos[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14204-14213.
  • CVPR
  • 新加坡国立大学/悉尼科技大学

Introduction

想把点云转为规则数据再进行卷积,一方面由于其稀疏性,通常需要定义稀疏卷积[6]。另外体素化本身也需要额外的计算[59],而这限制了实时处理的能力。

另一种方案是直接处理点云序列。由于点云序列具有不规则性和无序性,其使得点云在不同帧之间不具有连续性。因此通常会使用point tracking来捕获动态点云[36],但这是一个很难的任务。而且tracking通常都是依赖于点的颜色,这也不容易扩展到无色点云。Point 4D Transformer 用于对原始点云序列进行建模,并在3D 动作识别和4D 语义分割任务上证明了优越性。P4DTransformer主要包含:

  1. 4D convolution,对点云序列的时空局部结构进行embedding处理。并且通过这种时空聚合,减少了后续transformer需要处理的点数。
  2. transformer,通过自注意力学习序列全局的appearance和motion信息。相关的局部结构会通过注意力权重联系起来,而不需要显示的进行tracking。
结构图
阅读全文 »

  • Plizzari C, Cannici M, Matteucci M. Skeleton-based action recognition via spatial and temporal transformer networks[J]. Computer Vision and Image Understanding, 2021, 208: 103219.
  • Politecnico di Torino 意大利都灵理工大学
  • Q3

Introduction

尽管ST-GCN的结构已经在骨架动作识别中广泛应用,但是仍然有一些结构上的缺陷。

本文设计了Spatial Self-Attention (SSA) 模块,用于在骨架之间动态的建立联系,而独立于人体真实骨架结构。另外在时间维度上设计了Temporal Self-Attention (TSA)模块用于学习关节在时间上的变化。

Spatial–Temporal Transformer (ST-TR)

Self-Attention最初的灵感是希望对句子中单词进行跨越距离的相关性编码。因此本文希望同样的方式也可以应用到骨架节点上。

空间上:节点之间的相关性是很重要的,因此抛弃了任何预定义的骨架结构,让self-attention自动查找关节关系,类似于动态边的图卷积。

时间上:也希望通过self-attention查找出不同帧的关系。

时空两个Self-Attention,两者都使用了多头注意力机制

Spatial Self-Attention (SSA)

SSA

类似于文本的self-Attention,抛开图结构,对关节点进行注意力计算。,最终输出这个关节点经过注意力编码的特征:

\[ \mathbf{z}_{i}^{t}=\sum_{j} \operatorname{softmax}_{j}\left(\frac{\alpha_{i j}^{t}}{\sqrt{d_{\mathrm{k}}}}\right) \mathbf{v}_{j}^{t} \]

详细结构

Temporal Self-Attention (TSA)

在时间计算中,每个关节点被视为独立的存在,去计算帧之间的注意力关联性:

\[ \alpha_{t u}^{v}=\mathbf{q}_{t}^{v} \cdot \mathbf{k}_{u}^{v} \quad \forall v \in V, \quad \mathbf{z}_{t}^{v}=\sum_{j} \operatorname{softmax}_{u}\left(\frac{\alpha_{t u}^{v}}{\sqrt{d_{\mathrm{k}}}}\right) \mathbf{v}_{u}^{v}, \]

Two-Stream Spatial–Temporal Transformer (ST-TR) Network

ST-TR

为了结合SSA和TSA模块,构造了一个 two-stream architecture(ST-TR)。SSA和TSA分别独立在S-TR stream和 T-TR stream进行应用,然后再融合。(Shi et al. 2019)

两个streams中都先应用了三层的残差网络对特征进行提取。S-TR中在空间上使用了GCN进行提取特征,T-TR中使用了标准的2D卷积(TCN,Yan et al. 2018)。

然后在后续的S-TR模块,T-TR模块(结构如上图)处理中分别用SSA和TSA来替换GCN和TCN。

最后在经历一系列S-TR , T-TR模块的处理后,通过累加起两个stream的softmax输出来获得最终的score。

参考文献

[1] Shi, L., Zhang, Y., Cheng, J., Lu, H., 2019b. Two-stream adaptive graph convolutional networks for skeleton-based action recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 12026–12035.

[2] Shi, L., Zhang, Y., Cheng, J., Lu, H., 2019a. Skeleton-based action recognition with directed graph neural networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 7912–7921.