0%

  • Plizzari C, Cannici M, Matteucci M. Skeleton-based action recognition via spatial and temporal transformer networks[J]. Computer Vision and Image Understanding, 2021, 208: 103219.
  • Politecnico di Torino 意大利都灵理工大学
  • Q3

Introduction

尽管ST-GCN的结构已经在骨架动作识别中广泛应用,但是仍然有一些结构上的缺陷。

本文设计了Spatial Self-Attention (SSA) 模块,用于在骨架之间动态的建立联系,而独立于人体真实骨架结构。另外在时间维度上设计了Temporal Self-Attention (TSA)模块用于学习关节在时间上的变化。

Spatial–Temporal Transformer (ST-TR)

Self-Attention最初的灵感是希望对句子中单词进行跨越距离的相关性编码。因此本文希望同样的方式也可以应用到骨架节点上。

空间上:节点之间的相关性是很重要的,因此抛弃了任何预定义的骨架结构,让self-attention自动查找关节关系,类似于动态边的图卷积。

时间上:也希望通过self-attention查找出不同帧的关系。

时空两个Self-Attention,两者都使用了多头注意力机制

Spatial Self-Attention (SSA)

SSA

类似于文本的self-Attention,抛开图结构,对关节点进行注意力计算。,最终输出这个关节点经过注意力编码的特征:

\[ \mathbf{z}_{i}^{t}=\sum_{j} \operatorname{softmax}_{j}\left(\frac{\alpha_{i j}^{t}}{\sqrt{d_{\mathrm{k}}}}\right) \mathbf{v}_{j}^{t} \]

详细结构

Temporal Self-Attention (TSA)

在时间计算中,每个关节点被视为独立的存在,去计算帧之间的注意力关联性:

\[ \alpha_{t u}^{v}=\mathbf{q}_{t}^{v} \cdot \mathbf{k}_{u}^{v} \quad \forall v \in V, \quad \mathbf{z}_{t}^{v}=\sum_{j} \operatorname{softmax}_{u}\left(\frac{\alpha_{t u}^{v}}{\sqrt{d_{\mathrm{k}}}}\right) \mathbf{v}_{u}^{v}, \]

Two-Stream Spatial–Temporal Transformer (ST-TR) Network

ST-TR

为了结合SSA和TSA模块,构造了一个 two-stream architecture(ST-TR)。SSA和TSA分别独立在S-TR stream和 T-TR stream进行应用,然后再融合。(Shi et al. 2019)

两个streams中都先应用了三层的残差网络对特征进行提取。S-TR中在空间上使用了GCN进行提取特征,T-TR中使用了标准的2D卷积(TCN,Yan et al. 2018)。

然后在后续的S-TR模块,T-TR模块(结构如上图)处理中分别用SSA和TSA来替换GCN和TCN。

最后在经历一系列S-TR , T-TR模块的处理后,通过累加起两个stream的softmax输出来获得最终的score。

参考文献

[1] Shi, L., Zhang, Y., Cheng, J., Lu, H., 2019b. Two-stream adaptive graph convolutional networks for skeleton-based action recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 12026–12035.

[2] Shi, L., Zhang, Y., Cheng, J., Lu, H., 2019a. Skeleton-based action recognition with directed graph neural networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 7912–7921.

  • Fan H, Yu X, Ding Y, et al. PSTNet: Point spatio-temporal convolution on point cloud sequences[C]//International Conference on Learning Representations. 2020.
  • National University of Singapore

Introduction

点云可以准确捕捉场景的集合信息,同时对不同的光照条件有较强的鲁棒性。另外,可以通过附带RGB图像来作为3D点的附加特征,以增强点云的能力。

动态点云是不规则和无序的,为了建模点云的动力学,一种解决方案是将点云转换为3D体素序列,然后对体素序列应用4D卷积(Choy等人,2019)。然而,直接对体素序列执行卷积需要大量的计算。此外,在体素化过程中,量化误差是不可避免的,这可能会限制需要精确测量场景几何的应用。另一个解决方案MeteorNet (Liu et al., 2019e)是扩展静态点云方法PointNet++ (Qi et al., 2017b)来处理原始点云序列。

这篇文章的point spatio-temporal (PST) convolution用于直接处理点云序列。由于点云在空间上无序但在时间上有序,因此可以解耦空间和时间信息,来对点云序列进行建模。

点云序列在帧之间没有对应关系,因此PSTNet提出了一个 point tube 结构来保持时空上的局部结构。

主要工作:

  • 首次尝试解耦点云序列的空间和时间信息,提出PST卷积来编码点云序列。
  • PST transposed convolution,用于解码序列,完成point-level的预测任务
阅读全文 »

  • Liu X, Yan M, Bohg J. Meteornet: Deep learning on dynamic 3d point cloud sequences[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9246-9255.
  • Carnegie Mellon University

Meteor Module

MeteorNet应用架构:左:Meteor模块将不同帧的点先混合起来,然后统一输出特征。右:先分别抽取特征,再通过Meteor模块进行时间特征抽取。

聚类方法

(a)dircet grouping (b) Chained-flow grouping
阅读全文 »

课程研讨讲稿,搜集资料的集合,完全非原创,仅供临时参考。

近年来,开源正在变得越来越火,我们经常会看到 “某企业宣布开源”、“某开源大会召开”、“某开源项目获得融资”。个人开发者与企业比以往任何时候都更愿意参与到开源项目的建设和贡献中,开源在国内 IT 领域获得了前所未有的热度,也获得了产业界和投资圈的广泛关注。

但总有些人听到开源一词时,就会误以为 “开源软件是免费的,因此我可以不受限制地随意使用”。在开源诞生之初,自由软件是当时的主流提法,回顾开源的发展史,从自由软件到开源运动实现了非常大的跨越,前者更多的是一种精神的倡导,而后者着眼于软件的协同开放,因此会有非常严谨的开源许可证的规则和限制。开源软件能走到今天的发展程度,就是因为有了这么一套遵从开源精神的规则体系,才能够健康发展。开源精神的载体之一就是开源许可证,今天我们就来扒一扒开源许可证与开源的关系,以及它背后折射出的问题。

阅读全文 »

DDGCN: A Dynamic Directed Graph Convolutional Network for Action Recognition

  • Korban M, Li X. Ddgcn: A dynamic directed graph convolutional network for action recognition[C]//European Conference on Computer Vision. Springer, Cham, 2020: 761-776.
  • University of Virginia

Introduction

之前的时空图网络(ST graph)有着以下两点局限性:第一,人体骨架确实有时空联系性,但是这种联系在不同的人体动作下是不一样的。因此怎么有效地提取这种联系是困难的。传统的GCN卷积方法是静态的,无法描述动态时空结构。第二,骨架的空间层级结构和动作的时间序列结构都包含了顺序信息,然而大多数ST graph都是用了无向图结构,即无视了顺序信息。

DDGCN提出用于自适应学习时空关系和动作的时空顺序信息。

  • Dynamic Convolutional Sampling (DCS)
  • Dynamic Convolutional Weights (DCW)
  • Directed Spatial-Temporal Graph (DSTG) Features
阅读全文 »